<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div class="elementToProof" style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
This is an announcement of Ozan Gokdemir's MS Presentation</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
===============================================</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Candidate: Ozan Gokdemir</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Date: Thursday, May 09, 2024</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Time: 12 pm CST</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Location: JCL 011</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Title: Retrieval-Augmented Scientific Question Answering</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Abstract: Staying abreast of the latest developments is crucial for scientists to advance their fields through new hypotheses. The rapid rate of advancement in scientific knowledge, however, renders it insurmountable for any individual scientist to holistically
 process the flow of information. The National Science Foundation reports that the number of science and engineering articles published in open-access journals has increased over 50-fold in the past two decades, from 19,000 in 2003 to 992,000 in 2022. At this
 scale, computational tools are needed to assist scientists in synthesizing a wide array of recent findings in the literature into novel scientific hypotheses.</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
This thesis explores the application of Retrieval-Augmented Generation (RAG) in the context of scientific question answering. RAG combines the strengths of information retrieval and language generation to produce contextually relevant and factually grounded
 answers to knowledge-intensive questions. The RAG model uses a vast scientific literature corpus to retrieve relevant information for answers beyond its training data. As a result, it offers a natural language interface to millions of scientific articles,
 shifting the workload of the modern scientist from manual literature review to creative hypothesis generation.</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Our methodology involves parsing scientific articles from PDFs to raw text at an unprecedented scale. We then semantically chunk the text and encode them into a vector database, both in a distributed fashion. The vector database is used for fast and parallelized
 neural retrieval which provides relevant excepts to a given user question. Finally, the generator leverages this information, along with the knowledge it obtained from pretraining, to answer the question. We evaluate our model on five scientific question-answering
 benchmarks and find that our model overperforms GPT-4 by answering over 90% of the questions correctly in the SciQ dataset. The findings suggest that retrieval-augmented generation holds promise as a tool for accelerating scientific discovery by assisting
 researchers in ingesting scientific literature and forming new hypotheses.</div>
<div style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div class="elementToProof" style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Advisors: Rick Stevens</div>
<div class="elementToProof" style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
<br>
</div>
<div class="elementToProof" style="font-family: Calibri, Helvetica, sans-serif; font-size: 11pt; color: rgb(0, 0, 0);">
Committee Members: Ian Foster, Rick Stevens, and Arvind Ramanathan</div>
<div id="Signature">
<div style="background-color: rgb(255, 255, 255);"></div>
</div>
</body>
</html>