<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<div class="" style="word-wrap:break-word; line-break:after-white-space">
<div class="">
<div dir="auto" class="" style="color:rgb(0,0,0); letter-spacing:normal; text-align:start; text-indent:0px; text-transform:none; white-space:normal; word-spacing:0px; text-decoration:none; word-wrap:break-word; line-break:after-white-space">
<div dir="auto" class="" style="color:rgb(0,0,0); letter-spacing:normal; text-align:start; text-indent:0px; text-transform:none; white-space:normal; word-spacing:0px; text-decoration:none; word-wrap:break-word; line-break:after-white-space">
<div dir="auto" class="" style="color:rgb(0,0,0); letter-spacing:normal; text-align:start; text-indent:0px; text-transform:none; white-space:normal; word-spacing:0px; text-decoration:none; word-wrap:break-word; line-break:after-white-space">
<div dir="auto" class="" style="color:rgb(0,0,0); letter-spacing:normal; text-align:start; text-indent:0px; text-transform:none; white-space:normal; word-spacing:0px; text-decoration:none; word-wrap:break-word; line-break:after-white-space">
<div>
<div class="x_ContentPasted0" style="border:0px; font-stretch:inherit; line-height:inherit; margin:0px; padding:0px; vertical-align:baseline; background-color:rgb(255,255,255)">
<span class="" style="font-size:14.666666984558105px">This is an announcement of Pranav Subramaniam's MS Presentation</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">===============================================</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Candidate: Pranav Subramaniam</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Date: Friday, September 22, 2023</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Time: 10:30 am CST</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Location: JCL 011</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">M.S. Paper Title: LLM-AS-A-CROWD: HOW TO USE LLMS FOR DATA INTEGRATION TASKS</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Abstract: Large Language Models (LLMs) are capable of answering questions without task-specific</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">training data, which creates an opportunity to address data integration tasks such as entity</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">resolution, joinability, and unionability. Solving these tasks requires incorporating semantic</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">knowledge, which has been a hard-to-address challenge. LLMs exhibit a tremendous capacity</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">to understand nuance in language and thus are promising for this task. However, using them</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">requires addressing two challenges: i) how to query them to obtain valid answers, i.e., prompt</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">engineering; ii) how to best incorporate them along today’s software pipelines.</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">In this paper, we study the potential of LLMs for data integration tasks. We find that</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">thinking of LLMs-as-a-crowd is a useful mental model to leverage them for data integration</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">tasks because it results in high quality results without any access to training data—which</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">many state of the art methods rely on—and without any dependence on good prompt engineering</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">skills. We integrate LLMs into software pipelines that leverage the vast research in</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">the areas of entity resolution, joinability, and unionability. We find that LLMs are effective</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">as an aid—but not a replacement–to software integration pipelines, thus effectively building</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">on previous efforts.</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">We obtain state of the art results for the three tasks we study, entity resolution, joinability,</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">and unionability. And we demonstrate that thinking of LLMs-as-a-crowd is effective and</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">complementary to other methods, such as few-shot learning. All in all, our experimental</span><br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">evaluation paves the way for further study of the use of LLMs for data integration tasks.</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Advisors: Raul Castro Fernandez</span><br class="" style="font-size:14.666666984558105px">
<br class="" style="font-size:14.666666984558105px">
<span class="" style="font-size:14.666666984558105px">Committee: Raul Castro Fernandez, Aaron Elmore, and Sanjay Krishnan</span><br class="" style="font-size:14.666666984558105px">
</div>
<div class=""><br class="">
</div>
</div>
</div>
</div>
<br class="">
</div>
</div>
</div>
</div>
<div class="" style="word-wrap:break-word; line-break:after-white-space">
<div class=""></div>
<div class=""><br class="x_webkit-block-placeholder">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<br class="">
</div>
</body>
</html>