<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><div class="">This is a reminder of Alex Zhao's MS Presentation. Alex is a student in the Bx/MS program.</div><div class=""><br class=""></div><div class=""><font color="#000000" class="">—————————————————————————————————————————————————————————</font></div><div class=""><span class=""><br class=""></span></div><div class=""><span class=""><b class="">Date:</b> Friday, May 21, 2021</span></div><div class=""><span class=""><br class=""></span></div><div class=""><span class=""><b class="">Time:</b> 8:30 AM, CST</span></div><div class=""><span class=""><br class=""></span></div><div class=""><span class=""><b class="">Location:</b> </span>remote via Zoom <<a href="https://uchicago.zoom.us/j/98182061557?pwd=eU5RT0ZGbUZLVUhaMzlFL1NNKzg2dz09" class="">https://uchicago.zoom.us/j/98182061557?pwd=eU5RT0ZGbUZLVUhaMzlFL1NNKzg2dz09</a>></div><div class=""><br class=""></div><div class=""><b class="">M.S. Candidate:</b> Alex Zhao</div><div class=""><br class=""></div><div class=""><b class="">M.S. Paper Title:</b> Boosting Machine Learning Performance with Relational Embedding Data Augmentation</div><div class=""><br class=""></div><div class=""><b class="">Advisor:</b> Raul Castro Fernandez</div><div class=""><br class=""></div><div class=""><b class="">Committee Members:</b> Aaron Elmore, Sanjay Krishnan, and Raul Castro Fernandez</div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><b class="">Abstract:</b></div><div class="">---------------------------------------------------------------------------------</div><div class=""><font color="#000000" class="">Training machine learning models on relational data involves identifying schema relations, combining tables, and engineering features. Extensive human effort in the process poses difficulty for users who are unfamiliar with the dataset and creates an awkward dilemma where users have to forgo performance boost to save effort. In our research, we present Leva, an end-to-end system that produces distributed vector representations of relational data that can be directly fed as inputs for downstream machine learning tasks. Leva processes and embeds information across different tables into compact vector representations without any prior knowledge of database schema. When used as featurized inputs for downstream tasks, the embedding (1) saves the trouble of relation identification, join execution and feature engineering (2) closely resembles, and in some cases, outperforms, heavily-engineered joining solutions. We show that using embedding as featurized inputs generalizes well across tasks and datasets.</font></div><div class="">------------------------------------------------------------------------------------------</div><div class=""><br class=""></div></div><div class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div>Jessica Garza<br class="">Assistant Director of Undergraduate Studies<br class="">Department of Computer Science<br class="">The University of Chicago<br class=""><a href="https://cs.uchicago.edu/remote2020/" class="">Covid-19 Resources</a></div></div>

</div>

<br class=""></body></html>