<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Aptos;
        panose-1:2 11 0 4 2 2 2 2 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Aptos",sans-serif;
        mso-ligatures:standardcontextual;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#467886;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Aptos",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:11.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="#467886" vlink="#96607D" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal">This is an announcement of JinJin Zhao's Candidacy Exam<o:p></o:p></p>
<p class="MsoNormal">===============================================<o:p></o:p></p>
<p class="MsoNormal"><b>Candidate:</b> JinJin Zhao<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Date:</b> Tuesday, August 6, 2024<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Time:</b>  1:00 pm CST<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Location:</b> JCL 298<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Remote Location:</b> <a href="https://uchicago.zoom.us/j/95235776983?pwd=kJShne0FV5WhFaObirb36PzDmvbaxj.1">
https://uchicago.zoom.us/j/95235776983?pwd=kJShne0FV5WhFaObirb36PzDmvbaxj.1</a><o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Title:</b> Understanding Data in Data Science and Machine Learning<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Abstract:</b> The growing prominence of data science has sparked increased interest in documenting typical data project processes. Understanding data manipulation, processing, and analysis methods can help optimize tools, identify potential
 biases, and highlight variations between analyses. In this talk, I present two of my recent works on creating systems for data science documentation.  Firstly, I will discuss DSLog, a data provenance system that optimizes the storage and query of  fine grained
 cell level lineage for arrays. Given a series of array transformations, DSLog enables the understanding of which cells in initial array contributed to cells in the final array. It uses range compression and columnar database techniques to optimize time and
 space efficiency. The second project is DataInquirer, a human-in-the-loop system for meta-data analysis of Jupyter notebooks. DataInquirer combines multiple state-of-the-art code and lineage capture methods to enable efficient systematic comparisons of various
 data science pipelines. We conducted a multi-year pilot study at the University of Chicago using DataInquirer to capture variations in student behavior during a typical data science class project.<o:p></o:p></p>
<p class="MsoNormal"><o:p></o:p></p>
<p class="MsoNormal">These projects establish a foundation for future large-scale analysis of semi-structured data artifacts and by-products. As we increasingly rely on data to validate scientific understanding and to create AI models that match human capabilities,
 ensuring governance and transparency in how the data is formed becomes important. This transparency could provide valuable insights into the final product's characteristics and limitations.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Advisors:</b> Sanjay Krishnan<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Committee Members:</b> Sanjay Krishan, Micheal Franklin, and Raul Castro Fernandez<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</body>
</html>