<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class=""><span class="" style="font-size: 14px; orphans: 2; widows: 2;">UNIVERSITY OF CHICAGO</span><br class="" style="font-size: 14px; orphans: 2; widows: 2;"><span class="" style="font-size: 14px; orphans: 2; widows: 2;">DEPARTMENT OF COMPUTER SCIENCE</span></div><div class="" style="orphans: 2; widows: 2;"><span class="" style="font-size: 14px;">PRESENTS</span></div><div class="" style="orphans: 2; widows: 2;"><span class="" style="font-size: 14px;"><br class=""></span></div><div class="" style="orphans: 2; widows: 2;"><img apple-inline="yes" id="B71AA53D-7CAC-4773-AA4B-542EEFA46E56" height="131" width="84" apple-width="yes" apple-height="yes" src="cid:1C87B174-F507-490D-85AC-822DFD3BEFEE@cs.uchicago.edu" class=""></div><div class="" style="orphans: 2; widows: 2;"><br class=""></div><div class="" style="orphans: 2; widows: 2;"><div class="" style="margin: 0in 0in 0.0001pt;"><b class="" style="font-size: 14px;">Sanjay Krishnan</b></div><div class="" style="margin: 0in 0in 0.0001pt;"><span class=""><span class="" style="font-size: 14px;"><span class=""><i class="">University of California, Berkeley</i></span></span></span></div><div class="" style="margin: 0in 0in 0.0001pt;"><br class=""></div><div class="" style="margin: 0in 0in 0.0001pt;"><b class=""><font class="" style="font-size: 14px;"><br class=""></font></b></div><div class="" style="margin: 0in 0in 0.0001pt;"><span class="" style="font-size: 14px;"><b class=""><font class="">Tuesday, February 20, 2018 at 3:30 pm <br class="">Ryerson 251</font></b><br class=""></span></div></div><div class="" style="orphans: 2; widows: 2;"><span class="" style="font-size: 14px;"><br class=""></span></div><div class=""><br class=""></div><div class=""><div class=""><b class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;">Title:  </b><font color="#212121" face="Roboto, Helvetica, Arial, sans-serif" class=""><span class="" style="font-size: 14px;">The Statistics of Dirty Data</span></font></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;"><b class=""><br class=""></b></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;"><b class="">Abstract:</b></div><div class=""><font color="#212121" class=""><span class=""><div style="color: rgb(34, 34, 34); font-variant-ligatures: normal; background-color: rgb(255, 255, 255);" class=""><div class=""><span style="font-size: 14px;" class="">A statistical model is only as good as its training data. Systematic errors can arise when data are integrated from untrustworthy sources, collected in mixed formats, or contain inconsistent references of the same real-world entities. This talk describes the classical relational database topic of "data cleaning", i.e., the process of transforming the data to remove such issues, from a modern statistical perspective. My talk emphasizes two central themes: (1) analyzing data cleaning algorithms using statistical theory regarding sample-complexity and generalization and (2) building data cleaning systems for emerging statistical machine learning and AI applications. My results include new error bounds for query processing after data cleaning, learning-theoretic models for understanding the accuracy of data transformation rules on unseen data, and experimental results on the design of scalable data cleaning systems deployed in applications ranging from real-time robot learning to investigative journalism. I conclude by describing our ongoing effort on a system called AlphaClean, which leverages reinforcement learning to synthesize data cleaning programs for very unstructured data cleaning problems. </span></div></div><div style="color: rgb(34, 34, 34); font-variant-ligatures: normal; background-color: rgb(255, 255, 255);" class=""><br class=""></div><font face="Roboto, Helvetica, Arial, sans-serif" style="font-size: 14px;" class=""> </font></span><br class=""></font><b class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;">Bio:</b></div><div class=""><div style="color: rgb(34, 34, 34); font-variant-ligatures: normal; background-color: rgb(255, 255, 255);" class=""><span style="font-size: 14px;" class=""><i class=""><span class="gmail-m_-1142815567856516008gmail-il">Sanjay</span> Krishnan is a Computer Science PhD candidate in the RISELab and in the AUTOLAB (Berkeley Laboratory for Automation Science and Engineering) at UC Berkeley. His research studies problems at the intersection of database theory, machine learning, and robotics. <span class="gmail-m_-1142815567856516008gmail-il">Sanjay</span>'s work has received a number of awards including the 2016 SIGMOD Best Demonstration award, 2015 IEEE GHTC Best Paper award, and Sage Scholar award. </i></span></div><div style="color: rgb(34, 34, 34); font-variant-ligatures: normal; background-color: rgb(255, 255, 255);" class=""><span style="font-size: 14px;" class=""><i class=""><br class=""></i></span></div><div style="color: rgb(34, 34, 34); font-variant-ligatures: normal; background-color: rgb(255, 255, 255);" class=""><span style="font-size: 14px;" class=""><i class="">Website: <a href="https://www.ocf.berkeley.edu/~sanjayk/" target="_blank" style="color: rgb(17, 85, 204);" class="">https://www.ocf.berkeley.edu/~<wbr class="">sanjayk/</a></i></span></div></div><div class=""><font color="#212121" face="Roboto, Helvetica, Arial, sans-serif" class=""><span class="" style="font-size: 14px;"><i class=""><br class=""></i></span></font></div><div class=""><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;"><b class=""><br class=""></b></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;"><b class="">Host:  Aaron Elmore</b></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif; font-size: 14px;"><br class=""></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif;"><i class=""><font size="2" class="">Refreshments served after the talk in Ry. 255</font></i></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif;"><i class=""><font size="2" class=""><br class=""></font></i></div><div class="" style="color: rgb(33, 33, 33); font-family: Roboto, Helvetica, Arial, sans-serif;"><i class=""><font size="2" class="">Link to PDF:  </font></i><a href="https://www.cs.uchicago.edu/sites/cs/files/uploads/seminar_announcements/Krishnanposter.pdf" class="">https://www.cs.uchicago.edu/sites/cs/files/uploads/seminar_announcements/Krishnanposter.pdf</a></div></div></div></body></html>