<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class=""><div class=""><span style="font-size: 14px;" class=""><b class="" style="font-family: LucidaGrande; background-color: rgba(255, 255, 255, 0);"><u class="">Department of Computer Science </u></b><b class="" style="background-color: rgba(255, 255, 255, 0); font-family: LucidaGrande;"><u class="">Seminar</u></b></span></div></div><div class="" style="font-family: LucidaGrande;"><span class="" style="background-color: rgba(255, 255, 255, 0);"><br class=""></span></div><div class=""><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">Monday, February 20, 2017</span></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">2:30 pm</span></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">Ryerson 251 </span></div><div class="" style="font-family: LucidaGrande;"><br class=""></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">Theodoros (Theo) Rekatsinas</span></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">(Stanford University)</span></div><div class="" style="font-family: LucidaGrande;"><br class=""></div><div class=""><span style="font-size: 14px;" class=""><span class="" style="font-family: LucidaGrande;">Title: Data Integration with Unreliable Sources</span><br class="gmail-m_4827095062818533991gmail_msg"><br class="gmail-m_4827095062818533991gmail_msg"><span class="" style="font-family: LucidaGrande;">Abstract: </span></span></div><div class=""><font face="LucidaGrande" style="font-size: 14px;" class="">Data integration is an essential element of data-intensive science and modern analytics. Users often need to combine data from different sources to gain new scientific knowledge, obtain accurate insights, and create new services. However, today's upsurge in the number and heterogeneity——in terms of format and reliability——of data sources limits the ability of users to reason about the value of data. This raises the fundamental questions: what makes a data source useful to end users, how can we integrate unreliable data, and which sources we need to combine to maximize the user's utility?<br class=""><br class="">In this talk, I discuss how to assess and leverage the quality and reliability of data to make data integration more efficient. Specifically, I demonstrate how statistical learning is the key to managing large volumes of heterogeneous sources effectively. Building upon this observation, I introduce new solutions to classical data integration problems, such as data conflict resolution and data cleaning, and show that these solutions outperform their traditional counterparts by large margins. I finish with an outlook on how recent advancements in machine learning have the potential to streamline the construction of end-to-end data curation systems and bring data closer to users.</font><p class="gmail-m_4827095062818533991inbox-inbox-p1" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class=""><br class=""></span></p><div class=""><p class="MsoNormal"><span style="font-size: 14px;" class=""><span style="font-family: 'Lucida Grande';" class="">Bio:  Theodoros (Theo) Rekatsinas is a Moore Data Postdoctoral Fellow at Stanford working with Christopher Ré; he earned his Ph.D. in Computer Science from the University of Maryland, where he was advised by Amol Deshpande and Lise Getoor. His research interests are in data management, with a focus on data integration, data cleaning, and uncertain data. Theo's work on using quality-aware data integration techniques to forecast the emergence and progression of disease outbreaks received the Best Paper Award at SDM 2015. Theo was awarded the Larry S. Davis Doctoral Dissertation award in 2015. Website: </span><a href="http://stanford.edu/~thodrek/" style="font-family: 'Lucida Grande';" class="">http://stanford.edu/~thodrek/</a></span></p><div style="font-family: LucidaGrande;" class=""><span style="font-size: 14px;" class=""><br class=""></span></div><div style="font-family: LucidaGrande;" class=""><span style="font-size: 14px;" class=""><br class=""></span></div></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class="">Host: Aaron Elmore</span></div><div class="" style="font-family: LucidaGrande;"><span style="font-size: 14px;" class=""><br class=""></span></div><div class="" style="font-family: LucidaGrande;"><font size="2" class="">Refreshments in Ry. 255 after the talk</font></div><div style="font-family: LucidaGrande;" class=""><br class=""></div><div style="font-family: LucidaGrande;" class=""><br class=""></div><div style="font-family: LucidaGrande;" class=""><p class="MsoNormal"><br class=""></p><div class=""><span style="font-family: 'Times New Roman';" class=""> </span><br class="webkit-block-placeholder"></div></div></div></div></body></html>