<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class=""><div dir="auto" class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); word-wrap: break-word; line-break: after-white-space;"><font face="Arial" class=""><b class="" style="font-size: 14px;"><font color="#000000" class="">University of Chicago and Toyota Technological Institute at Chicago<br class="">Machine Learning Seminar Series</font></b><br class=""><br class=""><br class=""><b class="" style="font-size: 14px;">Madeleine Udell</b><br class=""><font color="#000000" class=""><span class="" style="font-size: 14px;">Assistant Professor Operations Research & Information Engineering<br class="">Cornell</span></font><br class=""><br class=""><font color="#000000" class=""><span class="" style="font-size: 14px;"><b class="">Friday, October 18 10:30 – 11:30 am<br class=""></b></span></font>JCL, RM 390<br class=""><br class=""><br class=""><b class="" style="font-size: 14px;">Title:</b></font></div><div dir="auto" class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); word-wrap: break-word; line-break: after-white-space;"><font class=""><font color="#000000" face="Arial" class=""><span class="" style="font-size: 15.333333015441895px;">Big data is low rank</span></font><br class=""><b class="" style="font-family: Arial; font-size: 14px;"><font face="Arial" class="" style="font-weight: normal;"><b class=""><br class=""></b></font></b></font></div><div dir="auto" class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); word-wrap: break-word; line-break: after-white-space;"><font face="Arial" class=""><span class=""><font face="Arial" class="" style="font-size: 14px;"><b class="">Abstract:</b><br class=""></font><div class=""><font color="#000000" class=""><span class="" style="font-size: 14px;">Matrices of low rank are pervasive in big data, appearing in recommender systems, movie preferences, topic models, medical records, and genomics. While there is a vast literature on how to exploit low rank structure in these datasets, there is less attention on explaining why low rank structure appears in the first place.   In this talk, we explain the abundance of low rank matrices in big data by proving that certain latent variable models associated to piecewise analytic functions are of log-rank. Any large matrix from such a latent variable model can be approximated, up to a small error, by a low rank matrix. Armed with this theorem, we show how to use a low rank modeling framework to exploit low rank structure even for datasets that are not numeric, with applications in the social sciences, medicine, and automated machine learning.</span></font></div><font face="Arial" class="" style="font-size: 14px;"><b class=""><div dir="auto" class="" style="word-wrap: break-word; line-break: after-white-space;"><font face="Arial" class=""><span class=""><font face="Arial" class=""><b class=""><br class=""></b></font></span></font></div>Bio:</b><br class=""></font><font color="#000000" class=""><span class=""><span class="" style="font-size: 14px;">Madeleine Udell is Assistant Professor of Operations Research and Information Engineering and Richard and Sybil Smith Sesquicentennial Fellow at Cornell University. She studies optimization and machine learning for large scale data analysis and control, with applications in marketing, demographic modeling, medical informatics, engineering system design, and automated machine learning. Her research in optimization centers on detecting and exploiting novel structures in optimization problems, with a particular focus on convex and low rank problems. Her research in machine learning centers on methods for imputing missing data in large tabular data sets. Her work on generalized low rank models (GLRMs) extends principal components analysis (PCA) to embed tabular data sets with heterogeneous (numerical, Boolean, categorical, and ordinal) types into a low dimensional space, providing a coherent framework for compressing, denoising, and imputing missing entries. </span><br class=""><b class="" style="font-size: 14px;">Host: Rebecca Willett</b></span></font></span></font></div></div><div class=""><font face="Arial" class=""><span class=""><font color="#000000" class=""><span class=""><b class="" style="font-size: 14px;"><br class=""></b></span></font></span></font></div><div class=""><font face="Arial" class=""><span class=""><font color="#000000" class=""><span class=""><b class="" style="font-size: 14px;"><br class=""></b></span></font></span></font></div><div class=""><font face="Arial" class=""><span class=""><font color="#000000" class=""><span class=""><b class="" style="font-size: 14px;"></b></span></font></span></font></div></body></html>