<div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif;font-size:small"><div id="gmail-:fw4" class="gmail-Ar gmail-Au gmail-Ao"><div id="gmail-:109q" class="gmail-Am gmail-Al editable gmail-LW-avf gmail-tS-tW gmail-tS-tY" aria-label="Message Body" role="textbox" aria-multiline="true" tabindex="1" style="direction:ltr;min-height:270px" aria-controls=":18nx" aria-expanded="false"><div class="gmail_default"><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"><b>When:</b>        Wednesday, December 6th, 2023 at<b> <u style="background-color:rgb(255,255,0)">10:30 am CT</u>   </b></font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"> </font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"><b>Where:      </b>Talk will be given <span style="background-color:rgb(255,255,0)"><b><u>live, in-person</u></b><b> </b></span>at</font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000">                     TTIC, 6045 S. Kenwood Avenue</font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000">                     5th Floor, Room 530<b> </b></font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"> </font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"><b><span style="letter-spacing:0.15pt">Virtually:</span></b><span style="letter-spacing:0.15pt">  via Panopto <a href="https://uchicago.hosted.panopto.com/Panopto/Pages/Viewer.aspx?id=aa08dc21-4f8c-44de-b1c7-b0ce01208743" target="_blank"><b>livestream</b></a></span></font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"> </font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"><b>Who: </b>         <span style="letter-spacing:0.2px">Dingli Yu, Princeton University </span></font></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><b><span style="line-height:13.91px"><font face="georgia, serif" color="#000000"><br></font></span></b></p><p class="MsoNormal" style="margin:0in;font-family:Arial,Helvetica,sans-serif;line-height:normal"><font face="georgia, serif" color="#000000"><b><span style="line-height:13.91px">Title:</span></b><span style="line-height:13.91px">          </span>Feature Learning in Infinite-Depth Neural Networks</font></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><font face="georgia, serif" color="#000000"><b><span style="line-height:13.91px"><br>Abstract:</span></b><span style="line-height:13.91px"> </span>By classifying infinite-width neural networks and identifying the optimal limit, Tensor Programs IV and V demonstrated a universal way, called μP, for widthwise hyperparameter transfer, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for depthwise parametrizations of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In recent where each block has only one layer, we identify a unique optimal parametrization, called Depth-μP that extends μP and show empirically it admits depthwise hyperparameter transfer. We identify feature diversity as a crucial factor in deep networks, and Depth-μP can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significantly better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.</font></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><font face="georgia, serif" color="#000000"><b><span style="line-height:13.91px">Bio:</span></b><span style="line-height:13.91px"> </span>Dingli Yu is a final-year Ph.D. candidate at the Computer Science Department at Princeton University, advised by Professor Sanjeev Arora. His research focuses on deep learning theory with an emphasis on its practical application. His work contributes to the line of research on training dynamics of overparametrized neural networks, centering around neural tangent kernel (NTK) and feature learning under the Tensor Program framework. His recent work also provides practical application of theory to efficient and robust development of Large Language Models (LLMs). </font></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><font face="georgia, serif" color="#000000"><br></font></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><font face="georgia, serif" color="#000000"><b><span style="line-height:13.91px">Host: <a href="mailto:zhiyuanli@ttic.edu" target="_blank">Zhiyuan Li</a></span></b></font></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><span style="line-height:13.91px"><font face="georgia, serif" color="#000000"> </font></span></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><span style="line-height:13.91px"><font face="georgia, serif" color="#000000">**********************************************************************************</font></span></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><span style="line-height:13.91px"><font face="georgia, serif" color="#000000">The <b><i>TTIC Young Researcher Seminar Series</i> </b>(<a href="http://www.ttic.edu/young-researcher.php" target="_blank">http://www.ttic.edu/young-researcher.php</a>) features talks by Ph.D. students and postdocs whose research is of broad interest to the computer science community. The series provides an opportunity for early-career researchers to present recent work to and meet with students and faculty at TTIC and nearby universities.</font></span></p><p class="MsoNormal" style="margin:0in 0in 8pt;font-family:Arial,Helvetica,sans-serif;line-height:13.91px"><span style="line-height:13.91px"><span class="gmail_signature_prefix" style="color:rgb(136,136,136)">--</span><br style="color:rgb(136,136,136)"></span></p><div dir="ltr" class="gmail_signature" style="color:rgb(136,136,136);font-family:Arial,Helvetica,sans-serif"><div dir="ltr"><b><font color="#3d85c6">Brandie Jones </font></b><div><div><div><font color="#3d85c6"><b><i>Executive </i></b></font><b style="color:rgb(61,133,198)"><i>Administrative Assistant</i></b></div></div><div><font color="#3d85c6">Toyota Technological Institute</font></div><div><font color="#3d85c6">6045 S. Kenwood Avenue</font></div><div><font color="#3d85c6">Chicago, IL  60637</font></div></div><div><font color="#3d85c6"><a href="http://www.ttic.edu/" target="_blank">www.ttic.edu</a> </font></div><div><font color="#3d85c6"><div style="background-color:rgb(238,238,238)"><div style="color:rgb(32,33,36)"><span style="color:rgb(61,133,198)">Working Remotely on Tuesdays</span></div></div></font></div></div></div></div></div></div></div><div><br></div><br></div>