<div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif;font-size:small"><div class="gmail_default"><div class="gmail_default"><div class="gmail_default"><div class="gmail_default"><font color="#000000" face="georgia, serif"><span style="letter-spacing:0.2px"><b>When:    </b>Wednesday, November 6th<b> at </b></span><b style="letter-spacing:0.2px"><span style="background-color:rgb(255,255,0)">11AM CT</span></b></font></div><div class="gmail_default"><b style="letter-spacing:0.2px"><font face="georgia, serif" color="#000000"><br></font></b></div><div class="gmail_default"><font face="georgia, serif" color="#000000"><b style="letter-spacing:0.2px">Where:   </b>Talk will be given<span style="background-color:rgb(255,255,0)"> </span><span style="background-color:rgb(255,255,0)"><font style="font-weight:bold"><u>live, in-person</u></font><font style="font-weight:bold"> </font></span>at</font></div><p class="MsoNormal" style="margin:0in;line-height:normal;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><font color="#000000" face="georgia, serif">                    TTIC, 6045 S. Kenwood Avenue</font></p><p class="MsoNormal" style="margin:0in;line-height:normal;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><font color="#000000" face="georgia, serif">                    5th Floor, Room 530<b>  </b></font></p><p class="MsoNormal" style="margin:0in;line-height:normal;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><b style="letter-spacing:0.2px"><font face="georgia, serif" color="#000000"><br></font></b></p><p class="MsoNormal" style="margin:0in;line-height:normal;background-image:initial;background-position:initial;background-size:initial;background-repeat:initial;background-origin:initial;background-clip:initial"><font face="georgia, serif" color="#000000"><b style="letter-spacing:0.2px">Virtually: </b><span style="letter-spacing:0.2px">via Panopto (</span><a href="https://uchicago.hosted.panopto.com/Panopto/Pages/Viewer.aspx?id=0eaa4077-f605-4c22-9d4a-b1e800f9ac24" target="_blank" style="letter-spacing:0.2px">Livestream</a><span style="letter-spacing:0.2px">)</span><br></font></p><div class="gmail_default"><b style="letter-spacing:0.2px"><font face="georgia, serif" color="#000000"><br></font></b></div><div class="gmail_default"><font face="georgia, serif" color="#000000"><span style="letter-spacing:0.2px"><b>Who:      </b></span></font>Yossi Gandelsman, UC Berkeley</div><div class="gmail_default"><span style="letter-spacing:0.2px"><font face="georgia, serif" color="#000000"><br></font></span></div><div class="gmail_default"><font face="georgia, serif" color="#000000"><b style="letter-spacing:0.2px">Title:</b>       </font>Reverse Engineering CLIP </div><div class="gmail_default"><font face="georgia, serif"><br><b style="color:rgb(0,0,0);letter-spacing:0.2px">Abstract: </b></font>In this talk, I reverse engineer the computation inside CLIP, one of the most commonly used computer vision backbones. I analyze how individual model components affect the final CLIP representation. I show that the image representation can be decomposed as a sum across individual image patches, model layers, neurons, and attention heads, and use CLIP’s text representation to interpret the summands.</div>When interpreting the attention heads, each head role can be characterized by automatically finding text representations that span its output space, which reveals property-specific roles for many heads (e.g. location or shape). Next, interpreting the image patches uncovers an emergent spatial localization within CLIP. Finally, the automatic description of the contributions of individual neurons shows polysemantic behavior - each neuron corresponds to multiple, often unrelated, concepts (e.g. ships and cars).<br>The gained understanding of different components allows three main applications: First, the discovered head roles enable the removal of spurious features from CLIP. Second, emergent localization is used for a strong zero-shot image segmenter. Finally, the extracted neuron polysemy allows the mass production of “semantic” adversarial examples by generating images with concepts spuriously correlated to the incorrect class. The results indicate that a scalable understanding of transformer models is attainable and can be used to detect model bugs, repair them, and improve them.<br><div><font face="georgia, serif" color="#000000"><br></font></div><div><div class="gmail_default"><font face="georgia, serif" color="#000000"><b>Bio:</b> Yossi Gandelsman is<b> </b></font>a PhD student at Berkeley AI Research (UC Berkeley), advised by Prof. Alexei Efros, and a visiting researcher at FAIR (Meta). They work on computer vision and deep learning problems. Previously, they were a member of the Perception Team at Google Research (now Google-DeepMind). They completed their M.Sc. at the Faculty of Mathematics and Computer Science of the Weizmann Institute of Science, advised by Prof. Michal Irani, and a B.Sc. at the Open University of Israel.</div><div><font color="#000000" face="georgia, serif"><br></font></div></div></div><div><div class="gmail_default"><b><font face="georgia, serif" color="#000000">Host: <a href="mailto:shiry@ttic.edu">Shiry Ginosar</a></font></b></div></div></div><font color="#888888"><font color="#888888"><div><br></div></font></font></div><span class="gmail_signature_prefix">--</span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><b style="font-family:Arial,Helvetica,sans-serif"><font color="#3d85c6">Brandie Jones </font></b><div style="font-family:Arial,Helvetica,sans-serif"><div><div><font color="#3d85c6"><b><i>Executive </i></b></font><b style="color:rgb(61,133,198)"><i>Administrative Assistant</i></b></div></div><div><font color="#3d85c6">Toyota Technological Institute</font></div><div><font color="#3d85c6">6045 S. Kenwood Avenue</font></div><div><font color="#3d85c6">Chicago, IL  60637</font></div></div><div style="font-family:Arial,Helvetica,sans-serif"><font color="#3d85c6"><a href="http://www.ttic.edu/" target="_blank">www.ttic.edu</a> </font></div><br class="gmail-Apple-interchange-newline"></div></div></div></div>