<div dir="ltr"><p dir="ltr" style="color:rgb(0,0,0);font-family:-webkit-standard;line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="font-family:Arial;color:rgb(47,47,47);background-color:transparent;font-weight:700;font-variant-east-asian:normal;vertical-align:baseline;white-space:pre-wrap"><span style="color:rgb(0,0,0);font-family:arial,helvetica,sans-serif">When: </span><span style="color:rgb(0,0,0);font-family:arial,helvetica,sans-serif;font-weight:400">    Wednesday, May 1st </span><span class="gmail-m_-3244609389970801979gmail-m_-3623658629141391452gmail-m_9092035972284487620gmail-m_3787129533418353062m_8623545428725725323gmail-m_2873882304663502708gmail-m_-3789046984517165451gmail-m_6280573200025755333gmail-m_5159318120685850543gmail-m_1790959466673216095gmail-m_-5333227643664982572m_2625127627517695854m_2683896348608817813gmail-m_7672563966056633266gmail-m_-6461243813863673855gmail-m_-742000311328020925gmail-m_7559459027998801583gmail-m_4801029585485711767gmail-m_8517121454174849988gmail-m_-6691959996525573090gmail-m_1517372298344856049gmail-m_491069367152086750gmail-m_-8327640324523575189gmail-m_2420618808463760418gmail-m_7960197898027616883gmail-m_8692226636264124041gmail-m_2794822896869921223gmail-m_7508998950622620526gmail-m_-7153355664495542534gmail-il" style="color:rgb(0,0,0);font-family:arial,helvetica,sans-serif;font-weight:400">at</span><span style="color:rgb(0,0,0);font-family:arial,helvetica,sans-serif;font-weight:400"> </span><b style="color:rgb(0,0,0);font-family:arial,helvetica,sans-serif">11:00 am</b>
</span></p><div class="gmail_default"><font color="#000000" face="arial, helvetica, sans-serif"><br></font></div><div class="gmail_default" style="font-weight:bold"><font color="#000000" face="arial, helvetica, sans-serif">Where:<span style="font-weight:400">    </span><span class="gmail-m_-3244609389970801979gmail-m_-3623658629141391452gmail-m_9092035972284487620gmail-m_3787129533418353062m_8623545428725725323gmail-m_2873882304663502708gmail-m_-3789046984517165451gmail-m_6280573200025755333gmail-m_5159318120685850543gmail-m_1790959466673216095gmail-m_-5333227643664982572m_2625127627517695854m_2683896348608817813gmail-m_7672563966056633266gmail-m_-6461243813863673855gmail-m_-742000311328020925gmail-m_7559459027998801583gmail-m_4801029585485711767gmail-m_8517121454174849988gmail-m_-6691959996525573090gmail-m_1517372298344856049gmail-m_491069367152086750gmail-m_-8327640324523575189gmail-m_2420618808463760418gmail-m_7960197898027616883gmail-m_8692226636264124041gmail-m_2794822896869921223gmail-m_7508998950622620526gmail-m_-7153355664495542534gmail-m_8421504075585210435gmail-m_3262824545120381495gmail-m_-1141671822915777344gmail-m_-7219251726624328345gmail-m_-8588148075564318222gmail-m_-8767966813928691312gmail-m_-1542318334608687154gmail-m_5717104778280916634gmail-m_4845490158781220632gmail-m_5124567205141626540gmail-m_3209361100497750746gmail-m_2953668934074478317gmail-m_-3155518689668024534m_9067904842688472155gmail-m_3071693547520408192gmail-il" style="font-weight:400"><span class="gmail-m_-3244609389970801979gmail-m_-3623658629141391452gmail-m_9092035972284487620gmail-m_3787129533418353062m_8623545428725725323gmail-m_2873882304663502708gmail-m_-3789046984517165451gmail-m_6280573200025755333gmail-m_5159318120685850543gmail-m_1790959466673216095gmail-m_-5333227643664982572m_2625127627517695854m_2683896348608817813gmail-m_7672563966056633266gmail-m_-6461243813863673855gmail-m_-742000311328020925gmail-m_7559459027998801583gmail-m_4801029585485711767gmail-m_8517121454174849988gmail-m_-6691959996525573090gmail-m_1517372298344856049gmail-m_491069367152086750gmail-m_-8327640324523575189gmail-m_2420618808463760418gmail-m_7960197898027616883gmail-m_8692226636264124041gmail-m_2794822896869921223gmail-m_7508998950622620526gmail-m_-7153355664495542534gmail-il"><span class="gmail-m_-3244609389970801979gmail-m_-3623658629141391452gmail-m_9092035972284487620gmail-m_3787129533418353062m_8623545428725725323gmail-m_2873882304663502708gmail-m_-3789046984517165451gmail-m_6280573200025755333gmail-m_5159318120685850543gmail-m_1790959466673216095gmail-m_-5333227643664982572m_2625127627517695854m_2683896348608817813gmail-m_7672563966056633266gmail-m_-6461243813863673855gmail-m_-742000311328020925gmail-m_7559459027998801583gmail-m_4801029585485711767gmail-il">TTIC</span></span></span><span style="font-weight:400">, 6045 S Kenwood Avenue, 5th Floor, Room 526</span></font></div><div class="gmail_default"><font face="arial, helvetica, sans-serif"><br></font></div><p dir="ltr" style="line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="color:rgb(47,47,47);background-color:transparent;font-variant-east-asian:normal;vertical-align:baseline;white-space:pre-wrap"><font style="color:rgb(34,34,34);white-space:normal"><span style="color:rgb(0,0,0)"><b>Who:</b></span><span style="color:rgb(0,0,0)"><b> </b>      </span></font></span><span style="letter-spacing:0.2px"><font face="arial, helvetica, sans-serif" style="" color="#000000">Bradly Stadie, University of Toronto</font></span></p><p dir="ltr" style="color:rgb(0,0,0);line-height:1.38;margin-top:0pt;margin-bottom:0pt"><br></p><p dir="ltr" style="color:rgb(0,0,0);line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="color:rgb(47,47,47);background-color:transparent;font-variant-east-asian:normal;vertical-align:baseline;white-space:pre-wrap"><font face="arial, helvetica, sans-serif"><b>Title:        </b></font></span><span style="color:rgb(34,34,34)">Learning From Sub-Optimal Data</span></p><p dir="ltr" style="color:rgb(0,0,0);line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="color:rgb(34,34,34);background-color:transparent;font-variant-east-asian:normal;vertical-align:baseline;white-space:pre-wrap"><font face="arial, helvetica, sans-serif"> </font></span></p><p dir="ltr" style="color:rgb(0,0,0);line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="color:rgb(34,34,34);background-color:transparent;font-variant-east-asian:normal;vertical-align:baseline;white-space:pre-wrap"><font face="arial, helvetica, sans-serif"><b>Abstract: </b></font></span><span style="color:rgb(34,34,34)">Learning algorithms typically assume their input data is good natured. If one takes this input data and trains an agent with it, then the agent should, given enough time and compute, eventually learn how to solve the intended task. But this is not always a realistic expectation. Sometimes, the data given to an agent is flawed or fails to fully convey the correct problem. In other words, the input data is sub-optimal. In this talk, we will discuss two recent advances for overcoming sub-optimal data. </span></p><p dir="ltr" style="color:rgb(0,0,0);line-height:1.38;margin-top:0pt;margin-bottom:0pt"><span style="color:rgb(34,34,34)"><br></span></p><div>First, we consider the problem of imitation learning from sub-optimal demonstrations. In this setting, a robot receives failed or flawed demonstrations of a task. It must learn to infer, and subsequently complete, the intended task from only these failed demonstrations. Results are presented on a variety of robotics problems such as door opening and pick and place. </div><div><br></div><div>Second, we consider the problem of learning from sub-optimal reward functions. Often, the reward functions provided to reinforcement learning agents are derived by combining low level primitives such as agent position and velocity. For example, the reward for a robot learning to walk might be its forward velocity plus the position of its head. These reward functions are first and foremost intended for human consumption, not the consumption of an RL algorithm. Consequently, it might be possible to learn a better intrinsic reward function that it is easier for the RL algorithm to optimize against. We provide a new algorithm for learning such intrinsic reward functions. Optimizing against these learned intrinsic rewards leads to better overall agent performance than optimizing against the raw hand-designed reward function. Crucially, these reward functions can be learned on the fly without significant extra computational costs. Results are presented on a variety of MuJoCo tasks and some hard robotics problems such as block stacking.</div><br class="gmail-Apple-interchange-newline"><div><b style="color:rgb(33,33,33)">Host: </b><font face="arial, helvetica, sans-serif" style="color:rgb(33,33,33)"><a href="mailto:greg@ttic.edu" target="_blank">Greg Shakhnarovich</a></font>  <br></div><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><b><font color="#0b5394">Alicia McClarin</font></b><div><div><font color="#0b5394"><i>Toyota Technological Institute at Chicago</i></font></div><div><div><font color="#0b5394"><i>6045 S. Kenwood Ave., </i></font><i style="color:rgb(11,83,148)">Office 510</i></div><div><font color="#0b5394"><i>Chicago, IL 60637</i></font></div><div><font color="#0b5394"><i>773-702-5370</i></font></div></div><div><a href="http://www.ttic.edu/" target="_blank"><font color="#0b5394"><i>www.ttic.edu</i></font></a></div></div></div></div></div></div></div></div>