<div dir="ltr"><div dir="ltr"><div class="gmail_default" style="font-size:small"><div><b>When</b>:    Thursday, May 4th from <b style="background-color:rgb(255,255,0)">9:30 - 11:30 am CT</b></div><div><b><br></b></div><div><b>Where</b>:  Talk will be given <b><font color="#0000ff">live, in-person</font></b> at<br>              TTIC, 6045 S. Kenwood Avenue<br>              5th Floor, <b><u><font color="#000000">Room 529</font></u></b><b><br></b><br><b>Virtually</b>: attend virtually <b><font color="#0000ff"><a href="https://uchicagogroup.zoom.us/j/99583225252?pwd=eDRnc040b2t1eHBUQ3kxM2I1SUZwZz09" target="_blank">here</a></font></b><br></div><div><br><b>Who</b>:      Shane Settle, TTIC</div><div><br></div><div><div class="MsoNormal" align="center" style="margin:0in 0in 8pt;text-align:center;line-height:15.6933px;font-size:11pt;font-family:Calibri,sans-serif"><hr size="2" width="100%" align="center"></div></div><div><div><b>Title:</b>      Neural Approaches to Spoken Content Embedding</div><div dir="auto"><br></div><div dir="auto"><b>Abstract:</b> Learning to compare spoken segments is a central operation to speech processing. Traditional approaches in this area have favored frame-level dynamic programming algorithms, such as dynamic time warping, because they require no supervision, but they are limited in performance and efficiency. As an alternative, acoustic word embeddings—fixed-dimensional vector representations of variable-length spoken word segments—have begun to be considered for such tasks as well. These embeddings can be learned discriminatively such that they are similar for speech segments corresponding to the same word, while being dissimilar for segments corresponding to different words. Acoustic word embedding models also speed up segment comparison, which reduces to a dot product between segment embedding vectors. However, the current space of such discriminative embedding models, training approaches, and their application to real-world downstream tasks is limited.</div><div dir="auto"><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">We start by considering “single-view” training losses where the goal is to learn an acoustic word embedding model that separates same-word and different-word spoken segment pairs. Then, we consider “multi-view” contrastive losses. In this setting, acoustic word embeddings are learned jointly with embeddings of character sequences to generate acoustically grounded embeddings of written words, or acoustically grounded word embeddings; such embeddings have been used to improve speech retrieval, recognition, and spoken term discovery.</div><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">In this thesis, we present new discriminative acoustic word embedding (AWE) and acoustically grounded word embedding (AGWE) approaches based on recurrent neural networks (RNNs), extend them for multilingual training and evaluation, and apply them in downstream tasks across a variety of resource levels.</div></div></div><div><b><br></b></div><div><b>Thesis Advisor</b>: <a href="mailto:klivescu@ttic.edu" target="_blank"><b>Karen Livescu</b></a> </div><div><br></div><div><br></div><div><br></div></div><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><span style="font-family:arial,helvetica,sans-serif;font-size:x-small">Mary C. Marre</span><br></div><div><div><font face="arial, helvetica, sans-serif" size="1">Faculty Administrative Support</font></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1"><b>Toyota Technological Institute</b></font></i></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1">6045 S. Kenwood Avenue, Rm 517</font></i></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">Chicago, IL  60637</font></i><br></font></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">773-834-1757</font></i></font></div><div><b><i><a href="mailto:mmarre@ttic.edu" target="_blank"><font face="arial, helvetica, sans-serif" size="1">mmarre@ttic.edu</font></a></i></b></div></div></div></div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 8:15 AM Mary Marre <<a href="mailto:mmarre@ttic.edu">mmarre@ttic.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div style="font-size:small"><div><b>When</b>:    Thursday, May 4th from <b style="background-color:rgb(255,255,0)">9:30 - 11:30 am CT</b></div><div><b><br></b></div><div><b>Where</b>:  Talk will be given <b><font color="#0000ff">live, in-person</font></b> at<br>              TTIC, 6045 S. Kenwood Avenue<br>              5th Floor, <b><u><font color="#000000">Room 529</font></u></b><b><br></b><br><b>Virtually</b>: attend virtually <b><font color="#0000ff"><a href="https://uchicagogroup.zoom.us/j/99583225252?pwd=eDRnc040b2t1eHBUQ3kxM2I1SUZwZz09" target="_blank">here</a></font></b><br></div><div><br><b>Who</b>:      Shane Settle, TTIC</div><div><br></div><div><div class="MsoNormal" align="center" style="margin:0in 0in 8pt;text-align:center;line-height:15.6933px;font-size:11pt;font-family:Calibri,sans-serif"><hr size="2" width="100%" align="center"></div></div><div><div><b>Title:</b>      Neural Approaches to Spoken Content Embedding</div><div dir="auto"><br></div><div dir="auto"><b>Abstract:</b> Learning to compare spoken segments is a central operation to speech processing. Traditional approaches in this area have favored frame-level dynamic programming algorithms, such as dynamic time warping, because they require no supervision, but they are limited in performance and efficiency. As an alternative, acoustic word embeddings—fixed-dimensional vector representations of variable-length spoken word segments—have begun to be considered for such tasks as well. These embeddings can be learned discriminatively such that they are similar for speech segments corresponding to the same word, while being dissimilar for segments corresponding to different words. Acoustic word embedding models also speed up segment comparison, which reduces to a dot product between segment embedding vectors. However, the current space of such discriminative embedding models, training approaches, and their application to real-world downstream tasks is limited.</div><div dir="auto"><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">We start by considering “single-view” training losses where the goal is to learn an acoustic word embedding model that separates same-word and different-word spoken segment pairs. Then, we consider “multi-view” contrastive losses. In this setting, acoustic word embeddings are learned jointly with embeddings of character sequences to generate acoustically grounded embeddings of written words, or acoustically grounded word embeddings; such embeddings have been used to improve speech retrieval, recognition, and spoken term discovery.</div><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">In this thesis, we present new discriminative acoustic word embedding (AWE) and acoustically grounded word embedding (AGWE) approaches based on recurrent neural networks (RNNs), extend them for multilingual training and evaluation, and apply them in downstream tasks across a variety of resource levels.</div></div></div><div><b><br></b></div><div><b>Thesis Advisor</b>: <a href="mailto:klivescu@ttic.edu" target="_blank"><b>Karen Livescu</b></a> </div><div><br></div><div><br></div></div><div><div dir="ltr"><div dir="ltr"><div><span style="font-family:arial,helvetica,sans-serif;font-size:x-small">Mary C. Marre</span><br></div><div><div><font face="arial, helvetica, sans-serif" size="1">Faculty Administrative Support</font></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1"><b>Toyota Technological Institute</b></font></i></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1">6045 S. Kenwood Avenue, Rm 517</font></i></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">Chicago, IL  60637</font></i><br></font></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">773-834-1757</font></i></font></div><div><b><i><a href="mailto:mmarre@ttic.edu" target="_blank"><font face="arial, helvetica, sans-serif" size="1">mmarre@ttic.edu</font></a></i></b></div></div></div></div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, May 3, 2023 at 3:23 PM Mary Marre <<a href="mailto:mmarre@ttic.edu" target="_blank">mmarre@ttic.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div style="font-size:small"><div><b>When</b>:    Thursday, May 4th from <b style="background-color:rgb(255,255,0)">9:30 - 11:30 am CT</b></div><div><b><br></b></div><div><b>Where</b>:  Talk will be given <b><font color="#0000ff">live, in-person</font></b> at<br>              TTIC, 6045 S. Kenwood Avenue<br>              5th Floor, <b><u><font color="#000000">Room 529</font></u></b><b><br></b><br><b>Virtually</b>: attend virtually <b><font color="#0000ff"><a href="https://uchicagogroup.zoom.us/j/99583225252?pwd=eDRnc040b2t1eHBUQ3kxM2I1SUZwZz09" target="_blank">here</a></font></b><br></div><div><br><b>Who</b>:      <span>Shane</span> <span>Settle</span>, TTIC</div><div><br></div><div><div class="MsoNormal" align="center" style="margin:0in 0in 8pt;text-align:center;line-height:15.6933px;font-size:11pt;font-family:Calibri,sans-serif"><hr size="2" width="100%" align="center"></div></div><div><div><b>Title:</b>      Neural Approaches to Spoken Content Embedding</div><div dir="auto"><br></div><div dir="auto"><b>Abstract:</b> Learning to compare spoken segments is a central operation to speech processing. Traditional approaches in this area have favored frame-level dynamic programming algorithms, such as dynamic time warping, because they require no supervision, but they are limited in performance and efficiency. As an alternative, acoustic word embeddings—fixed-dimensional vector representations of variable-length spoken word segments—have begun to be considered for such tasks as well. These embeddings can be learned discriminatively such that they are similar for speech segments corresponding to the same word, while being dissimilar for segments corresponding to different words. Acoustic word embedding models also speed up segment comparison, which reduces to a dot product between segment embedding vectors. However, the current space of such discriminative embedding models, training approaches, and their application to real-world downstream tasks is limited.</div><div dir="auto"><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">We start by considering “single-view” training losses where the goal is to learn an acoustic word embedding model that separates same-word and different-word spoken segment pairs. Then, we consider “multi-view” contrastive losses. In this setting, acoustic word embeddings are learned jointly with embeddings of character sequences to generate acoustically grounded embeddings of written words, or acoustically grounded word embeddings; such embeddings have been used to improve speech retrieval, recognition, and spoken term discovery.</div><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">In this thesis, we present new discriminative acoustic word embedding (AWE) and acoustically grounded word embedding (AGWE) approaches based on recurrent neural networks (RNNs), extend them for multilingual training and evaluation, and apply them in downstream tasks across a variety of resource levels.</div></div></div><div><b><br></b></div><div><b>Thesis Advisor</b>: <a href="mailto:klivescu@ttic.edu" target="_blank"><b>Karen Livescu</b></a> <br></div><div><br></div><div><br></div></div><div><div dir="ltr"><div dir="ltr"><div><span style="font-family:arial,helvetica,sans-serif;font-size:x-small">Mary C. Marre</span><br></div><div><div><font face="arial, helvetica, sans-serif" size="1">Faculty Administrative Support</font></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1"><b>Toyota Technological Institute</b></font></i></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1">6045 S. Kenwood Avenue, Rm 517</font></i></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">Chicago, IL  60637</font></i><br></font></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">773-834-1757</font></i></font></div><div><b><i><a href="mailto:mmarre@ttic.edu" target="_blank"><font face="arial, helvetica, sans-serif" size="1">mmarre@ttic.edu</font></a></i></b></div></div></div></div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Apr 25, 2023 at 7:08 PM Mary Marre <<a href="mailto:mmarre@ttic.edu" target="_blank">mmarre@ttic.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div style="font-size:small"><div><b>When</b>:    Thursday, May 4th from <b style="background-color:rgb(255,255,0)">9:30 - 11:30 am CT</b></div><div><b><br></b></div><div><b>Where</b>:  Talk will be given <b><font color="#0000ff">live, in-person</font></b> at<br>              TTIC, 6045 S. Kenwood Avenue<br>              5th Floor, <b><u><font color="#000000">Room 529</font></u></b><b><br></b><br><b>Virtually</b>: attend virtually <b><font color="#0000ff"><a href="https://uchicagogroup.zoom.us/j/99583225252?pwd=eDRnc040b2t1eHBUQ3kxM2I1SUZwZz09" target="_blank">here</a></font></b><br></div><div><br><b>Who</b>:      Shane Settle, TTIC</div><div><br></div><div><div class="MsoNormal" align="center" style="margin:0in 0in 8pt;text-align:center;line-height:15.6933px;font-size:11pt;font-family:Calibri,sans-serif"><hr size="2" width="100%" align="center"></div></div><div><div><b>Title:</b>      Neural Approaches to Spoken Content Embedding</div><div dir="auto"><br></div><div dir="auto"><b>Abstract:</b> Learning to compare spoken segments is a central operation to speech processing. Traditional approaches in this area have favored frame-level dynamic programming algorithms, such as dynamic time warping, because they require no supervision, but they are limited in performance and efficiency. As an alternative, acoustic word embeddings—fixed-dimensional vector representations of variable-length spoken word segments—have begun to be considered for such tasks as well. These embeddings can be learned discriminatively such that they are similar for speech segments corresponding to the same word, while being dissimilar for segments corresponding to different words. Acoustic word embedding models also speed up segment comparison, which reduces to a dot product between segment embedding vectors. However, the current space of such discriminative embedding models, training approaches, and their application to real-world downstream tasks is limited.</div><div dir="auto"><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">We start by considering “single-view” training losses where the goal is to learn an acoustic word embedding model that separates same-word and different-word spoken segment pairs. Then, we consider “multi-view” contrastive losses. In this setting, acoustic word embeddings are learned jointly with embeddings of character sequences to generate acoustically grounded embeddings of written words, or acoustically grounded word embeddings; such embeddings have been used to improve speech retrieval, recognition, and spoken term discovery.</div><div dir="auto" style="border-color:rgb(255,255,255)"><br></div><div dir="auto" style="border-color:rgb(255,255,255)">In this thesis, we present new discriminative acoustic word embedding (AWE) and acoustically grounded word embedding (AGWE) approaches based on recurrent neural networks (RNNs), extend them for multilingual training and evaluation, and apply them in downstream tasks across a variety of resource levels.</div></div></div><div><b><span><br></span></b></div><div><b><span>Thesis</span> Advisor</b>: <a href="mailto:klivescu@ttic.edu" target="_blank"><b>Karen Livescu</b></a> <br></div><div><br></div><div><br></div><div><br></div><div><br></div></div><div><div dir="ltr"><div dir="ltr"><div><span style="font-family:arial,helvetica,sans-serif;font-size:x-small">Mary C. Marre</span><br></div><div><div><font face="arial, helvetica, sans-serif" size="1">Faculty Administrative Support</font></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1"><b>Toyota Technological Institute</b></font></i></div><div><i><font face="arial, helvetica, sans-serif" color="#3d85c6" size="1">6045 S. Kenwood Avenue, Rm 517</font></i></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">Chicago, IL  60637</font></i><br></font></div><div><font size="1"><i><font face="arial, helvetica, sans-serif" color="#3d85c6">773-834-1757</font></i></font></div><div><b><i><a href="mailto:mmarre@ttic.edu" target="_blank"><font face="arial, helvetica, sans-serif" size="1">mmarre@ttic.edu</font></a></i></b></div></div></div></div></div></div>
</blockquote></div></div>
</blockquote></div></div>
</blockquote></div></div>