<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
This is a reminder about Hao Michael Tong's dissertation defense.<br class="">
<br class="">
Here is the Zoom link to participate:<br class="">
<br class="">
<a href="https://zoom.us/j/91334775723?pwd=eXY5T3AvQ1NBSit6WGtoKzlOOHhRZz09" class="">https://zoom.us/j/91334775723?pwd=eXY5T3AvQ1NBSit6WGtoKzlOOHhRZz09</a><br class="">
Meeting ID: 913 3477 5723 Password: 776228<br class="">
<br class="">
      Department of Computer Science/The University of Chicago<br class="">
<br class="">
                    *** Dissertation Defense ***<br class="">
<br class="">
<br class="">
Candidate:  Michael (Hao) Tong<br class="">
<br class="">
Date:  Tuesday, July 14, 2020<br class="">
<br class="">
Time:  2:00 PM<br class="">
<br class="">
Place:  remotely via Zoom<br class="">
<br class="">
Title: Improving the Performance of Long Running Scientific Pipelines<br class="">
in a Bioinformatics Pipeline Platform<br class="">
<br class="">
Abstract:<br class="">
The Genomic Data Commons (GDC) is a data platform for managing,<br class="">
processing, analyzing, and sharing cancer genomics data. The data<br class="">
processing component of the GDC is called the GDC Pipeline Automation<br class="">
System (GPAS). GPAS currently uses an on-premise cluster that uses<br class="">
virtual machines (VMs) and bare metal machines to run multiple<br class="">
bioinformatics pipelines.<br class="">
<br class="">
The GPAS has been used in production for over two years and valuable<br class="">
pipeline statistics are scattered in multiple databases across the<br class="">
platform. This dissertation presents a platform-wide statistics<br class="">
collecting service for the GPAS, and based the synthesized statistics,<br class="">
several performance issues have been identified and investigated.<br class="">
<br class="">
The first performance issue examined is that jobs on VMs exhibit<br class="">
highly varied performance. In particular, there can be a very long<br class="">
tail, with some VMs taking significantly longer than others to execute<br class="">
the same jobs. Through an analysis of jobs statistics and traces, we<br class="">
find that the root cause is the virtual machine memory management<br class="">
layer in the VM hypervisor. When the layer is overwhelmed by intense<br class="">
searches for memory mappings from virtual machine to the physical<br class="">
host, it causes the performance of the VM to degrade.<br class="">
<br class="">
The second performance issue examined concerns job scheduling. Through<br class="">
an analysis of production statistics, we find that GPAS� overall work<br class="">
progress can be delayed by days even if only a small percentage of<br class="">
jobs fail. A few other drawbacks of the current simple job scheduling<br class="">
model have been listed with evidence in the dissertation. A more<br class="">
sophisticated task-based scheduling model is proposed in this<br class="">
dissertation.<br class="">
<br class="">
Lastly, a thorough literature review is presented in this dissertation<br class="">
towards a vision for the GPAS with further improved pipeline<br class="">
performance.<br class="">
<br class="">
Michael (Hao)'s advisor is Prof. Robert Grossman<br class="">
<br class="">
Login to the Computer Science Department website for details,<br class="">
including a draft copy of the dissertation:<br class="">
<br class="">
<a href="https://newtraell.cs.uchicago.edu/phd/phd_announcements#michaelht" class="">https://newtraell.cs.uchicago.edu/phd/phd_announcements#michaelht</a><br class="">
<div class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div class=""><span style="orphans: 2; widows: 2;" class="">Nita</span><br style="orphans: 2; widows: 2;" class="">
<br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">**************************</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">Nita Yack</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">Manager</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">Computer Science Department</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">5730 S. Ellis - Room 215</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">Chicago, IL 60637</span></div>
<div class=""><a href="mailto:n-yack@uchicago.edu" class="">n-yack@uchicago.edu</a><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">(773) 702-6019</span></div>
<div class="">(219) 689-0892<br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">(773) 702-8487 FAX</span></div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><span style="orphans: 2; widows: 2;" class="">"Hard work spotlights the character of people: some turn up their</span><br style="orphans: 2; widows: 2;" class="">
<span style="orphans: 2; widows: 2;" class="">sleeves, some turn up their noses, and some don't turn up at all."</span></div>
</div>
</div>
</div>
</div>
</div>
<br class="">
</body>
</html>