<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">This is an announcement of Arjun Rawal's MS Presentation. Arjun is a student in the Bx/MS program.</span><div class=""><br class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">Here is the Zoom link to participate:</span></div><div class=""><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><div class=""><a href="https://uchicago.zoom.us/j/98111735383?pwd=UndQbnpJVFVtTmpDeUxWU3luUm9jdz09" class="">https://uchicago.zoom.us/j/98111735383?pwd=UndQbnpJVFVtTmpDeUxWU3luUm9jdz09</a></div><div class=""><br class=""></div><div class="">Password: 206975</div><div class=""><br class=""></div><div class="">One tap mobile</div><div class="">+13126266799,,98111735383# US (Chicago)</div><div class=""><br class=""></div><div class="">Dial by your location</div><div class="">        +1 312 626 6799 US (Chicago)</div><div class=""><br class=""></div><div class="">Meeting ID: 981 1173 5383</div></span></div><div class=""><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><br class=""></span></div><div class=""><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----------------------</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----------------------</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----------------------</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----------------------</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">-----------------------</span><span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">----------------</span></div><div class=""><br class=""></div><div class="">Date: Tuesday, June 2nd, 2020. </div><div class=""><br class=""></div><div class="">Time: 10:30 AM, Central Time</div><div class=""><br class=""></div><div class="">Location: remote via Zoom</div><div class=""><br class=""></div><div class="">M.S. Candidate: Arjun Rawal</div><div class=""><br class=""></div><div class="">M.S. Paper Title:<span class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"> Exploiting Domain-Specific Data Properties to Improve Compression for High Energy Physics Data</span></div><div class=""><div class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><br class=""></div><div class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);">Abstract:</div><div class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><br class=""></div><div class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0);"><div class=""><div class="">Data storage is a fundamental concern for high energy physics; the experiments and data analysis needed to discover new results require petabytes of measurements from particle collisions. Accordingly, data compression has been a central focus of data storage solutions, as it provides an effective way to reduce storage costs and improve analysis performance. Whereas interactive analysis workloads benefit from fast data availability for computation, archival storage benefits from compression which makes data as small as possible. For most high energy physics data, the standard approach to compression is ``one size fits all” — data is stored for archive with the same compression used for interactive analysis. Because data analysis and long term storage are fundamentally different use cases, the tradeoffs made to provide performant data analysis result in relatively poor compression for long term data storage. We propose that high energy physics data could be stored much more compactly if we use modern computational algorithms and compression approaches that take into account the fundamental characteristics of the data. </div><div class=""><br class=""></div></div><div class="">We study several modern compression algorithms and evaluate their performance on high energy physics data. We then evaluate a variety of techniques used in data compression to improve compression ratio: delta encoding, floating point representation, data aggregation, and dictionary optimizations. These algorithms and techniques exist in a tradeoff space where compression ratio, throughput, and resource utilization can be exchanged to find the best compression for a specific use. </div><div class=""><br class=""></div><div class="">Evaluation on real datasets from the ATLAS and CMS experiments shows that adopting algorithms designed for modern processors and larger memory sizes can provide compression ratio improvements of 7% while providing better compression and decompression throughput. Furthermore, applying techniques that take into account the underlying type of a block of data, not just the bytes of data, can increase compression ratio by an additional 5%. Overall, we find that an approach that prioritizes compression ratio can reduce the overall size of data files by more than 15%, providing a significant reduction in data storage requirements.</div><div class=""><br class=""></div><div class="">However, this solution is useful only if it is cost-effective. We analyze the cost of scaling up our compression strategies for the ATLAS experiment. We find that a production implementation of our approach would require fewer than 50 CPU cores to handle reading a petabyte of data per day. This approach could reduce data storage requirements by more than 8 petabytes, and save hundreds of thousands of dollars in hard drive and tape storage costs each year. Hence, our approach is cost effective and feasible on a large scale. </div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">Advisor: Prof. Andrew A. Chien<br class=""><div class="">Committee Members: Prof. Raul Castro Fernandez, Prof. Rob Gardner (Physics)</div></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div></div></div><div class=""><div dir="auto" class="" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;"><div dir="auto" class="" style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;"></div></div></div><div class="">
<div dir="auto" style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div dir="auto" style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div style="caret-color: rgb(0, 0, 0); color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;">Jessica Garza<br class="">Assistant Director of Undergraduate Studies<br class="">Department of Computer Science<br class="">The University of Chicago<br class=""><a href="https://cs.uchicago.edu/remote2020/" class="">Covid-19 Resources</a></div></div></div>
</div>
<br class=""></body></html>