<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">
This is an announcement of Daniar Kurniawan's Candidacy Exam.<br class="">
===============================================<br class="">
Candidate: Daniar Kurniawan<br class="">
<br class="">
Date: Friday, October 28, 2022<br class="">
<br class="">
Time:  1 pm CST<br class="">
<br class="">
Remote Location: <a href="https://uchicago.zoom.us/j/8085185734?pwd=RDdqRnhjZHlkMkFnY29Lc3VSbEhEQT09" class="">https://uchicago.zoom.us/j/8085185734?pwd=RDdqRnhjZHlkMkFnY29Lc3VSbEhEQT09</a><br class="">
<br class="">
Updated Location: JCL 223<br class="">
<br class="">
Title: EVStore: Scaling Embedding Tables for Deep Recommendation Systems<br class="">
<br class="">
Abstract: Recommendation systems are used prominently across modern online services to help people make decisions. The impact of recommendation systems on user engagement is tremendous. Modern Deep Recommendation Systems (DRS), such as Facebook’s post recommendation
 systems, often contain hundreds or thousands of categorical features (e.g., users, posts, or pages), each of which can contain millions or even tens of billions of possible categories. To make the complexity of the deep neural network (DNN) tractable, sparse
 categorical data is usually converted to (“dense”) vectors of numbers before being fed to the model. The most popular conversion is via embedding vector tables, or “EV tables” for short. Unfortunately, the state-of-the-art DRSs are simply not equipped to handle
 the exponential growth of EV table sizes. Open-source DRSs platforms like Facebook’s DLRM and Google’s DCN, for example, store the full EV tables in DRAM and lack support for responding to lookups from backend storage when memory is exhausted.<br class="">
<br class="">
Accordingly, we propose EVStore: a novel EV table caching layer in DRS inference pipelines that exploits available DRAM and the structure of EV lookups to optimize end-to-end DRS inference latency. In this project, we propose to (1). design an embedding-aware
 caching algorithm that better exploits the regularity of the DRS inference workload, (2). evaluate the new caching algorithms against state-of-the-art policies, (3). study the effectiveness of our algorithm in various production traces,  (4). built a caching
 layer (EVCache) to evaluate our new caching algorithm within the real DRS pipeline.<br class="">
<br class="">
Advisors: Haryadi Gunawi<br class="">
<br class="">
Committee Members: Haryadi Gunawi, Hank Hoffmann, and Ymir Vigfusson
</body>
</html>