<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">
<div class="">This is an announcement of Xin Yuan's Candidacy Exam.</div>
<div class="">===============================================</div>
<div class="">Candidate: Xin Yuan</div>
<div class=""><br class="">
</div>
<div class="">Date: Monday, March 04, 2024</div>
<div class=""><br class="">
</div>
<div class="">Time:  2 pm CST</div>
<div class=""><br class="">
</div>
<div class="">Remote Location: <a href="https://uchicago.zoom.us/j/92873963052?pwd=VzdkbUhNazlJbDczQjJqVm1GMjVwQT09" class="">
https://uchicago.zoom.us/j/92873963052?pwd=VzdkbUhNazlJbDczQjJqVm1GMjVwQT09</a></div>
<div class=""><br class="">
</div>
<div class="">Location: JCL 298</div>
<div class=""><br class="">
</div>
<div class="">Title: Factorized Diffusion Architectures for Unsupervised Image Generation and Representation Learning</div>
<div class=""><br class="">
</div>
<div class="">Abstract: Supervised deep learning yields powerful discriminative representations, and has fundamentally advanced many computer vision tasks. Yet, annotation efforts, especially those involving fine-grained labeling for tasks, can become prohibitively
 expensive to scale with increasing dataset size. This motivates unsupervised methods for visual representation learning and generation, which do not require any annotated data during a large-scale pre-training phase.</div>
<div class=""> </div>
<div class="">We develop a neural network architecture which, trained in an unsupervised manner as a denoising diffusion model, simultaneously learns to both generate and segment images. Learning is driven entirely by the denoising diffusion objective, without
 any annotation or prior knowledge about regions during training. A computational bottleneck, built into the neural architecture, encourages the denoising network to partition an input into regions, denoise them in parallel, and combine the results. Our trained
 model generates both synthetic images and, by simple examination of its internal predicted partitions, a semantic segmentation of those images. Without any finetuning, we directly apply our unsupervised model to the downstream task of segmenting real images
 via noising and subsequently denoising them. Experiments demonstrate that our model achieves accurate unsupervised image segmentation and high-quality synthetic image generation across multiple datasets.</div>
<div class=""> </div>
<div class="">We extend the factorized diffusion paradigm to another challenging application: training a Neural Radiance Field (NeRF) model without any camera pose annotations. Specifically, during NeRF training, the camera extrinsic parameters and 2D reconstructions
 are generated simultaneously through a carefully designed computational bottleneck and differentiable volume renderer in a unified denoising diffusion process. After training finishes, a learned 3D model is available for novel-view 2D image generation from
 either a manually designed camera path or pure 2D noise input.</div>
<div class=""><br class="">
</div>
<div class="">Advisors: Michael Maire</div>
<div class=""><br class="">
</div>
<div class="">Committee Members: Michael Maire, Rana Hanocka, Anand Bhattad, and Greg Shakhnarovich</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class=""><span style="caret-color: rgb(33, 33, 33); color: rgb(33, 33, 33); text-align: justify; font-size: 10pt; font-family: Arial, sans-serif; line-height: 1.2;" class="">Paper link: </span><a href="https://arxiv.org/abs/2309.15726" title="https://arxiv.org/abs/2309.15726" style="color: rgb(0, 120, 215); font-family: Calibri; font-size: 16px; text-align: justify;" class=""><span style="font-size: 10pt; font-family: Arial, sans-serif; line-height: 1.2;" class="">https://arxiv.org/abs/2309.15726</span></a></div>
</body>
</html>