Seminar #71

时间: 2025-03-15 14:00-15:00 地点: 清华学堂112 + 腾讯会议 seminar

本周六下午14:00-15:00，我们将在学堂 112【线下】给大家带来吴业成同学的报告。报告内容与视觉生成相关。在报告前后，同学们可以吃零食 and/or 自由交流。

报告摘要

吴业成是姚班2021级（计科11）的本科生，研究方向为生成式人工智能。在本次Seminar中，他将分享在MIT韩松（Song Han）教授课题组春研期间关于自回归视觉生成的工作HART。传统的自回归视觉生成模型依赖矢量量化将视觉内容转换为离散编码，但这种表征方法在性能上不及扩散模型中使用的连续编码。HART提出了一种混合视觉编码（Hybrid Tokenization）方法，将图像表征分解为离散编码和残差编码，并构建了相应的自回归生成框架，以高效生成这些编码。实验表明，混合视觉编码能够达到与连续视觉编码相当的表征能力。与流行的扩散模型如SDXL相比，HART在生成性能上表现相当，且生成速度提升了3.1倍以上，生成一张1024x1024分辨率的图像仅需0.3秒。该工作已发表于ICLR 2025，论文链接：https://arxiv.org/abs/2410.10812，项目主页：https://hanlab.mit.edu/projects/hart，demo链接：https://hart.mit.edu/

欢迎全体同学参加~