Seminar #79

时间: 2025-09-27 15:00-17:00 地点: 清华学堂112 + 腾讯会议 seminar

本周六下午15:00-17:00,我们将在学堂 112【线下】给大家带来王梓人和李星汉同学的报告。报告内容与 ML system 和 ML theory 相关。

  • 报告 1 摘要

    王梓人是姚班2022级(计科23)本科生。本次 seminar 他将介绍他与华盛顿大学的 Baris Kasikci 老师以及 Kan Zhu 学长合作的关于 LLM inference serving 的工作。LLM 发展的潮流滚滚向前,人们对于 serving system 的设计更是不断更新迭代。无论还在 multi node 还是 single node multi gpu 都有很多科研和工业界的文章出现。比如 deepseek 的 two batch inference, pd disaggregation。他的研究方向是 single node multi gpu 情况下的 serving,优化目标是最大化 Token Throughput,设计主要思路为探索 intra-GPU overlapping,使用 CUDA 的 green context 尽量避免 interference。目前项目还在发展阶段,预计于年底投稿 OSDI。

  • 报告 2 摘要

    李星汉是姚班2022级(计科22)的本科生,他的主要研究方向为深度学习理论与 llm 数学推理。在本次 Seminar 中,他将分享在交叉信息院吕凯风课题组与温浩东(交叉研252)合作的一项关于理解 Adam 优化器的研究工作。尽管 Adam 在实践中被广泛使用,但理论界大多仍围绕 SGD 进行分析。本工作首次揭示了 Adam 会降低一种由其自适应更新过程所决定的特定“尖锐度” (sharpness measure),从而得到与 SGD 在性质上截然不同的解。本工作通过随机微分方程 (Stochastic Differential Equations, SDEs) 对此行为进行了严格的数学刻画,并证明在一个经典的带标签噪声 (label noise) 的过参数化模型训练场景中,SGD 旨在最小化 Hessian 矩阵的迹 tr(H),而 Adam 旨在最小化 tr(diag(H)^1/2) )。这一关键区别使得 Adam 在稀疏线性回归等任务中,能够取得比 SGD 更好的稀疏性和泛化能力。本工作的证明框架具有普适性,不仅适用于 Adam,还能推广至 RMSProp、Adam-mini 等一大类自适应梯度方法,为理解和设计新一代优化器提供了统一的理论视角。本工作已被 NeurIPS 2025 接收,论文链接:https://openreview.net/pdf?id=TR2nE29vlS

欢迎全体同学参加~

联系我们

Make IIIS Great Again!

清华大学姚班研讨会