Seminar #74

时间: 2025-04-19 10:00-12:00 地点: 清华学堂112 + 腾讯会议 seminar

本周六上午 10:00 - 12:00,我们将在学堂 112【线下】给大家带来Xupeng Miao教授和邱子涵同学的报告。两场报告分别与机器学习系统和大模型预训练相关。在两场报告之间,同学们可以吃零食 and/or 自由交流。

  • 报告 1 摘要

    Xupeng Miao 是 Purdue University 计算机科学系的 Kevin C. and Suzanne L. Kahn New Frontiers 助理教授。他的研究兴趣涵盖机器学习系统、数据管理与分布式计算。本次报告将介绍他们在系统与编译器设计和实现方面的三项创新工作,这些方法旨在提升生成式 AI 模型,尤其是大型语言模型(LLMs)的运行性能。首先,他将介绍 SpecInfer,这是首个基于树结构的猜测式推理系统,采用新颖的 token 树推测与验证机制,在服务大型语言模型时可将延迟降低 1.5 至 3.5 倍。其次,他将介绍 Mirage,这是首个基于多级超级优化的张量程序编译器,使开发者无需编写 CUDA 或 Triton 代码即可生成高性能的 GPU Kernel。最后,他将介绍 SpotServe,这是首个运行于竞价实例上的 LLM 服务系统,能够通过动态重并行化机制应对实例中断,在显著降低成本(达 54%)的同时保持较低的尾部延迟。

  • 报告 2 摘要

    邱子涵是姚班2020级(计科03)的本科生,现就职于 Qwen 团队预训练组,研究方向为混合专家模型(MoE)和预训练。在本次Seminar中,他将分享在 Qwen 团队对 MoE 模型负载均衡及专家特异化的研究。MoE 模型训练过程中需要添加负载均衡损失(Load Balance Loss,LBL)来使得每个 expert 负载尽可能均衡,以保证训练和推理效率。在大规模训练 MoE 的过程中,往往需要使用数据并行(Data Parallel)和专家并行(Expert Parallel)。在已有开源的 MoE 训练框架里,负载均衡损失往往是在每一个并行组(例如一张GPU)里计算,这使得 LBL 会将每一个并行组内的 tokens 都均分给所有的专家;由于每个并行组里只有来自单一 domain 的 tokens,这就限制了 expert 出现 domain level 的特异化。他们发现通过简单的通信操作,就能放松 LBL 的限制条件,使得专家出现 domain level 的特异化,同时在下游任务上的效果也得到了显著的提升。该方法已用于 Qwen-MoE 模型的训练,论文链接:https://arxiv.org/abs/2501.11873 ,blog 链接:https://qwenlm.github.io/blog/global-load-balance/ 。此外,他还将介绍在Qwen研究预训练的感受及Qwen团队的情况。

欢迎全体同学参加~

联系我们

Make IIIS Great Again!

清华大学姚班研讨会