本周六上午 10:00 - 12:00,我们将在学堂 112【线下】给大家带来梁敬勋、禹棋赢同学的报告。报告内容与数据结构、大语言模型推理相关。在报告前后,同学们可以吃零食 and/or 自由交流。
报告 1 摘要
梁敬勋是姚班 2020 级(计科 02)学长。本次 seminar 他将介绍他与 Princeton 大学的俞华程老师以及李天晓、周任飞(计科 02)合作的工作 “Tight Cell-Probe Lower Bounds for Dynamic Succinct Dictionaries”。字典 (dictionary) 是用于动态维护集合的数据结构。自从于 1953 年被提出以来,人们一直在研究它最优的时间空间复杂度,这个问题直到最近才被完全解决。本次 seminar 会介绍这个问题的下界部分:对于任何一个维护 n 元集合的动态字典,为了达到 t 的单次操作时间,数据结构必须浪费至少约 log^{(t)} n bits 的空间,且这个下界在渐进意义下是紧的。该论文发表于 FOCS 2023。论文链接:https://arxiv.org/abs/2306.02253
报告 2 摘要
禹棋赢是清华智能产业研究院(AIR)三年级博士生,导师是刘菁菁教授和周浩副教授,研究方向为大语言模型推理智能。本次 seminar 他将分享大规模大模型强化学习 DAPO 算法,DAPO实现了超过DeepSeek R1的RL的性能,并开放了所有的实验细节。此外,基于 verl 框架的完整训练代码与数据集都已开源。相对的,之前成功完成训练的大规模强化学习系统如OpenAI o1和DeepSeek R1都隐藏了关键的训练技术,导致社区很难复现其性能。论文链接:https://arxiv.org/abs/2503.14476
欢迎全体同学参加~