Seminar #78

时间: 2025-05-24 10:00-12:00 地点: 清华学堂112 + 腾讯会议 seminar

本周六上午 10:00 - 12:00，我们将在学堂 112【线下】给大家带来梁敬勋、禹棋赢同学的报告。报告内容与数据结构、大语言模型推理相关。在报告前后，同学们可以吃零食 and/or 自由交流。

报告 1 摘要

梁敬勋是姚班 2020 级（计科 02）学长。本次 seminar 他将介绍他与 Princeton 大学的俞华程老师以及李天晓、周任飞（计科 02）合作的工作 “Tight Cell-Probe Lower Bounds for Dynamic Succinct Dictionaries”。字典 (dictionary) 是用于动态维护集合的数据结构。自从于 1953 年被提出以来，人们一直在研究它最优的时间空间复杂度，这个问题直到最近才被完全解决。本次 seminar 会介绍这个问题的下界部分：对于任何一个维护 n 元集合的动态字典，为了达到 t 的单次操作时间，数据结构必须浪费至少约 log^{(t)} n bits 的空间，且这个下界在渐进意义下是紧的。该论文发表于 FOCS 2023。论文链接：https://arxiv.org/abs/2306.02253
报告 2 摘要

禹棋赢是清华智能产业研究院（AIR）三年级博士生，导师是刘菁菁教授和周浩副教授，研究方向为大语言模型推理智能。本次 seminar 他将分享大规模大模型强化学习 DAPO 算法，DAPO实现了超过DeepSeek R1的RL的性能，并开放了所有的实验细节。此外，基于 verl 框架的完整训练代码与数据集都已开源。相对的，之前成功完成训练的大规模强化学习系统如OpenAI o1和DeepSeek R1都隐藏了关键的训练技术，导致社区很难复现其性能。论文链接：https://arxiv.org/abs/2503.14476

欢迎全体同学参加~