本周日上午 10:00-12:00,我们将线上给大家带来朱芮捷同学的报告。报告内容与 LLM reasoning 相关。
报告摘要
朱芮捷是加州大学圣克鲁兹分校 (UCSC) 三年级 PhD,同时也是 Bytedance Seed Intern。当前的大语言模型主要依赖显式文本生成(如思维链 CoT)来进行推理,但这种方式将推理能力的培养延后到了后训练阶段,未能充分利用海量的预训练数据。我们将介绍我们的最新工作 Ouro,一个将推理能力直接融入预训练阶段的 Loop 语言模型 (LoopLM) 家族。其核心创新包括:
尽管 Ouro 模型仅有 1.4B 和 2.6B 参数,却能在广泛的基准测试中达到 12B 参数最先进模型的性能水平。
我们的合成数据实验显示,Ouro 的优势并非来自更大的知识容量,而是源于更强的 Knowledge Manipulation 能力。
此外,我们还会讨论 LoopLM 如何生成与最终输出更加对齐的推理轨迹,以及这一方向如何为推理时代的模型 Scaling 提供新的可能性。
相关工作:Scaling Latent Reasoning via Looped Language Models https://arxiv.org/abs/2510.25741
欢迎全体同学参加~
【重复一遍时间地点】北京时间本周日 12 月 7 日上午 10:00 - 12:00 清华学堂112 点击此处进行时区转换 腾讯会议 307-129-609