Seminar #85

时间: 2025-12-07 10:00-12:00 地点: 清华学堂112 + 腾讯会议 seminar

本周日上午 10:00-12:00，我们将线上给大家带来朱芮捷同学的报告。报告内容与 LLM reasoning 相关。

报告摘要

朱芮捷是加州大学圣克鲁兹分校 (UCSC) 三年级 PhD，同时也是 Bytedance Seed Intern。当前的大语言模型主要依赖显式文本生成（如思维链 CoT）来进行推理，但这种方式将推理能力的培养延后到了后训练阶段，未能充分利用海量的预训练数据。我们将介绍我们的最新工作 Ouro，一个将推理能力直接融入预训练阶段的 Loop 语言模型 (LoopLM) 家族。其核心创新包括：
1. 在 Latent Space 中进行迭代计算
2. 通过熵正则化实现学习化的深度分配
3. 在 7.7 万亿 token 上的大规模训练
尽管 Ouro 模型仅有 1.4B 和 2.6B 参数，却能在广泛的基准测试中达到 12B 参数最先进模型的性能水平。

我们的合成数据实验显示，Ouro 的优势并非来自更大的知识容量，而是源于更强的 Knowledge Manipulation 能力。

此外，我们还会讨论 LoopLM 如何生成与最终输出更加对齐的推理轨迹，以及这一方向如何为推理时代的模型 Scaling 提供新的可能性。

相关工作：Scaling Latent Reasoning via Looped Language Models https://arxiv.org/abs/2510.25741

欢迎全体同学参加~