Seminar #85

时间: 2025-12-07 10:00-12:00 地点: 清华学堂112 + 腾讯会议 seminar

本周日上午 10:00-12:00,我们将线上给大家带来朱芮捷同学的报告。报告内容与 LLM reasoning 相关。

  • 报告摘要

    朱芮捷是加州大学圣克鲁兹分校 (UCSC) 三年级 PhD,同时也是 Bytedance Seed Intern。当前的大语言模型主要依赖显式文本生成(如思维链 CoT)来进行推理,但这种方式将推理能力的培养延后到了后训练阶段,未能充分利用海量的预训练数据。我们将介绍我们的最新工作 Ouro,一个将推理能力直接融入预训练阶段的 Loop 语言模型 (LoopLM) 家族。其核心创新包括:

    1. 在 Latent Space 中进行迭代计算
    2. 通过熵正则化实现学习化的深度分配
    3. 在 7.7 万亿 token 上的大规模训练

    尽管 Ouro 模型仅有 1.4B 和 2.6B 参数,却能在广泛的基准测试中达到 12B 参数最先进模型的性能水平。

    我们的合成数据实验显示,Ouro 的优势并非来自更大的知识容量,而是源于更强的 Knowledge Manipulation 能力。

    此外,我们还会讨论 LoopLM 如何生成与最终输出更加对齐的推理轨迹,以及这一方向如何为推理时代的模型 Scaling 提供新的可能性。

    相关工作:Scaling Latent Reasoning via Looped Language Models https://arxiv.org/abs/2510.25741

欢迎全体同学参加~

联系我们

Make IIIS Great Again!

清华大学姚班研讨会