Seminar #68

时间: 2024-12-07 14:00-16:00 地点: 清华学堂113 + 腾讯会议 seminar

本周六下午 14:00 - 16:00，我们将在学堂113【线下】给大家带来徐国玮同学、袁哲诚学长的报告。两场报告分别与大模型推理和视觉强化学习相关。在两场报告之间，同学们可以吃零食 and/or 自由交流。

报告 1 摘要

徐国玮是姚班23级（计科31）的本科生。本次seminar中，他将会分享近期社区在大模型推理阶段scaling的一些代表性工作。OpenAI发布o1系列模型后，如何增强大模型的推理阶段的能力成为了社区普遍关注的话题。他将会按照时间顺序梳理近期开源社区构建类o1的推理大模型，包括O1-Journey、LLaMA-Berry、Thinking Claude、LLaVA-CoT、Macro-o1、o1-Coder等模型。此外，也会涉及一些关于Deepseek-r1、QwQ、InternThinker等没有详细技术报告的模型的案例分析。本次seminar将侧重于推理大模型目前整体发展历程的梳理，不会涉及很具体的技术细节，较适合尚不熟悉大模型的听众。
报告 2 摘要

袁哲诚是叉院2023级博士生。本次seminar中，他将分享基于视觉的强化学习方面的一些工作，并介绍基于视觉的sim2real的相关研究。基于视觉的控制策略在具身智能，机器人领域领域有着广泛的使用，然而如何使用好视觉信号，如何做好视觉的sim2real以及real-world控制仍存在着较多的挑战。他将根据自己的研究成果，探讨在这方面的研究探索和思考。

欢迎全体同学参加~