Seminar #84

时间: 2025-11-22 13:00-15:00 地点: 清华学堂112 + 腾讯会议 seminar

本周六下午 13:00-15:00，我们将在学堂 112 给大家带来肖文力同学的线上报告和李忆唐同学的线下报告。报告内容与 robotics 相关。在报告前后，同学们可以吃零食 and/or 自由交流。

报告 1 摘要

肖文力是卡内基梅隆大学（CMU）机器人研究院博士生，师从石冠亚教授，同时在英伟达 GEAR 实验室担任 Research Scientist Intern，师从 Jim Fan 和 Yuke Zhu。他的研究领域聚焦于人形机器人全身控制以及具身智能基础模型的后训练。他是人形机器人控制框架 H2O, OmniH2O, HOVER, 以及 ASAP 的核心作者。他将分享最新关于「如何利用残差强化学习实现 VLA 模型自我进化」的研究。目前，监督微调（SFT）是训练视觉-语言-动作（VLA）大模型的主流方法，但它严重依赖昂贵且难以扩展的人类演示数据。当模型遇到从未见过的场景时，往往束手无策。针对这一瓶颈，Probe, Learn, Distill (PLD) 框架提出了一个新的思路：我们能否在不依赖更多人类数据的情况下，让模型通过「自我修正」来变强？PLD 的核心策略是在通用模型表现失败的区域，引入轻量级的残差策略（Residual Policy）进行探索和纠错，生成高质量的轨迹数据，最后再将这些成功的经验「蒸馏」回通用模型中。这种方法不仅在 LIBERO 基准测试中达到了近乎饱和的 99% 任务成功率，更在现实世界显卡安装任务实现连续一小时无失误。
报告 2 摘要

李忆唐是清华大学姚班 2022 级（计科 22）的本科生，她的主要研究方向是人形机器人学习和控制。本次 seminar 将介绍她在卡耐基梅隆大学与石冠亚教授与 Meta AI 合作进行的研究以及她研究人形机器人的一些心路历程。本次研究提出了一个人形机器人的行为基础模型 BFM-Zero，具有将各种控制任务统一到一个单一的、可提示的通用策略下的潜力。该框架学习一种有效的共享潜在表征，该表征将动作、目标和奖励嵌入到一个共同空间中。这种机制使得单一策略无需重新训练即可被提示用于多个下游任务。BFM-Zero 中结构良好的潜在空间通过多样化的推理方法，包括零样本动作跟踪、目标到达和奖励优化，以及少样本基于优化的适应，使 Unitree G1 人形机器人在现实世界中能够展现出多功能和稳健的全身技能。与先前的在线（on-policy）强化学习（RL）框架不同，新方法建立在无监督强化学习和前向-后向（Forward-Backward, FB）模型的最新进展之上。BFM-Zero 作为第一个把此类方法应用到机器人领域的工作，构建了以目标为中心、可解释且平滑的全身技能潜在表征，是可泛化的全身人形机器人行为基础模型的重要一步。

欢迎全体同学参加~

【重复一遍时间地点】北京时间本周六 11 月 22 日下午 13:00 - 15:00 清华学堂112（肖文力线上 / 李忆唐线下）点击此处进行时区转换腾讯会议 577-257-508
【查看往期】https://group.iiis.tsinghua.edu.cn/~stu/seminar/

Seminar #84

联系我们

清华大学姚班研讨会