本周六下午 14:00 - 16:00,我们将在学堂 112【线下】给大家带来计科 13 班史睿哲、计科 13 班李谨菡两位同学的报告。两位同学的报告分别与大语言模型和机器人相关。在两位同学报告之间,同学们可以吃零食 and/or 自由交流。
报告 1 摘要
史睿哲是姚班 2021 级(计科13)本科生。本次 seminar 他将介绍他在华盛顿大学杜少雷老师课题组春研期间关于语言模型偏好学习的工作。在这段研究中,他们借助 bandit learning 这一设定探究RLHF和DPO等偏好学习算法的理论支撑。他们研究了给定多个优化目标R_1,…,R_m, 假定已分别微调得到m个语言模型,对于任意偏好向量w,如何得到对于w_1R_1+…+w_mR_m最优的回复?他们刻画了在满足一定要求的f散度约束下,以w为权重线性累加这些模型的对数线性预测具有近似的理论最优保证。该项工作被NeurIPS 2024接收 (https://arxiv.org/abs/2406.18853 )。此外他们也研究了在线DPO算法的收敛速度,证明了他们所提出的采样方法相对于均匀采样具有指数级优势,在投于ICLR 2025。
报告 2 摘要
李谨菡是姚班2021级(计科13)的本科生,研究方向为机器人学习。本次Seminar她将介绍她在德州大学奥斯汀分校Yuke Zhu组春研时关于Humanoid Manipulation的工作。人形机器人很适合部署在人类生活环境中,是通用机器人的理想形态。目前大多数Humanoid Manipulation工作通过遥操作收集数据,需要大量人力。而她们研究的是如何让人形机器人通过单一人类视频学习操作物体。她们的方法可以让人形机器人模仿pick place、推、倒、双手合作等任务,并泛化到不同视觉和空间条件下。此方法自动生成的轨迹还可以用来训练闭环视觉运动策略,不需依赖任何遥操作。这篇工作OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation 被CoRL2024 (Oral)接收。
欢迎全体同学参加~