Seminar #45

时间: 2023-04-01 16:30-17:30 地点: 腾讯会议 seminar

本周我们将在【线上】给大家带来计科92班高嘉煊同学关于强化学习与人机协同的报告

高嘉煊

高嘉煊是姚班2019级本科生，研究方向包括多智能体强化学习，分布式强化学习系统与人机协同。本次seminar他将介绍他和合作者在基于强化学习的人机协同方向上的工作。零样本人机协同问题要求在不使用人类数据的情况下设计出能与人合作的智能体。此前的工作往往首先通过自博弈训练出大量策略构成策略池，然后针对策略池训练适应性策略。该框架的缺陷在于其假设测试合作者会与适应性策略遵循同一个任务奖励函数。然而，真实的人类自身的偏好往往与任务奖励相差很远。在这项工作中，高嘉煊和合作者提出新的训练框架Hidden-Utility Self-Play (HSP)，HSP直接将人类偏好建模成自博弈过程中的隐奖励函数，并训练有偏好策略得到增强的策略池。在Overcooked测试环境中的实验结果表明，HSP在与人类模型、人工脚本策略以及人类合作时能得到比基准方法更高的分数。同时，HSP策略也被人类玩家评为合作性最强的策略。该项工作Learning Zero-Shot Cooperation with Humans, Assuming Humans are Biased 发表于Eleventh International Conference on Learning Representations (ICLR 2023)

欢迎全体同学参加~
【重复一遍时间地点】北京时间 4.1 周六下午 16:30-17:30 点击此处进行时区转换腾讯会议269-572-376