Seminar #44

时间: 2023-03-25 21:00-22:00 地点: 腾讯会议 seminar

本周我们将在【线上】给大家带来计科02班戴言同学关于强化学习理论的报告

戴言

戴言是姚班2020级本科生，研究方向是强化学习理论。本次seminar他将介绍他和合作者对噪声强度会变化时的稀疏线性老虎机（sparse linear bandit）的研究。稀疏线性老虎机是强化学习理论中一个常见的基础模型。然而，在此前的研究中，研究者只考虑算法在最坏情况（即噪声总很强）的表现，得到了 sqrt(dT) 的表现下界，其中 T 是操作次数、d 是线性空间维度（省略稀疏度 s 这一远小于 d 的量）；人们还通过规约到线性老虎机，得到了匹配下界的算法。但事实上，在没有噪声的最好情况下，简单分治能达到 O(1) 的优秀表现。在这项工作中，戴言与合作者通过对传统规约方法的改进，得到了对噪声敏感的线性稀疏老虎机算法：它在最坏情况的表现为 sqrt(dT)，在最好情况的表现为 O(1)；在方差不均一时，其表现正比于 sqrt(d * 噪声方差之和)。这一算法实现了对噪声的自适应，完全还原了分治算法与 d、T 都无关的优秀表现，还保证了最坏情况的表现与下界相当。这项工作 Variance-Aware Sparse Linear Bandits 发表于 Eleventh International Conference on Learning Representations (ICLR 2023)。

欢迎全体同学参加~
【重复一遍时间地点】北京时间 3.25 周六晚上 21:00 点击此处进行时区转换腾讯会议149-905-852