本周我们将在【线上】给大家带来计科02班戴言同学关于强化学习理论的报告
戴言
戴言是姚班2020级本科生,研究方向是强化学习理论。本次seminar他将介绍他和合作者对噪声强度会变化时的稀疏线性老虎机(sparse linear bandit)的研究。稀疏线性老虎机是强化学习理论中一个常见的基础模型。然而,在此前的研究中,研究者只考虑算法在最坏情况(即噪声总很强)的表现,得到了 sqrt(dT) 的表现下界,其中 T 是操作次数、d 是线性空间维度(省略稀疏度 s 这一远小于 d 的量);人们还通过规约到线性老虎机,得到了匹配下界的算法。但事实上,在没有噪声的最好情况下,简单分治能达到 O(1) 的优秀表现。在这项工作中,戴言与合作者通过对传统规约方法的改进,得到了对噪声敏感的线性稀疏老虎机算法:它在最坏情况的表现为 sqrt(dT),在最好情况的表现为 O(1);在方差不均一时,其表现正比于 sqrt(d * 噪声方差之和)。这一算法实现了对噪声的自适应,完全还原了分治算法与 d、T 都无关的优秀表现,还保证了最坏情况的表现与下界相当。这项工作 Variance-Aware Sparse Linear Bandits 发表于 Eleventh International Conference on Learning Representations (ICLR 2023)。
欢迎全体同学参加~
【重复一遍时间地点】北京时间 3.25 周六 晚上 21:00 点击此处进行时区转换 腾讯会议149-905-852