本周六晚上 20:30 - 21:30,我们将在学堂 112【线下】给大家带来吕凯风老师关于深度学习理论的报告。在报告前后,同学们可以吃零食 and/or 自由交流。
报告摘要
吕凯风即将于 2025 年入职交叉信息研究院任助理教授。他于 2019 年毕业于姚班,博士就读于普林斯顿大学。随着深度学习模型越来越大,能力日益增强,如何降低训练成本及确保人工智能的安全性,已经成为两个至关重要的问题。然而,我们究竟了解神经网络在学习什么,以及它是如何进行泛化的吗?本次 seminar,吕凯风会介绍一些近期的研究成果,从理论和实验的角度探究以下问题:(1) 在大规模分布式训练中,降低梯度信息的同步频率能节省通信成本,也会导致训练偏离梯度下降的路径。但模型的泛化表现却神奇地变好了,这是为什么?(2) 对一个 safety-aligned 的语言模型稍作微调,哪怕是在一个看似无害的数据集上,也可能改变其在安全性方面的泛化表现,使其更易于被恶意用户利用来危害社会。我们应如何缓解这一问题?
欢迎全体同学参加~