本周六下午 14:00 - 16:00,我们将在学堂 112【线下】给大家带来席浩诚同学和熊诺亚同学的报告。两场报告分别与高效深度学习和低秩矩阵复原相关。在两场报告之间,同学们可以吃零食 and/or 自由交流。
报告 1 摘要
席浩诚是姚班2020级本科生,研究方向为Efficient Machine Learning。本次Seminar他将主要介绍他在上学期在清华关于low-bit quantized training的工作Jetfire。预训练transformers通常非常耗时并且耗显存。全量化训练(Fully Quantized Training,FQT)是加速预训练的一种有希望的方法。然而,大多数FQT方法采用量化-计算-反量化的过程,这往往会导致变换器的速度优化不佳,性能显著降低,原因是高内存访问开销和低精度计算。在这项工作中,他们提出了Jetfire,一种针对transformer的高效准确INT8训练方法。他们提出使用INT8数据流来优化内存访问,并采用逐块量化方法来保持预训练变换器的准确性。广泛的实验证明,Jetfire方法达到了与FP16训练基线相当的准确性,并且相比FP16基线提供了1.42倍的端到端训练加速和1.49倍的内存减少。这项工作目前在投于ICML 2024,论文的详细内容参见https://arxiv.org/abs/2403.12422
报告 2 摘要
熊诺亚是姚班 2020 级(计科01)本科生。本次 seminar 他将介绍他在华盛顿大学杜少雷老师(Simon Shaolei Du)课题组春研期间关于低秩矩阵复原的工作。以往的研究经常观察到过参数化往往会显著地减速低秩矩阵复原问题中梯度下降的收敛。在这段研究中,我们给予了这一现象的理论刻画:(1). 对于对称矩阵复原问题,过参数化会导致梯度下降的收敛速率从线性减慢到多项式收敛。(2). 对于非对称矩阵复原问题,我们发现梯度下降仍然拥有线性的收敛速率,并且阐述了梯度下降的减速幅度与矩阵初始化的大小之间的关系。最后,基于理论的证明思路,我们提出了一个能够将收敛速度恢复至线性(且与初始化无关)的加速方法。相较于之前的加速方法,我们的算法只需要在梯度下降收敛到邻域后进行一步修改,在计算复杂度上有着显著改善。此工作发表于ICLR 2024,并入选焦点论文。论文链接:https://arxiv.org/pdf/2310.01769.
欢迎全体同学参加~