本周六下午 14:00 - 16:00,我们将在学堂 112【线下】给大家带来温凯越同学和刘益枫同学的报告。两场报告分别与深度学习理论和 AI4Science 相关。在两场报告之间,同学们可以吃零食 and/or 自由交流。
报告 1 摘要
温凯越是姚班2020级(计科01)本科生,他的主要研究方向是深度学习理论和自然语言处理。在本次Seminar中他将介绍近期神经网络表示理论方面的一些进展。近期,Mamba和RWKV等线性RNNs,在自然语言处理任务上取得了较大进展,然而这些问题在下游任务中仍然与Transformers有较大差距。本次介绍的工作旨在探索这一现象的原因,集中评估了以内存效率著称的RNNs,能否通过适当的增强达到Transformers解决逻辑推理问题的性能水平。理论分析显示,虽然思维链技术(Chain of Thought)可以提升RNNs的性能,但仍无法弥补与Transformers之间的差距。他们指出RNNs在完美检索上下文信息方面存在关键瓶颈,即便在引入CoT的情况下,对于某些显式或隐式要求此能力的任务,如关联回忆和判定图是否为树结构,RNNs的表达力仍不足以解决这些问题,而Transformers却可以轻松完成。另一方面,通过增强RNNs上下文检索能力的技术,包括检索增强生成(Retrieval-Augmented Generation, RAG)和增加单个Transformer层,可以使RNNs具备模拟所有多项式时间图灵机的能力,从而在表示上与Transformers持平。本次Seminar也将讨论这一理论观察在一些近期实验工作中的验证。论文链接:arxiv.org/abs/2402.18510,个人主页:wenkaiyue.com
报告 2 摘要
刘益枫是姚班2020级(计科03)本科生,他的主要研究方向是自然语言处理和AI4Science。本次seminar他将带来关于大语言模型在科学探索中的应用:基于大语言模型的逆合成预测。作为计算化学中的一项基本任务,逆向合成预测旨在识别一组反应物来合成目标分子。之前的无模板方法只考虑目标分子的图结构,通常不能很好地推广到稀有反应类型和大分子。刘益枫和华盛顿大学的其他研究者提出了一种文本辅助逆转录合成预测方法,利用预先训练的文本语言模型,如ChatGPT,来帮助生成反应物。 T-Rex首先利用ChatGPT生成目标分子的描述,并根据描述和分子图对候选反应中心进行排名,通过查询每种反应物的描述对这些候选者进行重新排序,确定合成目标分子的最佳反应物。 T-Rex在两个数据集上的表现明显优于基于图的其他方法,表明了文本信息在逆合成预测中具有促进作用。总的来说,由预先训练的语言模型生成的文本可以显著改善逆合成预测,为利用ChatGPT来推进计算化学开辟了新的途径。 个人主页:https://lauyikfung.github.io/
欢迎全体同学参加~
【重复一遍时间地点】北京时间本周六 3 月 30 日下午 14:00 - 16:00 学堂 112 点击此处进行时区转换 腾讯会议 847-961-889