基于非对称核学习方法的Transformer自注意机制分析与优化学术报告

发布时间：2024年05月28日作者：浏览次数：

报告主题：基于非对称核学习方法的Transformer自注意机制分析与优化

报告时间：2024年5月28日下午3:00-4:00

报告地点：民主楼313

报告简介：Transformer中的自注意力矩阵可解释为非对称核矩阵，因此可借鉴核学习方法对其进行分析与优化。然而，经典核学习方法通常限定于对称半正定核，且其训练效率受限于训练数据规模，阻碍了其在深度学习模型中的应用。鉴于此，我们提出非对称核SVD，将SVD推广至非线性特征空间，实现对自注意力机制的原-对偶模型及原-对偶优化问题的推导；同时，构建新型注意力机制PrimalAttention，将二次计算复杂度降为线性计算复杂度，并增强了模型鲁棒性及泛化能力；进一步，推导一组共享对角协方差矩阵的稀疏高斯过程，构建自注意力机制的贝叶斯模型，保留了其非对称特性。

报告人简介：陶清华，比利时荷语鲁汶大学电子系助理研究员。2020年于清华大学自动化系系统工程所获得博士学位，师从王书宁教授开展分片线性神经网络建模与优化研究。此后，加入比利时荷语鲁汶大学电子系Johan A.K. Suykens教授课题组，开展核学习方法及深度神经网络分析与优化研究。陶清华面向深度神经网络学习机理分析、模型结构优化、优化算法设计等方面进行了持续研究，在本领域著名期刊及会议Nature Reviews Methods Primers、IEEE T-NNLS、IEEE T-ITS、Automatica、Signal Processing、TMLR、NeurIPS、ICML、ICLR等发表论文28篇；作为主要发起人及委员会成员举办国际研讨会“International Workshop on Deep Learning and Kernel Machines”，多次担任IEEE TIP、IEEE TNNLS、Machine Learning、NeurIPS、ICML、ICLR等期刊及会议审稿人。