2025年7月8日下午,美国宾夕法尼亚大学苏炜杰教授应国家数学与交叉科学中心邀请做客综合论坛,并做了题为“PolarGrad:从统一预处理视角看一类矩阵梯度优化器”的学术报告。报告由高小山研究员主持,60多位师生参加了本次报告会。交叉中心主任郭雷院士为苏炜杰教授颁发了杰出讲座证书。

苏炜杰教授详细介绍了他与合作者用于人工智能大模型训练的优化算法方面的最新研究成果。他首先简要介绍了大模型训练常用的优化算法Adam以及近期出现的两类新优化算法Shampoo与 Muon。接着介绍了他们引入的新优化算法PolarGrad。这是一类基于矩阵梯度极分解的新型预处理优化方法。PolarGrad包括Muon作为一个特殊情况。对各种矩阵优化问题和语言大模型预训练任务的广泛评估表明,PolarGrad的表现优于Adam、Shampoo和Muon。
报告人简介:苏炜杰是宾夕法尼亚大学数学系和沃顿统计与数据科学系副教授,宾夕法尼亚大学机器学习研究联合主任。他在深度学习的数学理论、大型语言模型的统计基础、隐私保护机器学习、高维统计、数学优化等方向做出了重要贡献,是IMS的当选会员,曾获斯隆研究奖、SIAM数据科学早期职业奖和NSF职业奖等,是《JMLR》、《JASA》和《Operations Research》等重要杂志的编委会成员。