Abstract |
我们考虑梯度下降法训练的较宽的深层全连接神经网络的泛化能力。 我们首先将论证在宽度足够大时,对于一维数据,由梯度下降训练的两层神经网络的泛化能力在适当的早停策略下可以达到极小极大率,而由梯度下降训练至过拟合的两层神经网络没有泛化能力。基于这个结果,我们对Benign Overfitting现象提出了一个新的解释。 随后,对于更一般的数据或者高维数据,我们将会简单介绍一下我们组与深层神经网络的泛化能力相关的部分工作,并介绍一些可以做的问题。如果时间允许,我们也将简短的讨论一下如何对不太宽的深层神经网络的动力学性质进行研究。 |