张博航:北京大学博士二年级在读,研究方向为对抗样本及鲁棒学习(Adversarial Robustness)、优化算法(Optimization)等,目前以第一作者发表NeurIPS一篇。
报告题目:神经网络优化中的梯度裁剪算法分析
报告摘要:基于梯度裁剪(Gradient Clipping)的梯度下降算法是一种广泛应用在神经网络训练中的方法,可以起到缓解梯度爆炸的作用。尽管它在实践中非常有效,目前对这一类算法的理解仍十分欠缺。在这次报告中,我们将研究一大类梯度裁剪框架下的算法,并在一种弱假设下给出算法的收敛性结果。和以前对于梯度裁剪的分析相比,我们的方法更加一般化(也适用于基于动量的梯度裁剪算法),而且得到了比之前更优的理论结果。我们的结果表明,梯度裁剪算法与普通的随机梯度下降相比,大大加速了高度非光滑的函数的优化过程。我们也通过实验比较了各种任务中梯度裁剪算法的表现,验证了这一结论。
论文标题:Improved Analysis of Clipping Algorithms for Non-convex Optimization
Spotlight:
我们对一大类梯度裁剪框架下的算法进行了理论分析,包含了常见的随机梯度下降算法和基于动量的随机梯度下降算法;
我们得到了比之前更优的理论结果,这一结果对梯度裁剪为什么有效以及什么情况下有效给出了强有力的回答;
我们在各种CV和NLP实验中验证了梯度裁剪算法的有效性。
1. Why gradient clipping accelerates training A theoretical justification for adaptivity [Jingzhao Zhang, et.al]
推荐理由:这篇文章发表在ICLR 2020,得分很高,对于理解本次报告比较有用。
2. Why are Adaptive Methods Good for Attention Models
推荐理由:这篇文章发表在NeurIPS 2020,它从另一个角度分析了有噪声的随机优化情况下,梯度裁剪的有效性。
3. Momentum Improves Normalized SGD
推荐理由:这篇文件是一篇比较理论的文章,给出了对基于动量的梯度归一化的分析。
4. An overview of gradient descent optimization algorithms [Sebastian Ruder]
推荐理由:这篇文章适合对优化领域不太了解的初学者来看,能够对一些基本的概念和常见的算法有所了解。
5. Optimization Methods for Large-Scale Machine Learning
推荐理由:这篇论文系统全面的分析了凸优化和非凸优化下随机梯度下降算法的收敛性,是一篇非常经典的论文。