付祈安:清华大学计算机系一年级硕士生。目前研究方向为深度学习中的鲁棒性问题。
报告题目:评估图像分类任务中的对抗鲁棒性(Benchmarking Adversarial Robustness on Image Classification)
报告摘要:近年来,机器学习模型尤其是深度神经网络模型在很多图像分类任务上都得到了让人印象深刻的结果,但是,这些机器学习模型容易受到对抗样本的干扰,即在一张正常的图片上叠加一个人类不宜察觉的小扰动就会让原本分类正确的机器学习模型产生错误的分类结果,对抗样本的存在使得机器学习模型难以应用于需要较高安全性的场景,因此对抗攻防算法及模型鲁棒性逐渐受到研究者的重视。然而,很多新的防御方法被提出后很快会被新的攻击算法攻破,对于很多攻击算法情况也类似;同时,很多已有的工作中并没有合理全面地评估攻防算法的性能和模型的鲁棒性。本次将介绍我们在 CVPR 2020 中的工作:我们开发了一个新的旨在对鲁棒性进行基准测试的平台 RealSafe,并使用它对典型的攻击算法、防御算法和模型进行了全面系统的实验。
Spotlight:
我们进行了多种威胁模型下的针对典型攻击算法、防御算法和模型的大规模的实验;
基于实验结果,我们提出用准确率随扰动大小和攻击强度变化的曲线代替常见于之前工作中的点值作为评价鲁棒性的标准,此外还有一些发现;
我们将论文中使用的平台 RealSafe 进行了开源 https://github.com/thu-ml/realsafe/。
1. EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
推荐理由:该文章是较早的针对图像分类任务提出对抗攻击算法的工作,具有启发意义。
2. Obfuscated Gradients Give a False Sense of SecurityCircumventing Defenses to Adversarial Examples
推荐理由:该工作提出了混淆梯度的概念,认为混淆梯度带来的是虚假的安全,攻击成功了若干之前的出现了混淆梯度的防御算法,同时列举了一些表明可能出现了混淆梯度的现象,对于对抗防御算法的研究影响重大。
3. Boosting Adversarial Attacks with Momentum
推荐理由:该工作提出了 MIM 攻击算法,并使用它赢得了 NIPS 2017 无目标和目标攻击比赛冠军。
4. TOWARDS DEEP LEARNING MODELS RESISTANT TO ADVERSARIAL ATTACKS
推荐理由:该文章是较早使用基于 PGD 攻击的对抗训练来提高模型鲁棒性的对抗防御方法工作,该方法是目前效果最好的防御方法之一,同时还讨论了模型容量与鲁棒性的关系。
5. Improving Black-box Adversarial Attacks with a Transfer-based Prior
推荐理由:不同于基于迁移的黑盒攻击算法和基于查询的黑盒攻击算法,该工作另辟蹊径地提出了一种结合了二者的黑盒攻击算法,在可以达到较高的攻击成功率的同时降低了对于黑盒模型所需的查询次数。
6. RETHINKING SOFTMAX CROSS-ENTROPY LOSS FOR ADVERSARIAL ROBUSTNESS
推荐理由:该文章是对抗防御方面的工作,该工作分析了常用于训练的 Softmax 交叉熵损失函数,并提出了 Max-Mahalanobis center 损失函数替代它,在多种威胁场景下的实验表明,这一损失函数可以提高模型的鲁棒性,同时在正常样本上可以达到和 softmax 交叉熵损失函数几乎相同的分类准确率。