丁霄汉:清华大学在读博士生,主要研究方向为卷积神经网络的设计与优化。
报告题目:非对称卷积模块:零代价地提升卷积网络的精度
报告摘要:我们提出非对称卷积模块(Asymmetric Convolution Block),一种架构无关的卷积神经网络基本构件。这一模块使用一维卷积核来增强常用的二维卷积核。相比于常用的卷积层,这种结构在训练的时候可以达到更高的精度。在训练完成后,这种结构可以等效转换成普通的卷积层,所以部署的模型虽然精度更高了,但其结构和普通的网络完全相同。因此我们说,这种性能提升是“白给”的。
Spotlight:
提出的是一种通用的卷积神经网络构件,可以被用到任何架构的卷积网络中去;
非常实用和易用,只需要几行代码实现,甚至不需要调参;
不引入任何推理开销(inference-time costs),将你的性能-开销曲线垂直上移。
1. Squeeze-and-Excitation Networks
推荐理由:这篇非常著名的文章提出的Squeeze-and-Excitation Block本质上是channel-wise attention,对卷积层的输出的不同channel乘以一个不同的系数,就能显著提升性能,而开销代价不多。而且这篇文章的写作非常好。
2. Soft Conditional Computation
推荐理由:这篇文章提出的Soft Conditional Computation (SCC)用到了一个非常简单但是一直被忽视的原理:多个卷积核先各自卷积再相加,等于先把卷积核相加再卷积。只要在网络里放进数倍于原来的卷积层,并用全连接层做route function得到的系数对这些卷积层的kernel做加权相加,用得到的kernel去做卷积,就能提升性能。这样的网络虽然参数量增加了几倍,但是运算量没有增加很多。
3. Selective Kernel Networks
推荐理由:Selective Kernel Network (SKNet)为了实现(近似)的动态感受野,将3×3卷积和5×5卷积的输出结合。这里的所谓结合也非常简单,也是用全连接层做route function得到系数然后加权相加。也可以提高性能。而且如果用3×3膨胀卷积来近似5×5非膨胀卷积的话,性能损失不大,而参数量和计算量可以大大降低。