罗德昭:中国科学院信息工程研究所第三研究室在读硕士,导师为周宇副研究员。主要兴趣为视频自监督特征学习,曾在AAAI, CVPR, CVPRW发表论文,曾获CVPR SkelNetOn 2019竞赛冠军。
报告题目:基于完形填空任务的视频自监督学习方法
报告摘要:在过去的几年中,卷积神经网络推动了计算机视觉领域的发展。在解决视觉任务时,通常以在大规模数据集如ImageNet和Kinetics上经过预训练的神经网络为初始化模型。这些网络具有丰富的特征表示能力,但需要大量人工标注。通过自监督学习的方式,可以在没有数据标注的情况下,学习丰富的特征表示。自监督方法主要通过设计代理(Proxy)任务,鼓励网络学习数据特征。然后以初始化的方式提升目标(Target)任务的性能。现有的视频自监督方法通常是在固定的任务下进行学习,限制了模型的表示能力。此外,由于缺乏模型评估方法,极大地限制了自监督表示学习的针对性。本次报告将介绍发表于AAAI2020(Oral)的工作,一种基于完形填空任务的视频自监督学习方法(Video Cloze Procedure, VCP),通过引导网络完成视频的完形填空任务,从而学习视频特征。基于完形填空的特性,VCP既可以用作代理(Proxy)任务,也可用作目标(Target)任务。作为代理(Proxy)任务, VCP可以针对不同的特征融合多个自监督任务,增加了网络的扩展性。作为目标(Target)任务, VCP可以作为作为一种评测工具,用于评测不同自监督模型在视频特征上的学习效果。
Spotlight:
提出基于视频完形填空的自监督学习方法;
提出一种自监督模型评测方法;
在行为识别数据集(UCF101)和(HMDB 51)上的实验表明,VCP在不同主干的网络上均有显著提升。
姚远:中国科学院大学电子电气与通信工程学院在读博士生,2017年本科毕业于北京交通大学。主要研究兴趣为自监督学习,曾在CVPR发表一作论文。
报告题目:基于播放速率感知的视频自监督学习方法
报告摘要:近年来,自监督表征学习由于无需人工标注,特征具有较好的泛化性等优势得到了越来越多的关注,不断有研究在计算机视觉、自然语言处理等领域取得进展,例如在图像中通过一些自监督方法进行预训练在某些目标任务中已经逼近甚至超过一般的ImageNet 预训练模型。然而在视频方向,由于数据相比图像更加复杂,相关的自监督方法距离全监督预训模型在性能上仍有较大差距。本次报告将介绍发表于CVPR2020上的工作,一种基于播放速率感知的视频自监督学习方法(Playback Rate Perception,PRP),相比目前视频自监督学习中基于时序排序任务的大部分工作,本工作则是利用视频的时间多分辨率特性设计了一个新的自监督任务。PRP通过多间隔采样得到不同播放速率的快慢视频,而相应的采样间隔类别,相对快进视频的慢放视频自然而然地成为监督信号,指导网络模型从判别感知和生成感知两方面进行特征学习。实验表明通过PRP的自监督任务学习,网络模型能够对前景运动区域有着较好的激活,而在不同的目标任务上,PRP相比之前的自监督方法都有性能上的提升。
Spotlight:
提出了一种基于播放速率感知的视频自监督学习任务;
从判别感知和生成感知两方面进行视频特征学习;
在UCF101和HMDB51两个数据集的动作分类和视频检索任务上,PRP使用三种网络主干都取得了性能的提升。
1. Evolving Losses for Unlabeled Video Representation Learning
推荐理由:谷歌大脑发表于CVPR 2020的工作。这篇文章将无监督表示法学习描述为一个多模态、多任务学习问题,其中特征的表示在不同的模式之间共享。
推荐理由来自:罗德昭
2. Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
3. Colorization as a Proxy Task for Visual Understanding
4. Context Encoders: Feature Learning by Inpainting
推荐理由:这几篇图像领域中经典的自监督方法。
推荐理由来自:罗德昭
5. A survey on Semi-, Self- and Unsupervised Techniques in Image Classification
推荐理由:这是近期一篇关于半监督、无监督(包括自监督)的概述,二者都涉及到如何在部分标注甚至无标注情况下进行大量数据的表征学习,在网络模型设计难以为继的时候,我们或许可以从数据集的角度思考问题。
推荐理由来自:姚远
6. Unsupervised Representation Learning by Sorting Sequences
7. Self-supervised Spatiotemporal Learning via Video Clip Order Prediction
8. Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
推荐理由:一系列基于时序预测的视频自监督学习方法,从视频帧排序到视频块排序,其实都可以看做jigsaw puzzles类方法从空域到时域的延伸。
推荐理由来自:姚远