直播时间:2022年1月16日(周日)20:00-21:00
常峥:中国科学院计算技术研究所博士在读,主要研究方向为视频理解,视频表征学习,目前已在NeurIPS等国际会议上发表论文4篇。
报告题目:一种动作感知的视频预测方法
报告摘要:我们提出了一种运动感知的视频预测方法,我们创新性地利用空域信息去监督时域信息的融合过程,使得预测单元可以很好的感知到每一时刻视频帧的纹理变化,从而预测出更加可靠的动作信息,我们在多个公开数据集上进行了测试,并取得了很好的效果。
论文题目:MAU: A Motion-Aware Unit for Video Prediction and Beyond
分享亮点:
1、本文提出利用时空域间的相关性信息进行视频预测;
2、空域信息可以监督时域信息的融合过程,时空域信息可以互相感知;
3、本文提出的预测单元可以很方便地扩展到其他预测模型,扩展性较好。
1. Unsupervised Learning of Video Representations using LSTMs [Srivastava, et al.]
第一次用LSTM进行视频预测任务,开创了先河
2. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting [Shi, et al.]
第一次将卷积神经网络融合进LSTM中进行视频帧的处理,在节省计算量的同时也做到了对视觉信息更好的感知
3. PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs [Wang, et al.]
将时域信息和空域信息同等看待,将长短期记忆的思想也扩展到空域
4. Eidetic 3d LSTM: A Model for Video Prediction and Beyond [Wang, et al.]
将3D卷积融合进LSTM之中,进一步提升了模型对时空信息的表达能力
5. Efficient and Information-Preserving Future Frame Prediction and Beyond [Yu, et al.]
设计了一种可逆的编解码器来对视频进行特征图提取,在视频预测的过程中可以很好的保护视觉信息
6. MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions [Wu, et al.]
将动作信息分解为长期运动以及瞬时运动,并设计了一种预测单元对两种运动模式分别建模