李昱希:上海交通大学多媒体与信息网络实验室(M.I.N Lab)在读硕士研究生,导师为林巍峣教授。主要研究方向为视频序列中的目标,行为检测,曾在AAAI, NeurIPS, IJCAI, BMVC等会议发表多篇论文。
报告题目:从稀疏到稠密的时空行为检测框架
报告摘要:视频序列中的时空行为检测任务从提出到现在,在研究领域取得了一定程度的进展;目前主流的行为检测框架依赖于在短时的输入序列上进行稠密检测来达到行为检测的目标,然而这样的检测框架并没有很好地考虑到视频信号本身较强的时域相关性以及行为识别上对于长时特征的依赖;如何更加高效,准确地对视频序列进行行为检测任然是一个待解决的问题。
本次报告将重点分享我们在AAAI2020上发表的工作,Finding Action Tubes with a Sparse-to-Dense Framework. 这是一个端到端的时空行为检测框架,与以往的检测方法不同,我们在该工作中初步尝试了利用时域相关性进行动态采样,并通过长时注意力机制进行特征增强的方法来实现更加高效,准确的行为检测。
Spotlight:
我们的框架能够结合更长的输入序列,提升网络的时域感受野,并且提出长时特征增强的机制提高行为识别的准确率;
提出了一种动态调节的采样模块,能够结合目标行为本身的复杂度决定在特征层面上的采样数,从而有效调节后续空间检测的复杂度。
1. FindingActionTubes
推荐理由:第一篇关于时空行为检测的论文,其中明确地给出了问题的定义,相关数据集以及一个通用的基于R-CNN的检测框架。
2. Action Tubelet Detector for Spatio-Temporal Action Localization
推荐理由:本文首次提出了使用短时时序信息来帮助检测过程中的行为识别,将二维检测中的anchor概念扩展到了三维视频片段中。
3. OnlineReal-timeMultipleSpatiotemporalActionLocalisationandPrediction
推荐理由:本文提出了一种在线进行时空行为检测的方法,实现了运行效率和检测效果直接的平衡。
4. Dance with Flow Two-in-One Stream Action Detection
推荐理由:区别于以往双流后融合的方法,本文提出了一种特征前融合的方法,实现检测框架中双流特征的整合。
5. TACNet Transition-AwareContextNetworkfor Spatio-TemporalActionDetection
推荐理由:提出了一种基于状态转换的方法进行时域定位连接的方法,同时结合CNN与Bi-LSTM进行特征提取达到更好的识别效果。
6. Recurrent Tubelet Proposal and Recognition Networks for Action Detection
推荐理由:将行为类别分为不同的子类,同时引入时域建模的方法增强识别准确率。