侯志:悉尼大学博士生二年级,主要研究方向为关系理解和动作识别。目前已在 ECCV和CVPR等会议上发表论文 3 篇。
报告题目:针对人物交互检测的功能迁移学习
报告摘要:我们介绍了一种功能迁移学习方法利用组合学习将人物交互的功能特征迁移到新物体上面,使得HOI模型具备检测新物体的人物交互的能力。具体而言,我们将HOI解耦为功能/动作和物体的表示,然后将功能/动作表示与额外目标检测数据集的提取出来的物体特征进行组合得到一个新的HOI样本,最后将组合出来的HOI样本与原有的HOI一起学习。这个迁移的过程同时使HOI模型具备了物体功能识别的能力。我们的方法有效地改善了HOI检测的性能,尤其是带有新物体的HOI检测,同时大大改善了物体功能的识别结果。
论文标题:Affordance Transfer Learning for Human-Object Interaction Detection
Spotlight:
我们介绍一种功能迁移学习框架来利用广泛的目标检测数据集提高人物交互检测的效果;
我们展示了一种利用人物交互模型识别物体功能的方法;
我们的功能迁移学习方法大大有效地改善了人物交互的效果,同时大大提高了利用人物交互模型进行功能学习的性能。
1. QPIC Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information
推荐理由:这是CVPR2021最新的paper。该paper利用DETR框架,提出了一个简洁的HOI detection模型,大大提高了HOI detection的性能。基于DETR/Transformer 的One-Stage HOI detection方法会是HOI detection的主流。当前有很多HOI detection方法都用了DETR,但这篇非常有独特性和启发性的,并且展现出来的效果最好。
2. Observing Human-Object InteractionsUsing Spatial and Functional Compatibility for Recognition
推荐理由:这是最早提出Human-Object Interaction的文章,充分展示了HOI的意义。早期的文章实际上已经充分地展示了空间位置关系,姿态估计,人体部位对于HOI识别的重要性。虽然不是基于深度学习的,但非常推荐这些早期的文章。
3. Detecting Human-Object Interaction via Fabricated Compositional Learning
推荐理由:这篇文章详细分析了HOI长尾分布的问题,展示了HOI长尾分布事实上主要来自于动作和物体的严重长尾分布。有效地改善了HOI的zero-shot和few-shot detection。
4. UP-DETR Unsupervised Pre-training for Object Detection with Transformers
推荐理由:这篇提出了独特的无监督目标检测预训练的方法。基于DETR,通过预测任意框的位置来预训练检测模型,最终提高目标检测的效果。虽然不是针对HOI,但是非常具有启发性。
5. Something-Else Compositional Action Recognition with Spatial-Temporal Interaction Networks
推荐理由:HOI也是一种动作,该文章介绍了一个新的视频动作识别数据集,目的在于物体不变的动作理解。也就是不依赖于物体来识别人的动作。仅仅从静态图片去识别人物交互是非常局限的,也很难识别一些动作,所以视频角度上理解人物交互是很必要的。
6. Polysemy Deciphering Network for Human-Object Interaction Detection
推荐理由:这篇文章展示了一个动作语意模糊的问题。这是一个HOI里面一个很好的问题。
7. Compositional Learning for Human Object Interaction
推荐理由:这篇文章是针对人物交互识别的,针对人物交互的组合性,这篇文章提出了组合学习方法,利用language embedding学习一个语言和视觉的联合特征空间。比较早的很有新颖的文章。相信从人物交互的组合性,物体的属性和功能,动作理解,以及这些问题的关系出发,进行一些推理研究会是一个不错的思路,并且会有一些更大的进展。