钟旭彬:华南理工大学直博生二年级,主要研究方向是场景理解和关系检测, 目前已在IJCV,CVPR,ECCV等国际顶级期刊和会议上发表一作论文3篇。
报告题目:扫视与凝视:一阶段人物交互检测中动作感知点的推断
报告摘要:现有的人物交互检测方法可分为一阶段和两阶段两种。一阶段模型由于其直接的体系结构更高效,但两阶段模型在准确性上仍然有优势。现有一阶段模型通常首先检测预定义交互区域或点,然后只关注这些领域来预测交互类型;因此,他们缺乏动态搜索辨别线索的推理步骤。本文提出了一种新的一阶段方法,即扫视与凝视网络,它通过扫视与凝视步骤自适应地建模一组动作感知点。扫视步骤快速确定图片中的每个像素是否一个交互点;凝视步骤利用由扫视步骤生成的特征图,以渐进的方式自适应地推断每个像素周围的动作感知点。将细化后的动作感知点特征进行聚合,用于交互预测。此外,我们设计了一种动作感知的匹配方法,可以有效地将每个检测到的交互与其关联的人-物对进行匹配,以及一种改进优化的困难样本注意损失算法。上述所有操作都是同时有效地针对特征图中的所有像素进行的。
论文标题:Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection
Spotlight:
从“如何定义交互区域”的角度分析了现有一阶段检测网络的缺陷;
第一次在人物体交互检测方向提出“扫视与凝视“步骤来推理动作感知点;
在实验中充分验证了扫视与凝视步骤的有效性, 并且在V-COCO和HICO-DET两个数据集上大幅领先目前最好的方法。
1. Detecting and Recognizing Human-Object Interactions
推荐理由:这篇论文可以说是一阶段网络的开山之作,同时作者提出用人的appearance特征可以推断与其交互的物体的位置,这一想法也经常被后续的工作所利用。
2. Pose-aware Multi-level Feature Network for Human Object Interaction Detection
推荐理由:这篇论文是ICCV2019的oral, 最早利用人体部件的特征来提升HOI detection的工作之一, 在V-COCO数据集上大幅领先同期工作。
3. QPIC Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information
推荐理由:最早在HOI detection里应用transformer的工作之一,在两个最重要的HOI 数据集HICO-DET和V-COCO上都达到了非常高的指标。
4. PPDM Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection
推荐理由:首次提出用anchor-free的方法实现了实时的HOI detection, 在检测速度和精度大幅领先于同期方法。
5. Polysemy Deciphering Network for Robust Human-Object Interaction Detection
推荐理由:第一次系统地讨论了“一词多义”问题在HOI detection带来的影响,提出了利用语言先验解决HOI detection动词多义性的问题,在HICO-DET和V-COCO两个重要数据集上都实现了大幅提升。
6. Detecting Human-Object Interaction via Fabricated Compositional Learning
推荐理由:长尾效应问题是关系检测的主要问题之一,基于组合学习的思想,将动作特征和编造的物体特征组合成新的HOI 种类的训练样本,有效地解决HOI长尾效应的问题。