刘雪静:中国科学院计算技术研究所在读博士,主要研究方向自然语言定位。
报告题目:弱监督指示表达定位
报告摘要:弱监督指示表达定位(REG)旨在根据语言查询定位图像中的目标,其中目标和查询之间的映射在训练阶段是未知的。为了解决这个问题,我们提出了一种新颖的端到端自适应重建网络(ARN)。它以自适应方式建立图像区域(proposal)与查询之间的对应关系:自适应定位和协同重建。具体而言,我们首先提取主体,位置和上下文特征以分别表示图像区域和查询。然后,我们设计自适应定位模块,通过分层注意模型计算每个图像区域和查询之间的匹配分数。最后,基于注意力得分和图像区域特征,我们利用语言重建损失,自适应重建损失和属性分类损失的协同损失来重建输入查询。这种自适应机制有助于我们的模型减轻不同类型语言查询的差异。在四个大型数据集上的实验表明,ARN在很大程度上优于现有的最先进方法。可视化结果表明, ARN可以更好地处理同一场景下存在多个同类对象的情况。
Spotlight:
首次在弱监督指示表达定位中引入对位置,关系信息的处理;
提出了一种端到端的自适应重建网络(ARN),可以更好地应对不同指示表达之间的差异。
1. Generation and Comprehension of Unambiguous Object Descriptions

推荐理由:这是一篇比较早关注全监督指示表达定位的方法,讲述了该任务引入的意义,提出了经典的基于CNN-LSTM的方法,同时公开了Google Refexp数据集。
2. Grounding of Textual Phrases in Images by Reconstruction

推荐理由:这是最早关注到弱监督指示表达定位的论文,其提出了利用视觉特征重建自然语言的方法来解决弱监督指示表达中标注缺失的问题,是一篇经典的弱监督指示表达定位的工作。
3. MAttNet Modular Attention Network for Referring Expression Comprehension

推荐理由:这是一篇经典的全监督指示表达理解(定位)的论文,其对主体,位置和关系的分模块建模的方法在指示表达定位中取得了非常好的效果。