虽然复杂的视觉问答(VQA)模型取得了显著的成功,但它们倾向于只根据问题和答案之间的表面关联来回答问题。最近已经有不少解决这个语言偏见(language priors)现象的工作。然而,他们中的大多数往往直接输出最高概率的答案作为预测结果,而不再对输出答案的真实性进行检查。此外,他们只研究了图像和问题之间的交互,忽略了候选答案的语义。本期论坛我们邀请到了来自中国科学院信息工程研究所的佀庆一同学,他提出了一个基于视觉语义蕴涵的先筛选后重排序的渐进式框架。