近年来,深度学习模型在各种任务上都取得了非常大的成功。然而,不同于人类可以从少量样本中快速学习,深度学习模型的成功仍依赖于大量训练数据。那么,深度学习模型是否有可能拥有人类这种快速学习的能力呢?一个关键问题就在于深度学习是否可以拥有组合泛化能力。本期我们邀请到了刘乾同学,分享他在NeurIPS 2020上发表的一项有关组合泛化的研究。
刘乾:北京航空航天大学与微软亚洲研究院联合培养博士,博士期间的主要研究方向为语义解析、对话系统和组合泛化,以第一作者身份在NeurIPS、ACL、EMNLP等会议中发表多篇论文。

报告题目:从复制粘贴走向推理合成:AI编程中的组合泛化
报告摘要:组合泛化是人类的一种基本而又必不可少的能力,通过理解已知部件的未知组合,人类可以利用有限的语言元素理解无限的自然语言世界。因此,越来越多研究者关注在组合泛化这个问题上,尤其是在AI编程领域。2018年,纽约大学和Facebook的科学家们提出一个组合泛化领域的经典测试基准SCAN,测试任务是将诸如“run after walk”这样的自然语言解析成诸如“WALK RUN”这样的导航指令。然而他们发现,目前最先进的深度学习模型,甚至包括预训练模型,在这个测试基准上表现得都尤其差。为了解决这个问题,我们指出组合泛化的核心在于建模语言之间的同态映射,并在该思想的指导下提出一种新颖的记忆增强的神经模型LANE,该模型在SCAN上。虽然LANE在SCAN上的成功要推广到更真实的场景还有一段距离要走,但我们相信对组合泛化的研究可以推动AI编程向更加智能的推理合成迈进。
Spotlight:
- 本文首次将组合性与变量槽和符号函数具体关联起来,并通过学习表达式来达成组合泛化。
- 本文为学习表达式设计了一个由Composer, Solver和Memory组成的模型。由于表达式是离散的,而且在数据集中并没有相关监督,所以模型的训练很有挑战。本文提出使用分层强化学习和课程学习的方法,让模型的训练较为稳定。
- 本文提出的模型是第一个在无需额外资源情况下就能通过SCAN上所有组合泛化测试基准的神经网络模型。

推荐理由:这篇论文最早指出当前的神经翻译模型缺乏组合泛化能力,并提出了组合泛化领域中的经典数据集SCAN。

推荐理由:这篇论文提出一种基于元学习的神经翻译模型,并验证了该模型拥有一定组合泛化能力。

推荐理由:这篇论文使用一种基于数据增强的方法来普适地增强神经翻译模型的组合泛化能力,这种方法通过使用真实的训练数据和相似环境下片段替换的方法构造合成数据。

推荐理由:这篇论文提出通过程序合成而非学习一个神经翻译模型来达成组合泛化。

推荐理由:由于SCAN是一个人工合成的数据集,本篇论文提出了一个更真实的数据集CFQ用来测试KBQA系统的组合泛化能力。

推荐理由:本篇论文提出了一种新颖的分层偏序解码算法来实现自然语言的组合泛化,该方法在最新的CFQ数据上取得了很好的效果。
录播视频 / 推荐论文下载 / 讲者PPT 登录后获取查看地址