陈文清:上海交通大学人工智能研究院博士生,主要研究方向为自然语言处理中的因果推断、文本生成,目前已在ACL、EMNLP、IJCAI、COLING等会议上发表一作论文4篇,合作论文11篇。
报告题目:一种基于语义一致和语法变分的编码-解码同义句生成方法
报告摘要:大多数最近的研究都依赖于典型的编码器-解码器框架,其中生成过程是相对确定性的,缺乏多样性。在实践中,生成多个语法不同的同义句的能力对于文本生成系统的多样性提升很重要。最近的工作提出基于变分推断的编码器-解码器架构,引入一个额外采样的拉式变量以增加多样性。但拉式变量可能会被其他不相关句子的语义信息干扰,进而改变生成的同义句所传达的含义。在本文中,我们提出了一种语义一致和语法变分的编码器-解码器框架,该框架使用对抗性学习来确保语法该拉式变量是无语义的。此外,我们采用另一个判别器来提高词级和句子级的语义一致性。因此,所提出的框架可以生成多个语义一致且语法不同的同义句。实验表明,我们的模型在基于 n-gram 匹配和语义相似性的度量上优于基线模型,并且我们的模型可以通过组合不同的语法变量生成多个不同的同义句。
论文题目:A Semantically Consistent and Syntactically Variational Encoder-Decoder Framework for Paraphrase Generation
分享亮点:
1、本文提出了一个目标感知的变分seq2seq框架,提取目标语句的语法变量并结合输入文本的语义变量以生成多个同义句;
2、本文还通过对抗学习和对比学习提高了生成的同义句的语义一致性;
3、实验不仅基于 n-gram 匹配,也基于语义相似性的度量,多方面证明了我们模型的有效性。
1. A Deep Generative Framework for Paraphrase Generation
推荐理由:这篇论文比较早的用VAE框架做同义句生成,同时还有一种生成多个样本再选择最好的策略。
2. Paraphrase Generation with Deep Reinforcement Learning
推荐理由:在同义句生成领域最早应用强化学习的,并且提供了有正负样本的监督学习方法,和无负样本的逆强化学习方法。
3. Generating Sentences from Disentangled Syntactic and Semantic Spaces
推荐理由:用VAE训练无监督文本生成模型,同时解耦语义和语法变量,可用于无监督同义句生成。
4. Decomposable Neural Paraphrase Generation
推荐理由:这篇文章考虑字级别、短语级别、句子级别的同义提取,解耦不同粒度的同义表征,可生成更可控、更可解释的同义句。
5. Syntax-Guided Controlled Generation of Paraphrases
推荐理由:这篇文章提出了一种更细分的同义句生成任务,输入一个特定语义的句子+一个语法模板句子,需要生成符合该语义和该语法的同义句。
6. X-Linear Attention Networks for Image Captioning
推荐理由:这篇文章不是做同义句生成,而是做图片描述生成,但其提出的Transformer变种可以考虑2阶以上的attention,我最近应用该Transformer变种在同义句生成任务上获得了远超普通Transformer和其他baseline的效果。