从词表征到BERT / NLP中的生成式预训练模型

尚尚小助手

1. 讲者介绍

罗玲：2018年获南开大学工学学士学位，专业计算机科学与技术，现保送至中国科学院计算科学技术研究所智能信息处理实验室，研究兴趣为自然语言处理、语义分析，意⻅挖掘，文本摘要等。2018年在IJCAI会议一作发表论文1篇，大四于计算所实习期间参与债券舆情分析与金融风险感知等多个项目，并于2018年暑期入选腾讯犀牛鸟精英人才计划，赴腾讯AI Lab交流合作。

报告题目：From Word Representation to BERT

报告摘要：本次分享主要是通过简要介绍预训练词向量研究历程(word2vec，glove，ELMo等)，重点介绍BERT的主要贡献。作为刷新GLUE榜单11项NLP任务（句子关系判断，分类任务，序列标注任务等）成绩的预训练模型，BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点，并且通过masked语言模型实现了真正的深度双向模型。这使得BERT不仅能更好的处理sentence-level的任务，在token-level的语言任务上也达到了不错的效果。本次分享还将简要介绍BERT的相关应用以及一些近期的相关工作，探讨BERT对NLP任务的影响和未来发展。

Spotlight：

分享预训练词向量研究历程；
介绍BERT的背景知识，模型思路和重大贡献以及相关应用；
介绍近期相关工作，谈谈未来发展和感想。

2. 讲者介绍

马聪：2017年获北京科技大学工学学士学位，专业智能科学与技术，现保送至中国科学院自动化研究所模式识别国家重点实验室，研究兴趣为自然语言处理、机器翻译、多模态信息处理等。曾任中国科学院大学人工智能技术学院首届学生会主席。研究生入学至现在，以第三作者的身份分别参与了一篇EMNLP会议论文和一篇TKDE期刊论文。

报告题目：Generative Pre-Training in NLP & Its Generalization

报告摘要：本次分享将主要关注OpenAI在自然语言处理领域的两个预训练的工作GPT和GPT-2.0. 通过分析GPT的两个模型，重点探讨基于单向语言模型的NLP预训练过程对序列生成任务的作用以及利用预训练模型进行NLP多种任务无监督测试的方式和效果。GPT-2.0在机器翻译、问答系统、文本摘要等复杂任务上的性能展示出NLP预训练模型的强大功能以及其在自然语言序列生成中性能。本次分享还将简要介绍利用预训练模型在后续任务利用监督信息进行fine-tune的一些近期工作。

Spotlight：

分享GPT、GPT-2.0的设计思路和性能分析；
介绍GPT系列模型所应用的各种NLP任务定义及示例；
介绍NLP领域无监督预训练搭配监督微调的近期工作。

论文推荐

1. deep contextualized word representations

推荐理由：一般来说，词向量在NLP的任务中需要解决两个问题：（1）词使用的复杂特性，如句法和语法；（2）如何在具体的语境下使用词，比如多义词的问题（在“我买了一个苹果手机”和“我买了5斤苹果”中的“苹果”的embedding应该是不同的）。该论文提出了ELMo模型，以基于多层双向LSTM语言模型为基础，用各层之间的线性组合来动态表示词向量，这样来解决多义词问题。ELMo训练即是通过计算前向和后向的语言模型的对数似然函数来优化模型。ELMo的使用即是将通过ELMo得到的所有词向量的线性组合运用到下游任务中。本文在Question answering、Textual entailment、Semantic role labeling、Coreference resolution、Named entity extraction、Sentiment analysis六个方向都做了实验，得到了很不错的提升。此外训练效率很高，使用ELMO词向量可以少98%epoch就能训练好，对于数据量越少的情况，使用ELMo效果好的越多。在BERT出现之前ELMo模型也算是小火了一把，读懂ELMo，以及对比各个主流模型的优缺点，会更能理解词向量和语义间的关系。

该图为ELMo得到的contextualized embedding的一例子

推荐理由来自：罗玲

2. BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

推荐理由：作为截止2018年10月刷新了GLUE榜单上11项NLP任务的预训练模型，BERT可谓是在自然语言处理研究带来了一股浪潮。BERT使用了masked语言模型，实现了真正深度双向模型，不仅能更好地处理sentence-level的自然语言任务，而且在token-level的任务上也达到了不错的效果。BERT的预训练思想与结构，都值进一步的关注和探讨。

推荐理由来自：罗玲

3. Linguistically-Informed Self-Attention for Semantic Role Labeling

推荐理由：Transformer提出之后，多头注意力机制现在广泛的运用在了各个NLP的任务上。本文就是基于多头注意力机制等，在语义角色标签任务上得到提升，获得了EMNLP 2018的最佳长篇论文。目前最先进的语义角色标签使用的是没有外部语言特征的深度神经网。但此前的研究表明黄金语法树可以极大地提高语义角色标签的解码。这篇文章提出了一种神经网络模型，名为linguistically-informed self-attention，它结合了多头注意力和多任务学习，能够预测检测结果和语义角色标签。这篇论文有很多亮点：一个共同训练句法和语义任务的转换器；在测试时注入高质量解析的能力；和范围外评估。同时还通过训练一个注意力头来关注每个token的句法父项，使Transformer的多头注意力对句法更加敏感。

推荐理由来自：罗玲

4. Language Models are Unsupervised Multitask Learners

推荐理由：Open AI提出的自然语言处理中的预训练模型GPT-2.0版本。该篇论文中的预训练模型基本延续了GPT-1.0的模型结构，是基于Transformer的自注意力网络结构进行单向语言模型训练，其改进在于层归一化（Layer Norm）的位置，以及对层数的增加（最多达到48层）。另外该论文中使用了800万的丛Reddit上爬取的WebText数据资源来进行预训练，更大规模的训练数据，更大规模的网络架构使得GPT-2.0在语言模型上的预训练效果得到了进一步的提升。值得注意的是，GPT-2.0在一系列NLP的任务上进行了无监督测试的实验和分析，即在预训练过后，不进行fine-tune而直接进行测试。GPT-2.0在阅读理解、自动摘要、机器翻译、问答系统等较为复杂的NLP任务上都进行了无监督的测试，虽然无监督测试的结果同监督训练的性能还有一定的距离，但是GPT-2.0的无监督测试效果已经比无监督测试的一些state-of-the-art有了不小的提升。同时GPT-2.0在文本生成的效果上得到了非常流畅的结果，这大大归功于大规模语言模型的训练，也展示出了语言模型训练对文本生成的重要作用。

推荐理由来自：马聪

5. Improving Language Understanding by Generative Pre-Training

推荐理由：GPT-1.0的工作，该篇论文采取单向语言模型预训练的思想搭配fine-tune在一系列的NLP任务上达到了state-of-the-art的效果。预训练的过程中使用Transformer的解码器作为特征提取器，预训练过程以语言模型的目标函数作为优化目标；在fine-tune阶段，使用语言模型配合具体任务的损失函数线性加权进行训练。从整个工作的框架上分析，该篇工作属于半监督的范式。在成分分析实验部分，论文发现不进行模型预训练而直接进行监督训练会使得性能有较大的损失，而对于fine-tune部分删去语言模型损失函数与监督损失函数的线形叠加，只使用监督损失函数，会使得NLI任务的性能有一定下降，但是问答系统及文本分类的性能并没有受到影响，反而有小幅提升。总结来说，本文利用单向语言模型预训练Transformer在NLP预训练配合无监督及监督fine-tune做了初探性的工作，并展示出NLP任务也能受到预训练的益处。

该图为GPT-1.0模型结构图

推荐理由来自：马聪

6. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

推荐理由：在面对在迁移学习中，源和目标设置之间的差异(例如，领域适应、持续学习和多任务学习中的任务)的时候，稳健的无监督方法是很有必要的。而对于跨语种嵌入映射任务的核心思想：分别训练单个语种语料，再通过线性变换映射到shared space，该文章研究的无监督方法self-learning。但self-learning初始化不好时，易陷入差的局部最优。本文通过观察到不同语种中相同的词有相似的相似度分布，于是提出了一种更有鲁棒性的初始化的方法。所以，利用领域专业知识和分析见解可以使模型更加稳健，这也是做NLP task的一种启发。

该图为不同语种中相同的词有相似的相似度分布

推荐理由来自：罗玲

7. Meta-Learning for Low-Resource Neural Machine Translation

推荐理由：元学习在少样本学习、强化学习和机器人学习中得到了广泛的应用，最突出的例子是与模型无关的元学习。在解决样本数量有限的问题上，元学习非常有用。对机器翻译领域来说，特别是一些小语种，可能收集的数据样本比较少，那么这个时候我们又希望这个翻译系统也能达到不错的效果，那就只能在小样本上面处理了。该论文（1）构造一个translation task generator用来生成不同的翻译task用于meta-train和meta-test，这就是一般Few-Shot Learning的构造；（2）将采集的task用于MetaNMT的训练，使用MAML训，目的就是为了得到一个好的初始化参数用于Meta-Test的task实现Fast Adaptation；（3）使用了一个Universal Lexical Representation 来表征不同的语种的特征，从而得到合适的embedding用于MetaNMT的训练。这篇paper是第一篇使用Meta Learning在Few-Shot NLP问题上的paper，相信Meta Learning未来还能更好地运用到更多NLP的任务中。

荐理由来自：罗玲

8. Pre-trained Language Model Representations for Language Generation

推荐理由：这篇工作发表在NAACL’19中。该论文主要是利用预训练ELMO模型，并将其后续搭配机器翻译、自动摘要工作来训练其在文本生成上的实验效果。在机器翻译任务上，该论文发现，当预训练完成后，在监督学习的fine-tune部分，如果监督的语料规模比较小，会使得预训练的模型好于只利用小规模训练的翻译模型；但是当翻译任务的语料规模较大时，预训练模型所展现出来的优势便不再明显。此外在文本摘要的任务上，利用预训练模型并配合fine-tune也会使得实验性能有一定的提升。

推荐理由来自：马聪

9. Multi-Task Deep Neural Networks for Natural Language Understanding

推荐理由：这一篇工作是微软提出的利用多任务训练的架构MT-DNN在自然语言处理中进行预训练。该工作的基础模型共享Transformer，即把Transformer作为预训练的特征提取器，在不同的任务上共享该部分的参数。在下游任务上对应不同的task-specific架构，并搭配对应任务的损失函数，训练的过程进行整体模型的参数修改。该工作所使用的多任务搭配预训练的架构展示出不同的任务协同训练，可以一定程度为模型参数学习提供正则化的效果，是预训练模型并应用在下游任务的一种重要方式。

该图为MT-DNN模型架构图

推荐理由来自：马聪

10. ETNLP- A Toolkit for Extraction, Evaluation and Visualization of Pre-trained Word Embeddings

推荐理由：这篇工作发布了一个工具包，来帮助研究工作人员对预训练的词向量进行抽取使用、评估以及可视化分析。文章中对预训练的词向量的分析主要基于词级别的语义相似度的分析上。作者开源了工具包的代码，同时分析了ELMO、BERT等预训练模型所学到的词向量以及效果分析。研究者在使用NLP预训练的模型前，可以利用该工具包分析一下不同预训练模型的特点和效果，以选择更适合研究任务的预训练模型。

推荐理由来自：马聪

回放视频+推荐论文+讲者PPT 登录后获取查看地址

罗玲

From Word Representation to BERT

导读

在自然语言处理任务中，词向量技术是将自然语言中的词转化为稠密的向量，语义相似的词会有相似的向量表示。Word2Vec等传统的词向量预训练模型都是静态且上下文无关的，不能很好的处理同一个词不同语义。Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》提出了BERT模型解决了这样的问题。作为刷新GLUE榜单11项NLP任务（句子关系判断，分类任务，序列标注任务等）成绩的预训练模型，BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点，并且通过masked语言模型实现了真正的深度双向模型。同时BERT不仅能更好的处理sentence-level的任务，在token-level的语言任务上也达到了不错的效果。BERT不仅带来了研究的热潮，它对NLP任务的影响也在持续发酵中。

正文

在自然语言处理任务中，词向量技术是将自然语言中的词转化为稠密的向量，语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学（共现矩阵、SVD分解）到基于神经网络的语言模型（Word2Vec等）。但是这些训练得到的词向量都是静态且上下文无关的，不能很好的处理同一个词不同语义的情况（例如同一个“苹果”的词向量不能同时表达“我买了一个苹果手机”以及“我买了一斤苹果”中的“苹果” ）。

2018年Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，提出了BERT模型，旨在通过预训练语言模型来得到动态上下文相关的词向量（“苹果”一词的词向量在“我买了一个苹果手机”和“我买了一斤苹果”中不同）。如图所示，BERT是多层双向Transformer的encoder块：

BERT首先在大规模的语料库中pre-train，然后将下游任务输入，进行比较轻量级的fine-tuning。

（1）pre-train: 与普通的预训练语言模型不同的是，BERT的预训练目标是Mask Language Model加上Next Sentence Prediction。Mask Language Model是受到完形填空的启发，它不同于传统的语言模型，它盖住整篇文章15%的词，然后用其他的词预测这15%的词。被盖住的词用[mask]这样的一个标记代替，但是由于下游任务中没有[mask]这个符号，为了削弱这个符号的影响，15%被盖住的词中，80%的词就用[mask]符号盖；10%的词保留原来真实的词；10%的词用随机的一个词替代。因为Mask Language Model只获得了Token级别的特征，但是对于一些句间关系的推理，对话系统、问答系统需要捕捉一些句子的特征，BERT同时也采用给定2个句子，判断它们是否是连续的句子的方式捕捉句子级别的特征，该训练目标为Next Sentence Prediction。

（2）fine-tuning：BERT是一种fine-tuning的方法，预训练好的BERT直接接入下游任务随着下游具体任务进行精调。如下图所示，对于句子关系类的任务，每个句子加上起始和结束的符号，句子之间加入分割符号，经过BERT模型它起始位置的输出连接上一个softmax的分类器即可。对于序列标注的模型，加入起始与结束的符号后，对于最后BERT每个位置的输出都加入一个线性的分类器。

NLP一共有4大类的任务：

1) 序列标注：分词／词性标注／命名实体识别…

2) 分类任务：文本分类／情感分析…

3) 句子关系判断：自然语言推理／深度文本匹配／问答系统…

4) 生成式任务：机器翻译／文本摘要生成…

BERT为这4大类任务的前3个都设计了简单的下游接口，实验效果全面取得了大幅度的提升。截止2018年10月，刷新了GLUE榜单上11项NLP任务，为NLP的研究带来了热潮。

除了BERT能动态获得上下文相关的词向量以外，[Peters et al., 2017] 提出了一种Feature-based的ELMo的模型，它是通过训练基于LSTM的两个不同方向的语言模型进行目标优化的。[Radford et al., 2018]提出基于单向Transformer的GPT模型，也取得了不错的效果。与ELMo相比，BERT能够更能高效捕捉更长距离的依赖，同时能捕捉到真正意义上的双向上下文信息，用Transformer取代LSTM使得模型的并行化程度更高。与OpenAI GPT相比，BERT的训练时长和词典数量更大，优化目标是MLM和NSP两个任务，且它在fine-tuning时的学习率是根据任务变换的。

BERT的成功让我们不禁思考未来的发展方向在哪里，我们还能做什么？

BERT在机器翻译等生成式任务上表现还没有那么好的提升效果，未来如何将其运用机器翻译等生成式任务上值得我们探索。
对预训练模型在下游任务的Fine-tuning阶段需要大量标注数据，当标注数据很少，如何提升模型的表现效果呢？微软提出了MT-DNN模型，利用多任务学习来进行模型精调，减少了单个任务对于标注数据的需求，而在MT-DNN模型9/11项任务超越了BERT。
BERT本身的设计也值得我们借鉴以及思考。由于预训练语言模型只获得了Token级别的特征，但是对于一些句间关系的推理，对话系统、问答系统需要捕捉一些句子的特征，所以BERT采用了训练Next Sentence Prediction的任务。这样的额外训练任务不仅在句子层面带来了良好的效果，它也不需要额外的标注信息，充分利用了无监督数据。在我们日常的训练任务中，我们也可以考虑我传统的训练目标是否真正合理从而来提升我们的效果。

版权声明

原创文章，禁止私自转载

马聪

NLP中的生成式预训练模型

导读

本次分享将主要关注OpenAI在自然语言处理领域的两个预训练的工作GPT和GPT-2.0. 通过分析GPT的两个模型，重点探讨基于单向语言模型的NLP预训练过程对序列生成任务的作用以及利用预训练模型进行NLP多种任务无监督测试的方式和效果。GPT-2.0在机器翻译、问答系统、文本摘要等复杂任务上的性能展示出NLP预训练模型的强大功能以及其在自然语言序列生成中性能。

正文

2018年NAACL会议的Best paper颁发给了预训练工作ELMo，2019年NAACL的Best paper颁发给了谷歌AI的预训练工作Bert。从这连续两年的NAACL最佳论文的评选可以看出学界对自然语言处理中预训练的重视，同时预训练模型也没有辜负大家的期望，在一系列的任务上都得到了非常好的实验性能。在Bert工作的同期，OpenAI研究机构在其官方博客上也发布了在自然语言处理中进行生成式模式的预训练模型GPT和GPT-2. Bert和GPT有相似也有不同，本文将重点针对GPT的思想和设计进行展开。

预训练模型在计算机视觉中已经有了非常广泛的应用，例如在ImageNet上预训练VGG、GoogLe Net、Res Net等网络架构，在后续的下游任务中得到了非常好的效果，而在自然语言处理中预训练的工作之前主要是集中在文本表示的预训练中，例如word2vec、sent2vec、doc2vec这样对文本进行表示的工作中。近两年，有较多的研究工作关注在利用语言模型任务来进行预训练，以得到文本的更好表示。

在介绍预训练的模型之前，我们有必要先看看为什么要进行预训练，或者预训练到底能为后续的任务带来什么？无论是计算机视觉还是自然语言处理或者机器学习的其他任务，在进行模型设计前，特征的表达都是非常重要的工作，在之前传统方法中，主要的特征表示工作是由研究人员进行手工编撰、设计特征表达，进而将这些特征表达送到后续的模型中进行分类或回归等下游任务。对于计算机视觉中，最常见的数据形式为图像的像素值，自然语言处理中最常见的是字符串表征的文本，但无论是什么源数据形式，都需要将数据映射到特征空间，才能更好的进行模型的训练、学习。图1展示了机器学习过程中数据表示的流程图，现在大多数的机器学习任务都根据该流程进行数据的表征和模型的训练。在数据表示和训练的流程中，一个关键的问题是如何进行有效、合理的特征表达。在传统工作中，研究人员主要进行手工设计特征，而随着深度神经网络的发展和越来越大规模数据的获得，研究者们发现，深度学习框架可以从大规模的训练数据中自动的学习到比较好的数据特征表达，而不再需要手工编撰特征。显而易见，如果希望模型可以学习到比较好的数据表示，需要有大规模的数据支持，但是在很多具体的研究任务中，训练数据的规模还是比较有限，并不能支持模型学习到较好的特征表示，所以在特定的任务上进行预训练（例如计算机视觉中的ImageNet数据集上预训练，自然语言处理中的大规模语言模型预训练），再到具体任务上进行fine-tune。

图1 – 机器学习数据表示流程图

除了在数据表示工作的预训练，还有较多的工作关注在模型的预训练，该部分的工作主要是利用预训练得到模型的比较好的模型参数初始化范围，并在后续的fine-tune中在目标任务数据集上进行快速的收敛。

具体的在自然语言处理中利用语言模型进行预训练的形式化如图2所示。语言模型的任务是根据上下文的信息来预测后续将要出现的字符或单词的概率。前向语言模型是根据已经出现的若干词语来预测当前输出词的概率分布；而后向语言模型是根据未来的若干词语来预测当前输出词的概率分布。双向的语言模型则是根据历史信息和未来信息，共同作为条件来预测当前词的概率分布，从形式上来看，双向语言模型的定义非常类似“完形填空”的任务。常见的基于语言模型进行预训练的工作都是在前向、后向或双向的任务定义，例如ELMo是双向语言模型任务，Bert也是双向语言模型任务，GPT是单向语言模型任务。其中ELMo和Bert的区别在于，ELMo的建模是利用前向语言模型和后向语言模型，两个模型的拼接来实现双向语言模型，而Bert是直接将历史信息和未来信息共同作为条件输入来对当前词的分布进行预测。GPT则是只利用历史信息来预测接下来将要生成的词。所以GPT的作者在论文题目中称他们的工作为“Generative Pre-Training” – 生成式预训练。

图2 – 语言模型预训练形式化表示

基于语言模型的预训练框架中，之前的相关工作基本都是基于循环神经网络进行语言模型的建模。随着2018年《Attention is all you need》工作的提出（如图3所示），利用自注意力模型Transformer在自然语言处理中的各个任务中得到了非常好的效果，类似的，利用Transformer在语言模型中进行建模也都发现可以得到更好的效果。Bert主要是利用了Transformer的编码器架构来设计双向语言模型，GPT则是主要利用了Transformer的解码器部分来进行生成式的单向语言模型建模。

图3 – Transformer模型架构图

GPT的建模思路如图4所示，其首先在语言模型上进行预训练，继而在特定的任务上进行fine-tune。从图4中可以发现，其基础模型部分基本与Transformer的解码器架构一致，只是删去了Transformer中解码器与编码器之间的自注意力计算机制（因为在GPT的语言模型预训练中没有编码器，也没有源端语言的设定）。在预训练阶段，GPT完全使用前向语言模型的优化目标进行语言模型的训练，而在特定任务的fine-tune部分，GPT是通过对训练数据中添加相应的token来将各种任务转化为分类任务来进行训练。GPT所实验的任务包含文本分类、文本蕴含、句子相似度预测和多项选择的阅读理解任务。需要特别注意的是GPT在fine-tune阶段不仅仅利用特定任务的训练目标，还将语言模型的任务同时作为辅助目标来进行统一训练，根据论文中的实验结果发现，具体任务搭配语言模型的辅助fine-tune在一些任务上可以得到性能的进一步提升，但在另外一些任务上没有达到更好的效果。个人认为在语言模型的预训练后的fine-tune中是否需要加入语言模型的辅助目标取决于下游任务的复杂度，有些下游任务相对比较简单，其对语言的条件生成的依赖比较小，此时搭配语言模型进行辅助 fine-tune可能并不能让实验性能进一步提升，而有一些较难的任务需要条件生成的更多信息来进行学习，此时在fine-tune的过程中搭配语言模型的目标进行fine-tune会得到更好的实验结果。

图4 – GPT模型架构图

在GPT发布8个月后，OpenAI又发布了GPT-2版本，得到了更好的实验性能。与GPT不同的是，GPT-2并没有在特定的下游任务上进行fine-tune，而是全部采用了无监督测试的架构设置。在模型架构上，GPT-2的总参数量是GPT的十倍还多，Transformer的层数从BPT的12层增加到GPT-2的48层，隐层节点的维度也从768维增加到了1600维。在具体的模型细节上，GPT-2与GPT的主要不同是在层归一化（layer norm）的放置和残差模块部分的初始化设置。更重要的一点，GPT-2的训练数据集采用了WebText，该数据集是OpenAI在网络资源上进行爬取、清理得到的，其总数据量约有800万文档，文本存储量有40GB。更好的数据和更大的模型，让GPT-2在语言模型任务上得到了非常好的实验性能，GPT-2虽然没有在各个特定的语言模型的训练集上进行训练（GPT-2都是在WebText上进行训练的），但是在8个语言模型的任务上的7个得到了state-of-the-art的结果（如图5所示）。GPT-2在1BW的测试集上没有得到最好的结果，作者分析是因为在1BW任务的训练集中，具有相当大比例的测试集数据存在（有13.19%的测试数据存在于训练数据集中），而WebText与1BW的测试数据的交叉程度则较小，1BW的测试数据中只有3.75%的数据在WebText数据集中。

图5 – GPT-2在语言模型上的实验效果

GPT-2除了在语言模型的任务上进行了性能的分析，还在其他的语言生成任务上进行了性能的分析，展现了GPT-2在经过预训练后的强大语言生成能力。图6展示了GPT-2在部分自然语言处理任务上的实验性能。在所有的这些任务中，GPT-2都是只在WebText的数据集上进行训练，而没有在下游任务上进行fine-tune。没有进行fine-tune的工作，在测试阶段最重要的工作便是让模型知道是在什么任务上进行测试。

对于机器翻译工作，作者使用的方式是添加token [English sentence = French sentence]来提示GPT-2 进行翻译工作。虽然WebText中没有大规模的平行语料，甚至基本都是单语语料，GPT-2还是展现出了不错的机器翻译实验性能。WebText是针对英语构建的大规模训练语料，根据作者的统计，其中只检测到有10MB的法语资源（总语料的规模为40GB），而在这样的数据中，GPT-2的英法翻译的性能可以与基于平行词典的无监督翻译的工作性能可比。而法英的翻译，GPT-2则是借助其强大的英语生成能力学习得到了较好的结果，其翻译性能超过了无监督的降噪机器翻译和词嵌入最近邻翻译，但是相比目前的无监督机器翻译的state-of-the-art工作还有一定的距离，具体结果如图6的第二张图所示。

图6 – GPT-2无监督实验结果

对于文本摘要的工作中，作者发现在网络爬取的数据中，存在一定的摘要的数据构造，在网络中，其存在形式为： [长文档。TL;DR:摘要文档]，其中的TL；DR所表示的含义为Too Long， Don’t Read。基于这样的发现，作者在实验中加入了该标示，可以让GPT-2较好的展示出摘要的性能，如图7所示。当GPT-2没有添加任何标识时，模型倾向于在长文档的基础上继续进行后续的生成工作，而不是生成对应文本的摘要，所以在摘要的评测指标ROUGE上结果不好；而加入TL；DR的标识后，GPT-2的实验性能可以达到与搭配注意力机制的序列模型可比的效果。

图7 – GPT-2在无监督摘要任务上的实验性能

GPT-2除了在机器翻译、文本摘要的任务上进行无监督测试，还在语言生成的工作上进行了测试，在给定上文的基础上，GPT-2展现了强大的生成能力（如图8所示，更多生成样例可参考https://www.openai.com/blog/better-language-models/）。

图8 – GPT-2语言生成样例

总结来说，GPT、GPT-2使用前向语言模型进行预训练的工作，其在语言生成的模型设计上更加自然，但是只利用了一个方向的语言模型的建模确实会存在一定的局限性，作者也在论文中提到“It is unclear whether the additional training data and capacity of GPT-2 is sufficient to overcome the inefficiencies of uni-directional representations demonstrated by Bert.”可以看出OpenAI的研究工作是在扩大模型和训练数据量的基础上来弥补单方向语言模型和双向语言模型之间的性能差异。在可预见的未来，如何有效的利用双向语言模型进行语言生成任务上的工作，以及如何更加有效的利用大规模文本进行预训练来提高自然语言处理任务，仍将是自然语言处理领域研究的重点和热点。

参考文献

[1] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving Language Understanding by Generative Pre-Training. Technical report, OpenAI.

[2] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. 2019. Language Models are Unsupervised Multitask Learners. Technical report, OpenAI.

[3] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer: Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237

[4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018)

版权声明

原创文章，禁止私自转载