孙天祥:复旦大学博士生,师从邱锡鹏教授和黄萱菁教授,主要关注自然语言处理中的多任务学习、知识融入、高效推理等方向,研究成果发表于AAAI, COLING, ACL, NAACL等会议。
报告题目:CoLAKE:一种语言和知识联合表示学习模型
报告摘要:我们提出CoLAKE将语言和知识的数据组织成一种统一的图结构,在这种新型的图数据上进行MLM预训练,在学习语言表示的同时也得到了超过三百万个实体和若干关系的表示。实验表明CoLAKE在关系抽取、实体分类、知识探测等任务上都取得了显著提升。

论文题目: CoLAKE: Contextualized Language and Knowledge Embedding
分享亮点:
1、使用图结构统一了语言和知识的数据结构,通过应用在图上的MLM目标同时学习了语言和知识的上下文表示;
2、将Transformer编码器进行适当修改使其应用于图结构数据的预训练,针对语言-知识图数据提出一种行之有效的预训练手段;
3、使用CPU-GPU混合训练方式同时学习大规模语言模型和上百万个实体表示。
1. Knowledge Graph and Text Jointly Embedding

推荐理由:是非上下文表示时代联合语言和知识表示的代表性工作,结合Skip-Gram和TransE方法将语言和知识映射至同一语义空间,增强模型在语言和知识任务上的性能。
2. Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation

推荐理由:使用Skip-Gram方法将语言和知识的表示学习统一起来,是实体链接领域中的重要工作。
3. ERNIE Enhanced Language Representation with Informative Entities

推荐理由:是将知识图谱引入到BERT的较早尝试,将预训练好的实体向量融合进BERT中对应单词的表示,引入额外预训练任务实现语言和知识表示的对齐。
4. Knowledge Enhanced Contextual Word Representations

推荐理由:端到端地将实体向量融入预训练语言模型,以一种更灵活的方式选择要融入的实体向量。
5. K-BERT Enabling Language Representation with Knowledge Graph

推荐理由:将知识图谱中的实体和关系直接拼接到文本相应位置,其中实体和关系表示直接采用其对应文本表示,因而无需预训练可以直接应用于下游任务,是一种高效的知识融入方法。
6. K-ADAPTER Infusing Knowledge into Pre-Trained Models with Adapters

推荐理由:提出了一种低成本的知识融入手段,可以在保持预训练模型参数固定的情况下通过adapter引入多种知识图谱。