大家好,我今天的报告的主题是“规则引导的知识图谱组合式表示学习”。这项工作已经发表在AAAI2020,论文的题目是:Rule-Guided Compositional Representation Learning on Knowledge Graphs。
论文的地址是:https://arxiv.org/pdf/1911.08935.pdf
Github项目地址是:https://github.com/ngl567/RPJE
1. Introduction
首先,简单介绍下知识图谱的概念,所谓知识图谱就是以图数据的结构将已有的数据组织起来,包括节点表示的实体和边表示的实体间的关联关系。我们生活中经常接触到的一个知识图谱就是百度知识图谱,其可以为我们提供比如知识问答和推荐系统等服务。但是,由于无论是人工构建还是自动化构建的知识图谱,其都是不全的,比如在知识图谱Freebase中,三百万人物实体中有75%的实体缺少国籍信息。在知识图谱Dbpedia中,有60%的人物实体没有相关的出生地信息。因此,对于很多和知识图谱有关的下游任务,例如问答系统可能无法得到正确的答案。对于这类问题,就需要知识图谱推理技术来不全缺失的知识。
1.1 现有方法及不足
目前,一种有效的知识图谱推理方法是KG embedding知识图谱表示学习(也称为知识图谱嵌入)技术,其是将符号化的知识图谱中的实体和关系嵌入到低维向量空间,用数值来表示知识图谱的语义知识,可以提高基于知识图谱的各类任务的计算效率和推理任务的泛化性。主流的KG embedding的方法包括基于翻译的模型(典型代表:TransE),基于张量分解的模型(典型代表:RESCAL),基于神经网络的模型(典型代表:NTN)和基于图神经网络的模型(典型代表:RGCN)。但是传统的KG embedding模型存在一些不足,例如大多数方法完全依赖于知识图谱中的三元组数据,知识图谱表示学习过程缺乏可解释性。针对完全依赖于三元组数据的问题,一类有效的方案是引入知识图谱图结构中存在的路径信息,经典的基于路径的KG embedding的方法是PTransE,对于由关系路径中的所有关系的向量表示,PTtransE通过求和、乘积和RNN三种策略进行路径的组合。然而,现有的基于路径的知识图谱表示学习模型的路径表示过程中完全基于数据驱动,缺乏可解释性。同时,PTransE,PathRNN等完全数据驱动的方法在表示路径的过程中会造成误差累积并进一步限制路径表示的精度。
1.2 思路
我们相信在这个数据驱动流行的人工智能时代,逻辑规则仍然是非常强大有用的,由于其具有的高精度和可解释性的显著优势。通过下图给出的一个例子可以看出规则和路径是如何用在知识图谱表示中的。
2. 我们的方法
我们提出规则和路径的联合嵌入方法RPJE模型(Rule and Path Joint Embedding)。
2.1 从知识图谱中挖掘规则:
利用任何规则挖掘算法能够自动地从知识图谱中挖掘出Horn逻辑规则,这些规则挖掘算法包括 AMIE+、RLvLR、CARL等,首先定义规则的长度为 规则体中关系的个数,Rules R1表示长度为1的规则,Rules R2表示长度为2的规则。利用AMIE+从数据集中挖掘出的一些规则如下所示:
2.2 在路径语义合成中使用逻辑规则
由于非链式规则无法直接用于路径组合,因此,我们需要根据挖掘出的原始规则,我们可以通过对规则中的关系取逆关系并交换原子中的两个实体的位置,将每一个规则都转换成链式规则,也就是规则体形成一条链路。针对长度为2的规则,一共有8种不同的规则转换模式,并编码为可以直接用于路径组合的规则,所有的规则转换编码模式如下表所示。
对于任意长度的路径,我们可以通过遍历路径,每次选取两个关系组成路径段,并迭代地进行路径合成,直到路径中没有关系能能够被R2规则合成。
2.3用Rules R1实现关系的语义关联
对于R1规则 r2(x, y) <= r1(x, y) , 关系 r1 与关系r2在语义上更加接近。因此,同时在R1规则中出现的一对关系的嵌入表示应该比其它无法匹配到任何规则的关系对的距离更近,此约束可以通过triplet loss的形式实现,如下图所示。
2.4 RPJE模型的整体框架结构
在使用规则进行路径组合和关系的语义关联后,我们给出对于RPJE模型设计的能量函数为:
其中,E1,E2和E3分表表示关于三元组,路径和关系对的能量函数。R(p|h, t)是从知识图谱种抽取路径过程中得到的路径p的可靠度。\mu_{1}是长度为2的规则的置信度。
2.5 优化目标
根据设计的能量函数,优化目标为:
其中,\alpha 1,\alpha 2分别表示在整体loss中L2 and L3所占的权重。\gamma 1, \gamma 2, \gamma 3分别表示在L1, L2 and L3中的边际参数,β为R1规则的置信度。
3. 实验结果
3.1 数据集和规则统计
我们在实验中使用四个常用的用于知识图谱推理的数据集,每个数据集相关的统计数据如下表所示:
考虑到规则挖掘工具的性能和使用起来的简便性,我们采用AMIE+从每个知识图谱数据集中挖掘规则,其中规则置信度阈值设置在[0.5, 0.9]的范围内,相关规则的统计数据如下表所示:
3.2 实验设置
在知识图谱补全的任务中,我们设计相应的能量函数来评价某一个候选三元组的打分,其定义为:
对于测试结果,实验种采用3种评价指标,分别为MR,MRR和Hits@n(n=1或10)。
为了和已有的算法进行对比,我们选用3类性能较优的baselines:
(1)仅考虑三元组的方法: TransE, TransH, TransR, STransE, TransG, TEKE, R-GCN+, KBLRN and ConvE。
(2)基于路径的方法: PTransE and DPTransE。
(3)规则增强的方法: KALE and RUGE。
3.3 规则置信度阈值和路径长度对模型性能的影响
为了评价RPJE算法中两个核心部分规则和路径的设置参数也就是规则置信度阈值和路径长度对模型性能的影响,我们通过设置不同的规则置信度阈值和不同长度的路径,来分析测试效果的变化,如下图所示:
由上图所示的测试结果,可以得出:
(1)当规则置信度阈值设置在0.7和0.8时,模型取得最优的tradeoff。
(2)在相同的参数设置下,RPJE使用最大长度为2的路径比最大长度为3的路径的效果更好。
(3)考虑规则置信度比不考虑规则置信度效果好很多
3.4 在不同数据集上的实验结果:
我们在FB15K,FB15K237,WN18和NELL-995数据集上进行实体预测或关系预测任务,都可以看出我们的RPJE算法优于现有的几类baselines。同时,在对于复杂关系(1-1,1-N,N-1,N-N)的实体预测任务上,尤其是对N-1关系的头实体预测和对1-N关系的尾实体预测这两种最为困难的任务上,我们的模型明显优于其它算法。
3.5 消融实验
通过在完整的RPJE模型基础上分别去除路径加长度为2的路径和长度为1的路径,可以看出,RPJE模型中规则和路径都对模型的性能产生了较大的影响,说明规则和路径两个模块在模型中的有效性。
4. 结论与展望
针对以上内容,我们可以得出几点结论:
(1)我们的模型RPJE可以从多个方面组合学习知识图谱嵌入表示:
三元组事实 + Horn 逻辑规则 + 路径
(2)规则和路径: 增强知识图谱表示学习模型的精度和可解释性。
(3)在我们的模型中引入规则的置信度是非常重要的。
接下来,可以从两个角度来拓展RPJE模型以取得更好的效果:
(1)尝试结合其它更好的路径合成方法,比如 LSTM 与 attention 机制。
(2)发掘其它更好的规则学习算法,通过从知识图谱中挖掘出更多更有效的规则能够进一步提高模型的性能。
5. Just for Fun
最后,由于在疫情期间,完全凭借自己的兴趣,我独立开发了一个中式菜谱知识图谱可视化系统,并取名为AI Food Time/爱食光。完成该系统需要包括数据爬取,数据清洗,数据分析,图数据库存储,d3可视化等技术。Mini版的可视化系统包括50种最家常菜的菜谱,包括菜品大类和具体菜品及所用原料之间的关联关系,并在选中某个具体菜品实体时其相关的图片、主料、辅料、配料、特色、制作步骤等信息能够同步展示,并提供搜索功能。
本系统的Github项目地址:https://github.com/ngl567/CookBook-KG
直接访问可视化系统入口地址:https://ngl567.github.io/CookBook-KG/
版权声明