本次分享主要关注异构图(或者叫异构网络)在数据挖掘中的应用,特别是异构图交互模型在推荐系统中的应用。通过分析前期工作的两类思路,一是基于基于图中邻居的信息,另一个是基于元路径的信息;重点探讨了交互信息在两种思路中缺失。进一步探讨了近来工作的尝试。最终介绍了NIRec,一种高效的基于邻居的异构图交互模型。
正文
异构图是一种包含多种结点或是多种类型的边。在现实生活中,比如文章引用关系图(包含文章和作者),电商图(包含用户和物品)等。所以,异构图上的数据挖掘在近年来得到了越来越多的关注。
在拿到一个异构图(比如图1)的时候,我们首先需要思考的问题其实是我们需要挖掘什么样的信息。值得注意的是,在异构图上,结点的类型是不是单一的,使用一种简单的统一的方法往往无法得到很多的结果。所以,我们首先需要在异构图上定义一种范式,这种范式,比较常用的便是元路径,这是由于一种元路径往往可以代表一种特殊的语义信息,比如表1表述的,元路径UU(User-User)代表着用户间的关系,对应着社交推荐,UGU(User-Group-User)代表着相同组中的推荐[1]。
基于元路径的定义,我们可以考虑在给定一个元路径的情况下,我们可以采样的一个路径,这个路径所路经的结点类型是由元路径所定义的,比如给定UGU的元路径,那么用户(User)结点下一个结点一定是组(Group)结点。那么这个路径可以表示为一种一个语句,那么便可以使用自然语言的处理的方法进行处理,比如给定一个词的情况下预测下一个词的概率。
metapath2vec [2]中便是在这个思路上的探索,通过学习预测下一个词更新结点的表征学习。值得注意的是,在这种方法中,并没有将不同类型结点的信息在路径中分开。这种方法也可以被称为基于元路径的方法。在学习到结点的表征信息之后,便可以通过不同结点的表征,而这种表征便可以表示为用户或是物品的特征来帮组推荐系统做出正确的推荐。当然,我们也可以考虑另一个思路,便是把异构信息人为的变成几组同构的信息,这样便可以用同构图的方法进行处理,比如图3所示,对于所要预测的目标结点,邻居结点往往包含不同类型的结点,首先将不同类型的结点按照类型进行分类,对于同一类的结点先聚合,聚合的方法一般是双向循环神经网络或是图注意力网络或是图神经网络[3,4]。在同一类型的结点信息聚合之后,而对于不同类型的结点,常见的聚合方法包括LeakyReLU和图注意力网络。
上述方法往往是通过采样和聚合的方法得出最终结合,而这种方法往往会忽视交互信息。那么接下来便需要解释什么样的信息是异构信息,比如图4中,中国春节的时候,在北京的女性往往往往会购物。为了抓住这种特征,其实需要建模三个关键词的“且”操作,也就是说,中国春节,北京,女性,三个词中,任意换其中一个关键词往往会导致最终结果的不同。
那么在图的结构中,这类特征组合或者说是“且”操作,便是邻居间的“且”关系,如图5中,La La Land和Romance的组合便相当于之前的中国春节,北京和女性的组合。任意换个词,比如La La Land和Fiction的组合是噪声应该去除 [5]。
那么如何在图结构数据中,建模这些特征组合呢。在NIRec [6]中,首先按照元路径采样路径,这里的元路径采样和之前的方法不一样的是,之前的方法的路径一定是从源节点到目标结点。而在这种方法中,我们只定义了路径的起点,而没有限制路径的终点。
在采样之后,我们设计了交互模型和聚合模型,在交互模型中,我们提出了一种全新的卷积操作,这种卷积操作来源于信号处理,包括反转,交互,平移。而在信号处理中,卷积操作可以自然被快速傅里叶变换进行加速。
如图7所示,卷积操作的结果包含了不同类型结点的交互信息(比如用户和用户的交互信息),这类交互的结果我们称为相似性,也包含了相同类型结点的交互信息(比如用户和物品之间的交互信息)。
我们在四个不同的数据集中进行了测试,实验结果如下表所示。
当然,除了上面所提到的异构图在推荐系统的应用,其实异构图还在其他很多地方都有应用,比如在安卓手机中,我们可以将应用App看成结点,而将App的调用的关系通过元路径进行定义。
那么对于危险软件的检测问题便可以定义为异构图上的结点分类问题。
在在可预见的未来,如何有效的利用异构图中的异构信息,以及如何更加有效的建立异构图,将是推荐系统和图网络中研究的重点和热点
参考文献
[1] Chuan Shi, et al. Semantic Path Based PersonalizedRecommendation on Weighted Heterogeneous Information Network. CIKM, 2015.
[2] Yuxiao Dong, et al. metapath2vec: ScalableRepresentation Learning for Heterogeneous Networks. KDD, 2017.
[3] Chuxu Zhang, et al. Heterogeneous GraphNeural Network. KDD, 2019.
[4] Xiao Wang, et al. Heterogeneous GraphAttention Network. WWW, 2019.
[5] Yanru Qu, et al. An End-to-EndNeighborhood-based Interaction Model for Knowledge-enhanced Recommendation. KDDWorkshop (Best Paper), 2019.
[6] Jiarui Jin, et al. An EfficientNeighborhood-based Interaction Model for Recommendation on Heterogeneous Graph.KDD, 2020.
[7] Shifu Hou, et al. HinDroid: An IntelligentAndroid Malware Detection System Based on Structured Heterogeneous InformationNetwork. KDD (Best Student Paper), 2017.
版权声明