202411 论文研读汇报PPT–22丁镛焜–Enhancing Heterogeneous Knowledge Graph Completion

1.背景

随着KGs的快速扩大,其中包含的事实可能变得不准确和不完整,阻碍了提供满意的搜索和推荐结果的能力。一些关于知识图谱补全的研究聚焦于链接预测,预测可能三元组中缺失的值。

在所有基于GNN的方法中,基于GAT的方法展示了优越的性能。这是因为基于GAT的方法在信息聚合过程中为每个邻居分配不同的权重或重要性。这使得模型能够优先从重要邻居学习,同时减少不重要连接的影响。

相关研究目前存在以下两个挑战:
挑战1:现有的基于GAT的方法在稀疏实体和关系预测中过拟合。

在图中,只有一个三元组包含节点𝐸6和关系𝑟3。将这些出现频率低的实体和关系分别称为“稀疏实体”和“稀疏关系”。

现有的基于GAT的模型通常具有大量参数,这可能导致在模型稀疏实体和关系时由于参数数量超过数据点数量而导致过拟合。因此,现有的基于GAT的方法由于存在稀疏实体和关系而遭受性能下降。

在图中,只有一个三元组包含𝑟3。给定头实体𝐸3和关系𝑟3,模型很可能预测实体𝐸4,而其他潜在的尾实体则被掩盖或忽视。这是因为在使用大量参数来模型含有较少信息的稀疏关系𝑟3时发生了过拟合。

另一个例子是,只存在一个包含𝐸6的三元组,即(𝐸6,𝑟2,𝐸1)。而𝐸5也通过𝑟2与𝐸1有关。假设𝑟2为一个𝑇𝑒𝑎𝑚𝑚𝑎𝑡𝑒_𝑜𝑓关系,在现实世界中存在事实(𝐸6,𝑟2,𝐸5)但在KG中不存在。在这种情况下,当提供头实体𝐸6和关系𝑟2时,现有模型无法预测实体𝐸5。这种失败主要是因为对于𝐸6的嵌入信息不足。

挑战2:现有的基于GAT的方法在预测共享相同关系及头(尾)实体的尾(头)实体方面表现不佳。在异构KGs中,不同的尾(头)实体与特定的头(尾)实体共享相同关系的情况非常常见,如图所示。

在这种情况下,现有的基于GAT的方法基于关系为实体分配权重。这将直接导致以下两个限制:

1.可能会丢失关于邻近实体的一些信息。关系可能优先考虑实体的特定信息,同时忽视其他信息。

2.另一个限制在于无法捕捉头实体对同一关系中不同尾实体的不同重视程度。即使通过相同的关系,头实体对邻近实体的倾向也会有所不同。

1.篮球运动员姚明的实体涵盖了家庭信息和职业信息等多个方面的信息。然而,关系𝑇𝑒𝑎𝑚𝑚𝑎𝑡𝑒_𝑜𝑓主要关注职业信息,而忽略了其他方面。

2.姚明可能由于与职业信息无关的信息(如个性和家庭)对不同的队友有不同的倾向。如果只考虑关系𝑇𝑒𝑎𝑚𝑚𝑎𝑡𝑒_𝑜𝑓,这种差异是无法解释的。

2.方法

本文提出了一种新颖的端到端基于GAT的方法,用于异构知识图谱的补全,旨在克服现有基于GAT方法的限制。

针对挑战1,即模型因参数数量过多而在稀疏实体和关系上过拟合,提出的解决方案是减少模型参数:

(1)首先通过减少特征来减少代表关系的参数数量。不使用矩阵,而是使用嵌入向量来表示关系。

(2)减少参数可能限制模型对信息丰富的关系的建模能力。为了解决这一问题,引入权重共享以增强关系的特征提取能力。我们对所有关系使用相同的注意力投影矩阵,这些矩阵具有KG的全局视角。

通过应用这两种方法,将表示关系的参数从2𝑛𝐷𝐹减少到𝑛𝐷+2𝐷𝐹,其中𝑛代表关系数量,𝐷代表实体嵌入维度,𝐹代表查询或键向量的维度。 该方法可显著减少模型参数,并有效缓解了过拟合问题。

为了应对挑战2,除了基于关系计算实体之间的注意力分数外,还引入了一种新颖的特定于实体的注意力网络。

解决挑战2的关键是解决其两个局限性:

(1) 邻近实体中部分信息的丢失;

(2)无法表现头实体对连接同一关系的不同尾实体的不同重要性。

针对第一个局限性,新引入的特定于实体的注意力网络能够直接为头实体和尾实体计算注意力分数:将头实体线性变换为查询向量,将尾实体变换为键向量。然后将两者输入单层前馈神经网络以获得实体间的注意力分数。

关于第二个局限性,新引入的注意力网络可以产生更加差异化的注意力分数:对查询向量和键向量执行Hadamard乘积操作,以获得中间向量。该中间向量用于计算注意力分数。结果是,与头实体相似的尾实体获得更高的注意力分数,而不相似的尾实体则获得较低的注意力分数。

本文的贡献如下:

(1)引入了GATH,一种专为异构知识图谱补全设计的新颖基于GAT的方法。GATH包括两个关键组件:一个特定于实体的注意力网络模块和一个实体-关系联合注意力网络模块。这些组件共同工作以预测缺失的实体。

(2)为了解决在异构KGs上模型过拟合的问题,提出了一种新颖的编码和特征转换方法。这种方法通过有效减少模型参数的数量,使GATH在稀疏样本场景中展现出稳健的性能。

(3)对GATH在FB15K-237和WN18RR数据集上进行了全面评估。结果显示,GATH在各种评估指标上的性能超过了其他竞争者,包括平均倒数排名(MRR)、平均排名(MR)和Hits@n。与现有的基于SOTA GAT模型在Hits@10和MRR指标上相比,该模型在FB15K-237数据集上的性能提高了5.2%和5.2%,在WN18RR数据集上分别提高了4.5%和14.6%。

GATH的整体框架如下:

GATH由两部分组成:编码器和解码器。在特定于实体的注意力网络模块中,实体对其邻居的注意力分数取决于邻居本身。在实体-关系联合注意力网络模块中,实体对其邻居的注意力分数取决于关系类型。同样,聚合模块将来自特定于实体的注意力网络模块和实体-关系联合注意力网络模块的信息进行聚合。

编码器负责通过整合来自知识图谱的结构和邻域信息生成实体的嵌入。编码器包括一个注意力模块,用于计算中心实体及其邻居之间的注意力分数,以及一个聚合模块,将所有邻域实体的信息合并成一个单一的表示。

首先,注意力模块分别通过实体对和关系类型计算注意力分数。随后,聚合模块利用这些注意力分数聚合关系和邻域信息指向中心实体。最后,编码器将生成的实体嵌入传递给解码器。解码器可以是任何通用的知识图谱嵌入模型解码器(如TransE或ConvE)。

编码器包含以下几个部分:

特定于实体的注意力网络:该模块旨在捕获中心实体与其邻居实体之间的内在互动,使得GATH能够根据邻居实体与中心实体的相关性分配不同的注意力权重,而不考虑所涉及的具体关系。

1.实体嵌入初始化:模型开始时使用  H0  作为实体嵌入矩阵,这个矩阵通过高斯分布采样初始化。这为后续处理提供了初始的实体表示。

2.层次结构:编码器具有多层结构,每一层处理输入的实体嵌入并进一步细化这些嵌入。每层的输入是前一层的输出,维度为实体数量*前一层的维度。

3.投影操作:每一层将实体嵌入通过两组线性变换(投影矩阵)分别转换为查询向量  q  和键向量  k ,以便进行后续的注意力计算。这些线性变换是与关系无关的,即它们不特定于实体间的任何关系。

4.注意力得分计算:使用查询向量和键向量通过哈达玛积(元素间的乘积)和一个前馈网络  f  计算注意力得分。这个得分量化了一个实体对其邻居的重要性,而这种重要性是与关系无关的,仅基于实体自身的特征和它们之间的交互。

5.归一化和软最大化(Softmax):最终,使用 softmax 函数对注意力得分进行归一化处理,以便在所有邻居间分配相对的重要性权重。这使得模型可以在决定哪些邻居对中心实体更重要时,进行更加精确的判断。

实体-关系联合注意力网络:结合了实体特征和关系特征来生成联合特征,并据此计算注意力分数的网络结构。

1.保留关系特征:网络维护一个关系特征矩阵。

2.接收实体嵌入:接收来自前一层的实体嵌入。

3.合并实体和关系特征:通过实体嵌入和关系嵌入的元素间乘积(哈达玛积)获得实体和关系的联合特征。

4.映射至查询和键向量:使用共享的可学习投影矩阵将联合特征投影到查询向量和键向量。

5.注意力分数计算:通过全连接层处理查询向量和键向量的交互输出来计算注意力分数。通过它们的联合特征捕捉头实体和尾实体之间的关系。

6.Softmax规范化:为确保不同头部的注意力分数可比,并规范化不同关系的贡献,应用softmax函数。

这种结构化方法允许详细且关系特定地分析知识图谱中实体如何相互作用,同时考虑它们的个体特征和连接它们的关系类型。

GATH通过将关系嵌入简化为 D 维向量,减少了模型参数的数量,减轻了模型的存储负担,同时可能减少了模型对细粒度关系特征的捕捉能力。

此外,引入了权重共享机制,使得所有关系共享相同的查询和键投影矩阵。设计灵感来源于CNN中的特征图共享卷积核,有效减少了需要学习的参数数量,从而降低了模型的空间复杂度。权重共享不仅减少了参数数量,还可能帮助模型在不同关系类型之间泛化,因为相同的转换被应用于所有关系。

聚合模块:将节点的邻居信息整合到一起,以便生成该节点的新的、更丰富的特征表示。

1.聚合模块首先根据计算得到的注意力分数,对每个节点的邻居嵌入进行线性组合。通过这种方式,每个中心节点可以根据其邻居的重要性(由注意力分数决定)获得一个综合的信息表示。

2. 使用一个可学习的转换矩阵 ,这个矩阵将实体嵌入映射到值向量。这样做可以将实体的原始特征转换成适合后续处理的新特征空间。

3.GATH采用多头注意力机制,允许模型在不同的特征子空间上并行地计算注意力,从而能够捕捉到更丰富的特征信息。这种机制有助于模型从输入数据的多个方面快速学习,加速收敛,同时增强模型对初始化条件的鲁棒性。

4. 聚合后的输出通过连接多个头的输出并通过另一个学习矩阵投影回实体特征空间,以形成最终的节点表示。为了防止过平滑,即所有节点向同一种特征收敛,GATH模型引入了自环(残差连接)和可学习的参数 ,以增加模型的灵活性和适应性。

通过这种复杂的聚合策略,GATH能够有效地整合来自大规模、异构知识图谱中的复杂关系和实体信息,提供了一种强大的方法来处理具有丰富关系和实体类型的图数据。

编码器的计算流程可以用以下伪代码表示:

1.初始化实体嵌入。

2.通过多层编码器循环处理每个实体,包括获取每个实体的所有邻居信息。

3.在每层中,对于每个实体,算法使用多头注意力机制计算该实体与其邻居的注意力分数,从而生成注意力加权的嵌入表示。

4.新生成的嵌入将与前一层的嵌入结合,并通过非线性激活函数更新,以产生更丰富和细化的实体特征。

通过这种方式,模型能够捕捉并整合实体之间的复杂关系和属性,最终输出每个实体的综合特征表示,这些表示可用于后续的图分析任务。

此外,引入自循环机制可以帮助保留更多的实体原始信息,防止在多次迭代过程中实体特征过度平滑化。

模型中的另一个部分,解码器采用ConvE模型,这是一种利用二维卷积网络处理嵌入向量的方法,特别适用于提取和利用实体和关系之间复杂的空间结构信息。解码器还结合了基于语义匹配的模型的思想,引入了关系驱动的实体特征转换,以便更准确地捕捉和利用实体之间以及实体与关系之间的交互。

(1)首先定义关系嵌入矩阵,并初始化。实体嵌入和关系嵌入被转换并组合成一个复合输入向量,通过将实体嵌入、关系嵌入以及它们的元素间乘积(Hadamard 乘积)堆叠在一起。这种组合不仅提供了单独的实体和关系信息,还融入了实体和关系之间的交互信息,这对于理解三元组的语义非常关键。

(2)输入向量被送入卷积网络,卷积层使用特定的核来处理数据,生成多个特征图。这些特征图捕捉了输入数据的不同方面,增加了模型对数据的理解深度。特征图随后被展平为一个向量,并通过一个全连接层进行进一步的处理,以合成最终的特征表示。

(3)经过全连接层处理后,应用非线性激活函数(如sigmoid),使得输出更适合进行概率解释,这是预测三元组合理性的最后一步。输出向量与尾实体的嵌入进行点积运算,生成每个三元组的最终得分,得分高表明三元组的可能性大。

(4)使用sigmoid函数对得分进行归一化,转换为预测概率。这一步骤关键地影响了模型预测三元组为真实的概率,为后续处理提供了直接的概率输出。

损失函数采用的是二元交叉熵损失(Binary Cross-Entropy Loss)。对于每个三元组 ,根据模型预测的概率  p 和真实标签 y 计算损失。

当三元组是有效的,损失函数计算的是  -\log(p(h, r, t_i)) 。这表示如果模型预测的概率  p  接近1(即模型对正样本的预测很有信心),那么损失值接近0;如果  p  接近0(即模型错误地对正样本不自信),那么损失值会很大。

当三元组是无效的,损失函数计算的是  -\log(1 – p(h, r, t_i)) 。这表示如果模型预测的概率  p  接近0(即模型对负样本的预测很有信心),那么损失值接近0;如果  p  接近1(即模型错误地对负样本过于自信),那么损失值会很大。

这种损失函数直接关联了模型预测的概率和实际的标签,使得模型的优化目标非常清晰:最大化正确预测的概率,最小化错误预测的概率。

采用对数损失可以避免梯度消失的问题,尤其是当预测概率接近0或1时,对数函数能够放大误差,有助于模型更快地纠正错误预测。

3.实验与结果

实验选择以下几种模型作为baseline:

基于翻译的模型,使用距离函数作为评分函数。

基于语义匹配的模型,通常使用相似性函数作为评分函数。

基于GCN的模型,使用静态关系属性来聚集邻居信息。

基于GAT的模型,结合了图神经网络和注意力机制,动态地聚集邻居信息。

仅解码器的模型,作用于实体的初始嵌入。

实验设置:

GATH的编码层数量设置为2。优化算法: AdamW 。

此设置适用于所有基于GCN和GAT的基线模型。

为了加速收敛并防止模型过拟合,GATH还采用了dropout和批量归一化对实体和关系嵌入进行处理。

对GATH和基线模型应用学习率的周期性衰减。高学习率使得训练初期的损失迅速下降,并在中期进入平台期,最后,低学习率使模型慢慢收敛。

因此将初始学习率设置为0.01,并让它每个周期衰减到当前学习率的0.985。

batch_size和embedding_size分别设置为128和200。

对于可以使用块对角分解正则化方案的基线,设置num_blocks为50。

运行环境是python3.9+pytorch1.12,NVIDIA 4090图形处理单元。

GATH在FB15K-237和WN18RR数据集上的每个周期的计算时间分别约为4.3分钟和1.6分钟。

用GATH模型进行知识图谱中的链接预测任务:

对于测试集中的每个三元组(头实体h,关系r,尾实体t),模型需要构造一个反向的三元组(t, r_reverse, h)进行预测。这种构造方法可能是为了验证模型对关系的方向性理解。

解码器:接收头实体和关系作为输入,并输出所有可能的尾实体的概率。预测结果是一个列表,列表中的每个元素代表一个三元组的预测概率。

由于训练集和测试集中的三元组也会出现在预测结果中,为防止模型简单地记忆训练数据,需要将这些三元组的概率设置为0,即进行结果过滤。预测列表按照概率从高到低排序,用于计算尾实体的排名得分。

评价指标:

平均倒数排名(Mean Reciprocal Rank, MRR):这是一种衡量模型预测准确性的指标,计算所有预测的倒数排名的平均值。MRR越高,模型性能越好。

平均排名(Mean Rank, MR):这个指标表示所有预测的排名的平均值。理想情况下,MR应该尽可能低。

Hits@n:表示预测结果中正确的尾实体排在前n名的比例。例如,Hits@1, Hits@3, Hits@10 分别表示正确尾实体排在前1、前3和前10的比例。这些指标直观反映了模型在不同置信度下的预测准确性。

在FB15K-237上,ConvTransE的性能优于其他仅解码器的基线。可以看出,本解码器在Hits@10指标上比ConvTransE高1.7%,在Hits@1指标上高7.3%,在MRR指标上高4.5%。与FB15K-237相比,WN18RR的复杂连接要少得多,但本解码器仍能保持竞争力。这表明基于关系的实体特征转换可以在建模具有复杂连接的异构KG时提高性能。

GATH能够通过图注意力网络感知结构信息,改善实体嵌入的质量。通过将GATH与我们的解码器进行比较,所有指标都有显著提高。在FB15K-237上,与本解码器相比,GATH在Hits@1、Hits@10和MRR上分别提高了15.5%、11.2%和13.5%。同样,在WN18RR上,GATH的性能分别提高了7.0%、9.4%和7.7%。这证明了GATH编码层的有效性。

GATH在大多数评估指标上都优于其他基于GNN的模型。与GNN基模型中最佳的MRGAT相比,GATH在FB15K-237上的三个指标(Hits@1、Hits@10和MRR)分别增加了5.4%、5.2%和5.2%,而在WN18RR上的相应增幅为24.2%、4.5%和14.6%。

消融实验的结果如下表所示:

(1)添加针对实体的特定注意力网络导致大多数链接预测指标增加,这证明了实体间存在内在的交互特征以及实体特定注意力网络的有效性。

(2)在考虑了实体特定注意力网络后,WN18RR数据集上的链接预测结果有显著改善,其中Hits@1、Hits@10和MRR分别增加了6.23%、3%和4.04%。但在FB15k-237上,增幅较小,甚至Hits@3指标有所下降。这是因为WN18RR中的关系类型和数量较少,因此实体与关系之间的交互强度小于FB15k-237,而实体间的交互被突出,这最终使得实体特定注意力网络在WN18RR上改善链接预测器的效果更为明显。

测试不同节点密度的图对模型的性能影响:

稀疏节点是度在[0, 100]范围内的一组节点,中等节点是度在(100, 1000]范围内的一组节点,密集节点是度大于1000的一组节点。

(1)当节点的度增加时,模型性能通常会提高。

(2)在稀疏节点上,GATH表现出最佳性能。与基于GAT的最先进模型MRGAT相比,引入特征降维和针对实体的特定注意力网络,使模型在度较低的节点上表现更好,如稀疏节点和中等节点。

证明了我们工作的有效性和GATH对稀疏节点具有更高的鲁棒性。

测试不同关系密度图对模型性能的影响:

稀疏关系是度在[0, 200]范围内的一组关系,中等关系是度在(200, 500]范围内的一组关系,密集关系是度大于500的一组关系。

(1)几个模型包括GATH随着关系的度增加,MRR和Hits@10分数有所下降。

(2)本模型在所有指标上都达到了最佳性能,尤其是在小度关系上,即稀疏关系和中等关系,性能提升显著。

这证明了特征减少和权重共享策略能够有效地对知识图中的稀疏数据进行建模。

比较模型的训练速度和空间占用,表显示了GATH及基线模型训练一个周期所需的时间,以及训练期间每个编码层的大小:

(1)与基于GAT的基线模型——MRGAT相比,GATH在模型占用和训练时间方面表现更好。表明对当前基于GAT模型的改进是有效的。使用嵌入向量而不是矩阵来表示关系,显著减少了模型占用并提高了训练效率。

(2)SACN使用静态权重来表示关系。尽管它使用的训练资源较少,但与MRGAT和GATH相比,其在链接预测中的性能要低得多。

4.结论

GATH通过减少特征和权重共享来减少稀疏性对模型性能的影响。另一方面,考虑实体特征空间内实体的内在交互,以选择更重要的邻居。对GATH进行了全面评估,实现了最先进的性能。