这篇文章是挺有趣的一篇文章,发表在 WWW 2021。模型综合了近期比较热门的多种空间表示方法,能够更好地进行层次和环状等结构的知识表示。
论文地址:Network for Knowledge Graph Completion
0. 摘要
最近的研究将 KG 嵌入双曲(负弯曲)空间而不是传统的欧几里德(零弯曲)空间,并证明这在捕获层次结构方面是有效的。然而,作为多关系图,KG 的结构不是统一的,而是显示出内在的异构结构。它们通常包含丰富的结构类型,例如层次结构和循环类型结构。将 KGs 嵌入单曲率空间,例如欧几里得或双曲空间,忽略了 KGs 的内在异构结构,因此无法准确地捕获它们的结构。为了解决这个问题,我们提出了混合曲率多关系图神经网络 (M2GNN),这是一种将多关系 KG 嵌入混合曲率空间以完成知识图谱的通用方法。具体来说,我们通过组合多个单曲率空间(例如,球面、双曲或欧几里得)的乘积流形来定义和构建混合曲率空间,目的是对各种结构进行建模。然而,构建混合曲率空间通常需要手动定义固定曲率,这需要领域知识和额外的数据分析。不正确定义的曲率空间也不能准确地捕捉 KG 的结构。为了解决这个问题,我们将混合曲率设置为可训练参数,以更好地捕捉 KG 的底层结构。此外,我们提出了一种图神经更新器,利用混合曲率空间中的异构关系上下文来提高嵌入的质量。三个 KG 数据集上的实验表明,所提出的 M2GNN 可以在知识图谱补全任务上胜过最先进的嵌入方法以及单一空间嵌入方法。
1. 引言
KG 通常包含丰富的结构类型,例如层次结构和循环结构。图 1a 和图 1b 分别展示了两个 KG 示例,分别显示了层次结构和循环结构。如图 1a 所示,在三元组(George Lucas,write,Star Wars)中,George Lucas 是 Star Wars 的父级,因此在层次结构中表现出比 Star Wars 更高的级别。然而,在图 1b 中,每个实体在一个循环中与另一个实体连接,在某种程度上,乔治卢卡斯与星球大战/汉索罗/哈里森福特/印第安琼斯和水晶骷髅王国处于同一水平。现有的欧几里得空间方法忽略了这两个特定结构的存在,并且具有有限的表示能力来捕捉它们。
最近,在双曲空间(一种非欧几里得空间)的庞加莱球模型中设计了 KG 嵌入。他们展示了具有丰富层次结构的 KG 的性能提升。然而,由于双曲空间的重点是捕获层次结构,并且它们忽略了其他结构类型,因此具有有限层次结构的 KG 的性能下降。与前面的示例一样,KG 通常结构不统一,并且表现出内在的异质性。因此,需要一种可以捕获不同类型结构的新方法。
已经开发了许多将 KG 嵌入非欧几里得空间(恒定非零曲率空间)的方法,例如球面(正弯曲)空间和双曲线(负弯曲)空间。与欧几里得空间(例如分层或循环结构)相比,它们对特定类型的结构化数据进行建模时表现出更好的表示能力。为了从球面空间和双曲空间中受益,“非常量”弯曲流形上的嵌入由恒定曲率黎曼流形的乘积构成。然而,这些方法主要关注无监督嵌入,它们只考虑同质关系(只有一种关系类型),不能直接应用于解决多关系 KG 嵌入问题。此外,构建恒定的非零曲率空间通常需要使用领域知识和额外的数据分析手动定义固定曲率。不正确定义的曲率无法准确捕捉 KG 的结构。
图神经网络(GNN)在过去几年受到广泛关注。通过利用丰富的上下文信息,可以显着提高学习嵌入的质量。最近,已经进行了一些尝试来通过图神经网络学习 KG 嵌入,例如是图卷积网络和图注意网络。这些方法可以以数据驱动的方式自动学习 KG 嵌入。然而,据我们所知,还没有尝试将 GNN 与非欧几里得空间相结合来解决多关系 KG 嵌入问题。
为了解决上述问题,我们提出了混合曲率多关系图神经网络 (M2GNN),这是一种通用图神经网络框架,用于将多关系 KG 数据嵌入混合曲率空间以完成 KG。特别是,我们通过将多个单曲率空间(即零曲率的欧几里得空间、具有正曲率的球面空间和具有负曲率的双曲空间)与可分解的黎曼空间距离函数相结合,构成黎曼乘积流形来定义和构建混合曲率空间。通过融合多个单曲率空间,构建了一个具有非常量异质曲率的新空间。构建的混合曲率空间更灵活,可以更好地匹配 KG 的内在异构数据结构,从而为具有不同结构(例如,分层或循环)的各种 KG 数据类型生成更高质量的表示。我们注意到已经提到的与手工设计的曲率空间相关的困难,并引入了可训练的异构曲率。我们还注意到丰富的异构关系上下文的重要性,并提出了一种基于 GNN 的图神经更新器,它可以自适应地集成关系上下文。通过利用混合曲率空间中的多跳信息,学习嵌入可以更好地利用数据异构结构。实验结果表明,所提出的 M2GNN 确实可以恢复非均匀曲率,并在基准数据集上优于最先进的方法。
总之,在本文中,我们做出了以下贡献:
- 我们制定了 KG 嵌入在混合曲率空间中的 KG 补全问题,并开发了一个多关系图神经网络框架,该框架可以从混合曲率中受益几何和图神经网络。据我们所知,我们是第一个应用混合曲率几何和图神经网络来解决 KG 补全问题的人。
- 我们提出了具有可训练的异质曲率和空间权重的混合曲率空间来嵌入多关系KG 数据,这可以更好地捕捉KG 中固有的异质结构。 • 我们将图神经网络推广到多关系和混合曲率设置,这可以通过更有效地利用异构关系上下文来克服平移距离模型的限制。
- 我们对三个不同的 KG 数据集进行了广泛的实验,并证明所提出的方法在 KG 完成任务上优于其单一空间嵌入方法和现有的最先进的嵌入方法。
- 图a:这个 KG 示例演示了一个分层(树状)结构。共有三种类型的 KG 实体(作家、电影和演员)和两种类型的关系(作者和主演),其中实体以层次结构连接,例如,乔治卢卡斯是星球大战的父级,因此表现出在层次结构中高于星球大战。
- 图b:这个 KG 示例演示了一个循环结构。有四种类型的 KG 实体(导演、作家、电影、演员和演员)和五种类型的关系(导演、角色、演员、明星和编剧),其中每个实体在循环中与另一个实体连接,在某种程度上,乔治卢卡斯与其他实体处于同一水平。
2. 问题表述
在本节中,我们首先介绍定义混合曲率空间所需的预备知识和符号,包括黎曼流形、恒定曲率空间。然后我们定义了混合曲率多关系图嵌入问题,用于 KG 补全。
2.1 黎曼流形
维度为 𝑑 的流形 M 是普通表面的更高维度的泛化。设 p ∈ M 是一个点,M 与一个切空间 𝑇𝑝M 相关联——一个 𝑑 维向量空间,它近似于 p 周围的 M。黎曼度量为每个 p 分配一个正定内积 𝑔𝑝 : 𝑇𝑝M×𝑇𝑝M →R,以及一个范数 |·|𝑝 : 𝑇𝑝M →R 由|𝑣|𝑝 =√𝑔𝑝(𝑣,𝑣) 定义。配备度量 𝑔 的流形 M 是黎曼流形,记为 (M, 𝑔)。特别是,𝑔 用于定义流形上两点的距离(测地线)。给定的 𝑔 还定义了每个点的曲率 𝐾,它决定了空间如何弯曲。
2.2 恒定曲率空间
恒定曲率空间 M𝑑𝐾 是一个黎曼流形,曲率 𝐾 ∈R 且维度 𝑑 ≥ 2,因此 M𝑑𝐾 ={x ∈R𝑑 : ⟨x,x⟩𝐼 =1/𝐾},𝐼表示内积类型。具体来说,就曲率的符号而言,存在三种不同类型的恒曲率空间 M:超球面 S𝐾(正弯曲空间);欧几里得空间 E(平坦空间);和双曲面 H𝐾(负弯曲空间)。形式上,这些恒定曲率空间在表 1 中定义。由于某些常曲率空间(双曲空间和球面空间)中的操作与欧几里得空间中的操作不同,我们也涵盖了这些操作并在表 2 中对其进行了总结。
- 表1:三种恒定曲率空间的定义。 ⟨·,·⟩2 表示标准欧几里得内积,⟨·,·⟩L 表示洛伦兹内积,使得 ⟨x,y⟩L =−𝑥1𝑦1 +Í𝑑+1𝑖=2 𝑥𝑖𝑦𝑖,∀x,y ∈R𝑑+1。
- 表2:不同空间的运算符和计算方法。
2.3 问题公式化
令 G =(E,R) 是具有多个关系的 KG,其中 E 和 R 分别表示实体(节点)和关系(边)的集合。三元组 (𝑒ℎ,𝑟,𝑒𝑡) ∈ E×R×E 表示为 G 中头部实体 𝑒ℎ 和尾部实体 𝑒𝑡 之间的边 𝑟。目标是将实体 𝑒 ∈ Eonto 实体嵌入 e ∈U𝑑 和关系 𝑟 投影到关系嵌入 r ∈U𝑑,其中可以捕获 KG 的内在异构结构。与之前在恒定曲率空间中定义嵌入空间的工作不同,例如欧几里得空间 R𝑑 或双曲空间 H𝑑𝐾,我们在混合曲率空间 P𝑑𝐾 中定义嵌入空间,使得 U𝑑 =P𝑑𝐾。特别是,学习的 KG 嵌入用于预测头部实体和关系的给定查询的目标实体,𝑞 :=(𝑒ℎ,𝑟,?),这样预测的元组在 G 中不存在。我们还学习了一个评分函数𝜙:E×R →R,它为每个三元组分配一个分数𝑠 =𝜙(𝑒ℎ,𝑟,𝑒𝑡),表示预测为真实事实的概率。
3. 问题描述和方法
在本节中,我们提出了混合曲率多关系图神经网络(M2GNN)。我们首先介绍恒定曲率模型的设计。然后我们描述了如何构建混合曲率模型。接下来我们介绍图神经更新模块。最后,我们提供了所提出方法的训练和优化的细节。
3.1 恒定曲率模型
由于混合曲率模型是使用恒定曲率模型构建的,我们首先介绍我们的恒定曲率模型的设计。平移距离模型是 KG 数据建模的一种简单有效的嵌入方法,它将实体和关系映射到潜在语义空间,并测量关系转换后的头部实体和尾部实体之间的距离。在这项工作中,我们以平移距离的形式构建我们的恒定曲率模型,如。特别是,给定一个三元组 (𝑒ℎ,𝑟,𝑒𝑡) ∈ E × R × E,我们将评分函数定义如下。其中 eℎ,e𝑡 ∈U𝑑 是嵌入,𝑏ℎ,𝑏𝑡 ∈R 分别是头部和尾部实体 𝑒ℎ 和 𝑒𝑡 的标量偏差。 𝑑(𝑟)(·,·)表示头实体和实体在关系𝑟上的距离函数,即ℓ2距离。
首先,我们在欧几里得空间中定义零曲率的恒曲率模型。得分函数可以表示如下。其中 oℎ, o𝑡 ∈E𝑑 分别是头部和尾部实体 𝑒ℎ 和 𝑒𝑡 的欧几里得嵌入。 R ∈R𝑑×𝑑 表示对角关系矩阵, r𝑜 ∈E𝑑 表示关系 𝑟 的关系嵌入。在应用拉伸 R 和平移关系 r𝑜 后,我们可以获得头部实体 oℎ =Roℎ 和尾部实体 o𝑡 =o𝑡 +r𝑜的新表示。但是,上述模型处于欧几里得空间中,表示能力有限,无法捕捉复杂的结构,如层次结构和循环结构。
为了解决这个问题,我们提出了第二个恒定曲率模型,它将实体和关系映射到双曲空间。取等式 2 的双曲线类比,评分函数可改写如下。其中 hℎ,h𝑡 ∈H𝑑𝐾 分别是头部和尾部实体 𝑒ℎ 和 𝑒𝑡 的双曲嵌入,rℎ ∈H𝑑𝐾 表示关系 𝑟 在双曲空间中的关系嵌入。生成的头部实体嵌入 hℎ ∈H𝑑𝐾 是通过执行表 2 中定义的矩阵向量乘法计算的,这样原始实体 hℎ ∈ H𝑑𝐾 投影到庞加莱球的切线空间 𝑜 与 log𝐾𝑜 (·),变换为对角关系矩阵 R ∈R𝑑×𝑑,然后通过 exp𝐾𝑜 (·) 映射回庞加莱球。新的尾实体嵌入 h𝑡 ∈ H𝑑𝐾 是通过将关系嵌入 rℎ ∈H𝑑𝐾 添加到尾实体嵌入 h𝑡 ∈ H𝑑𝐾 来计算的。由于嵌入空间是在双曲空间中定义的,所以𝐾是一个负常数值。
在双曲线模型的帮助下,可以捕获层次结构。因为 KG 中也有丰富的循环结构,所以 KG 嵌入也需要捕获循环数据。为了填补这一空白,我们首先尝试设计一个恒定曲率模型,将实体和关系映射到球形空间。与等式 2 的双曲线类比类似,我们将球面空间中的评分函数定义如下。其中 sℎ,s𝑡 ∈ S𝑑𝐾 分别是头部和尾部实体 𝑒ℎ 和 𝑒𝑡 的球形嵌入,r𝑠 ∈S𝑑𝐾 是关系 𝑟 的球形关系嵌入。新的头部实体嵌入 sℎ ∈S𝑑𝐾是通过执行表 2 中定义的矩阵向量乘法来计算的。新的尾部实体嵌入 s𝑡 ∈S𝑑𝐾 是通过将关系嵌入 r𝑠 ∈S𝑑𝐾 添加到尾部实体嵌入 s𝑡 ∈S𝑑𝐾 来计算的。由于嵌入空间是在球形空间中定义的,所以𝐾是一个正常数值
3.2 混合曲率模型
恒定曲率模型可以从它们的特定偏差中受益,以更好地拟合某些结构类型。然而,现实世界的知识图谱通常不是统一结构的,而是表现出内在的异构结构。为了解决这个问题,我们提出了混合曲率模型。特别是,我们设计和构建了混合曲率空间,并将 KG 实体和关系投影到其上,以提供一个异质曲率空间,可以捕捉 KGs 中的内在异质结构。
我们通过利用恒定曲率空间的乘积来构建混合曲率空间。具体来说,我们的混合曲率空间是通过执行几个分量恒定曲率空间的笛卡尔积来构造的,使得 P =×𝑘𝑖=1M𝑑𝑖 𝑖 ,其中×表示笛卡尔积,𝑘表示分量的数量。这里,每个分量空间 M𝑑𝑖 𝑖 ∈ {E,H,S} 是一个 𝑑𝑖−维常曲率空间,曲率 𝐾𝑖。通过融合所有分量,新空间的曲率证明了非常数弯曲的性质。构造的混合曲率空间中的距离函数可以通过如下分解得到。其中 x(𝑖) 表示 M𝑑𝑖 𝑖 中的嵌入,ℓ 表示范数。这个距离函数使我们能够引入组合结构,提供简单且可解释的嵌入空间。由于在我们的流形上定义的所有操作都是元素级的,我们可以将其分解为部分 x(𝑖) 并应用操作 𝑓𝑑𝑖 𝑖 (x(𝑖))。那么每个部分的结果就是x(𝑖)。最终结果是得到的部分的组合。
我们的混合曲率空间由签名、参数化描述,包括每个组件的几个自由度:空间类型 M𝑖、维数𝑑𝑖和曲率𝐾𝑖。需要为空间中的每个实体选择所有三个参数。对于𝑑1, ...,𝑑𝑘 ∈ Z,使得 Í𝑘𝑖=1 𝑑𝑖 =𝑑 ∈ Z,欧几里得空间的笛卡尔积为 E𝑑 =×𝑘𝑖=1E𝑑𝑖。由于空间可以分解为三种类型的空间(球面、双曲和欧几里得),所有的类向量运算都可以在对应的空间分量中进行。
在我们定义和构建混合曲率空间之后,我们设计了混合曲率乘积空间中KG实体和关系的评分函数如下。其中 pℎ,p𝑡 ∈P{𝑑𝑜,𝑑ℎ,𝑑𝑠 } {𝐾𝑜,𝐾ℎ,𝐾𝑠 } 分别是头部和尾部实体𝑒ℎ和𝑒𝑡的混合曲率空间嵌入。 𝑑𝑜,𝑑ℎ,𝑑𝑠是欧几里得、双曲和球面的分量空间的维数。 𝐾ℎ,𝐾𝑠 是双曲和球面空间的分量空间的曲率。由于欧几里得的曲率是 0,所以𝐾𝑜 =0。尽管在混合曲率空间中执行优化具有挑战性,但我们的目标是距离函数。基于混合曲率空间的可分解性质,我们可以按照公式5,将距离函数𝑑P{𝑑𝑜,𝑑ℎ,𝑑𝑠} {𝐾𝑜,𝐾ℎ,𝐾𝑠}分解为各分量空间的距离函数之和。然后,我们可以像在恒定曲率空间中一样优化评分函数。
3.3 图更新模块
平移距离模型通过简单的操作和有限的参数来学习嵌入。最近的工作将图神经网络 (GNN) 应用于 KG 补全,并通过利用三元组的局部邻域展示了改进的性能。非 GNN 模型无法捕获复杂的上下文信息,并且受到学习嵌入质量的限制。由于开发的混合曲率模型是以平移距离方式设计的,因此它与其他平移距离模型一样受到限制。为了克服这个问题,我们提出了图神经更新器,一种基于图神经网络的嵌入更新模块,用于聚合每个实体邻域中的实体和关系嵌入特征,并更新每个实体和关系的嵌入表示。形式上,我们将我们的图神经更新器定义如下。其中e′𝑖表示目标实体𝑒𝑖的更新嵌入,e𝑗表示连接到目标实体𝑒𝑖的尾部实体𝑒𝑗的嵌入,其中嵌入e𝑖对应于关系𝑟𝑘,N𝑖表示实体𝑒𝑖的邻域,R𝑖𝑗表示连接实体𝑒𝑖和𝑒𝑗的关系。由于 KG 是一个多关系图,实体和关系嵌入都位于同一个嵌入空间中。实体的关系上下文应该包括实体邻居和关系邻居。
我们定义了一个消息嵌入 m𝑖𝑗𝑘 来捕获关系上下文。它是通过连接特定三元组(𝑒𝑖,𝑟𝑘,𝑒𝑗)的实体和关系嵌入来计算的,然后是线性变换。正式定义如下。其中 W1 表示线性变换矩阵,⊗𝑐 表示恒定曲率空间中的矩阵乘法。
由于邻域的重要性通常是完全不同的,因此平等地对待每个关系上下文是不合适的。因此,我们引入了每个关系上下文的重要性,并学习了每个消息嵌入的重要性。特别是,我们首先使用矩阵 W2 应用线性变换,然后使用 LeakyReLU 激活函数。消息重要性可以计算如下。
接下来,我们通过在 𝑏𝑖𝑗𝑘 上使用 softmax 函数来计算每个消息嵌入的注意力值,如下所示。
然后我们计算更新的实体嵌入。使用多头机制。因此,具有 𝑁-head attention 的更新实体嵌入计算如下。
为了获得关系的更新嵌入,采用线性变换。其中 W𝑟𝑒𝑙′ 表示关系嵌入映射的参数化线性变换矩阵。
特别是,我们执行两次嵌入更新迭代以捕获两跳关系上下文。在第二次迭代中,我们通过对来自多个头部的嵌入进行平均(而不是连接)来获得更新的实体嵌入 e′′𝑖。
为了在保留初始嵌入信息的同时获得最终更新的嵌入 e𝑓𝑖𝑛𝑎𝑙𝑖,我们进一步采用线性变换层将初始嵌入与新嵌入融合。其中 W3 是用于融合原始和新实体嵌入的权重矩阵。借助图神经更新器,我们可以选择性地收集多跳上下文信息以捕获混合曲率空间中的异构结构。
3.4 训练和优化
为了训练,我们提出的 M2GNN 模型,通过对头部(𝑒ℎ,𝑟,𝑒′𝑡)或尾部(𝑒𝑡,𝑟−1,𝑒′)执行随机替换,为每个三元组(𝑒ℎ,𝑟,𝑒𝑡)构建 Ne 个负样本。我们的目标是最小化伯努利负对数似然损失,如下所示。其中𝑝表示预测概率,𝑦表示指示样本事实是否可用的二进制标签,𝑁是训练样本的数量。为了优化所提出的模型,我们在原点处定义了切线空间中的所有参数。
如前一小节所述,混合曲率空间由签名(空间类型、曲率和维度)参数化。对于空间类型,我们使用三个恒定曲率空间分量(双曲空间、球面空间和欧几里得空间)的组合来覆盖 KG 的内在异构结构。对于每个恒定曲率空间分量的曲率(𝐾ℎ 用于双曲空间,𝐾𝑠 用于球面空间),它们通常是固定的,需要通过领域知识和数据分析手动定义。不正确定义的曲率无法准确捕捉 KG 的内在异质结构。为了解决这个问题,我们为每个恒定曲率空间分量提出了一个可训练的曲率。由于我们的损失函数对于这些曲率是可微的,我们将这些曲率视为模型的参数,并使用基于梯度的优化来学习它们。对于维度,我们将每个恒定曲率空间分量的维度设置为相同,并提出空间权重来平衡每个恒定曲率空间分量。特别是,如果双曲空间权重是𝜆 ∈ {0,1},球面空间权重是 𝜇 ∈ {0,1},欧几里德空间权重是 (1 -𝜆 -𝜇) ∈ {0,1},也就是说,𝜇 +𝜆 +(1 −𝜆 −𝜇) =1,则建立权衡:随着我们增加(分别减少)三个权重之一,另外两个将减少(分别增加)。然而,空间权重的设置也需要先验知识或人力工程。我们通过提出可训练的空间权重并以数据驱动的方式搜索适当的空间权重来解决这个问题。那么等式6可以改写如下。
4. 实验
在本节中,我们评估提出的 M2GNN 模型,并展示其在三个 KG 数据集上的性能。我们首先介绍实验装置。接下来,我们展示了所提出的 M2GNN 模型的有效性。我们进一步进行了几项消融研究,以证明每个提议模块的有效性。
4.1 实验设置
数据集:WN18RR、FB15k-237、YAGO3-10。
Baselines:
- RESCAL:欧几里得嵌入模型,每个关系都是一个满秩矩阵。
- TransE:第一平移距离欧几里得嵌入。
- DisMult:具有对角关系矩阵的欧几里得嵌入模型。
- MuRE:使用对角关系矩阵的平移距离欧几里得嵌入。
- ComplEx:DisMult 在复杂空间中的扩展。
- RotatE:TransE 在复杂空间中的扩展,具有模量部分和相位部分。
- Conve:具有由卷积神经网络定义的评分函数的基于 NN 的方法。
- CompGCN:具有由图卷积网络定义的得分函数的基于 NN 的方法。
- A2N:基于 NN 的方法,其得分函数由图注意网络定义。
- MuRP:带有对角关系矩阵的平移距离双曲线嵌入。
消融:
- MuRS——多关系球形嵌入。
- MuRMP – 以固定曲率嵌入的多关系混合曲率空间[1,-1]。
- MuRMP-autoK – 具有可学习曲率的多关系混合曲率空间嵌入。
- MuRMP-autoT – 具有可学习空间权重的多关系混合曲率空间嵌入。
- MuRMP-autoKT – 具有可学习曲率和空间权重的多关系混合曲率空间嵌入。
- M2noGNN – 没有 GNN 更新器的混合曲率空间嵌入。
- H2GCN – 使用 GCN 更新器嵌入混合曲率空间。
- H2-khead – 混合曲率空间嵌入与 k-head 注意 GNN 更新器。
实施细节:使用 MRR 和 Hits@K 作为评估指标。我们在切线空间中执行优化并使用标准欧几里得优化器。我们在 PyTorch 中实现了所提出的方法,并在 NVIDIA Tesla V100 GPU 上进行了实验。对于我们提出的模型,我们对维度、学习率、优化器、负样本大小、批量大小和注意力头数进行了超参数搜索。我们报告每个数据集的最佳超参数(维度、学习率、优化器、负样本大小、批量大小和注意力头数)如下:{WN18RR: 200, 0.001, Adam, 500, 500, 4} , {FB15k-237: 200, 0.05, 阿达格拉德, 500, 500, 4}, {YAGO3-10: 500, 0.005, 亚当, 250, 500, 4}。
4.2 整体结果
在本小节中,我们将所提出的方法与现有的最先进方法和一些具有不同几何空间的消融进行比较。实验结果如表 4 所示。正如我们所看到的,所提出的 M2GNN 在具有各种类型结构的所有三个数据集上都优于所有基线,这验证了所提出的方法在捕获 KG 中的内在异构结构方面的有效性。我们还观察到混合曲率方法优于单曲率方法,而单曲率方法的性能因数据集而异。与具有固定曲率或固定空间权重的混合曲率方法相比,可学习的曲率和空间权重显着提高了性能。另一个有趣的事实是,基于 GNN 的方法在所有数据集上都实现了最佳性能,这显示了关系上下文的好处。
- 表4:整体结果
4.3 图神经网络的消融研究
在本小节中,我们研究了图神经更新模块的有效性。 WN18RR 和 FB15k-237 数据集上的消融结果如表 5 所示。M2noGNN 表示没有图神经更新器的结果。 M2GCN 表示使用图卷积更新器的结果。 M2GAT-𝑘head 表示所提出的具有 𝑘 头的图神经更新器的结果。我们可以观察到 GNN 模型优于非 GNN 模型。所提出的单头图神经更新器与图卷积变体具有相似的性能。当头数量增加时,性能也会提高。
- 表5:图神经网络消融研究。
4.4 维度消融研究
在本小节中,我们将研究维度的作用。我们在 WN18RR 上进行了实验,并报告了混合曲率模型(MuRMP-autoKT,MuRMP)与单一恒定曲率空间方法(MuRS,MuRP 和 MuRE)的 MRR 和维度 𝑑 ∈ {10,15,20,40, 100,200,400 }。图 2 显示了通过平均 10 次运行获得的结果。正如预期的那样,MuRMP-autoKT 在广泛的维度上实现了最佳性能。它的变体 MuRMP 不太稳定,因为它使用固定的曲率值和空间权重,不能很好地捕捉内在的异质结构。由于 WNRR18 具有丰富的层次结构,所提出的混合曲率模型和 MuRP 在低维时均能取得良好的性能。
- 图2:维度影响。
4.5 关系类型消融研究
在本小节中,我们研究了所提出方法的性能如何受 WN18RR 上的关系类型影响。我们报告了许多指标来描述每个关系,包括全局图曲率 (𝜉𝐺) 和 Krackhardt 层次分数 (Khs)。这两个指标用于证明给定数据是否具有丰富的层次结构。具体来说,我们比较了 MuRMP-autoKT、MuRMP、MuRS、MuRP 和 MuRE 的每个关系在 10 次运行中的平均 hits@10,用于低维实体嵌入(d = 20)。从表 6 中我们可以看到,所提出的混合曲率模型 MuRMP-autoKT 在固定曲率和固定空间权重的情况下优于其变体。此外,它还优于所有单一的恒定曲率方法。实验验证了所提方法在处理异构类型数据方面的有效性。
- 表6:关系类型消融研究。
4.6 曲率和空间权重的消融研究
正确设置恒定曲率空间的曲率和空间权重非常重要。这些参数集为模型提供了捕捉知识图谱数据中内在异构结构的灵活性。具体来说,我们在表 7 中报告了每个数据集的学习曲率和空间权重。结果表明,对于具有丰富层次结构的数据集(WN18RR,YAGO3-10),与另一组(FB15k- 237) 大约小 30%,双曲空间权重大约是两倍。 FB15k-23 组的球面空间权重值大于其他两组。
- 表7:曲率和空间权重的消融研究。
5. 相关工作
5.1 知识图谱补全
5.2 非欧嵌入
单曲率模型。将数据嵌入非欧几里得空间(恒定非零曲率空间)引起了相当大的关注。 [36] 在 Poincaré 球中定义了 WordNet 非嵌入空间,并显示了在低维设置中欧几里得嵌入的显着增益。 [37] 在洛伦兹双曲空间中嵌入分层数据。后来的一些工作重新定义和开发了双曲空间中的现有算法,例如 Poincaré GloVe [44]、双曲注意力网络 [19] 和双曲图卷积神经网络 [7]。这些作品研究了在具有负曲率的双曲空间中的嵌入。另一方面,一些研究人员研究了具有正曲率的球形空间中的嵌入,并表明球形嵌入可以更好地捕获循环结构,例如方向数据。 [9, 59] 开发了 Spherical Variational Autoencoders 并将它们应用于语言和文档建模。 [33] 提出了一个球形生成模型,并联合学习单词和段落嵌入。在这些方法中,只考虑负曲率模型用于多关系 KG 完成任务
混合曲率模型。注意到数据可能是非均匀结构的,研究人员研究了混合曲率空间中的嵌入。 [17, 41] 通过将具有不同曲率的流形相乘来构建混合曲率空间,并展示了处理具有丰富结构的数据的灵活性。尽管他们研究了内在异构结构的非欧几何,但他们的重点是无监督嵌入,并且只考虑同质关系(只有一种关系类型),不能直接应用于解决多关系 KG 嵌入问题。此外,他们需要使用领域知识和额外的数据分析手动定义固定曲率,这很难获得。
6. 结论和未来工作
我们开发了一种新颖的混合曲率多关系图神经网络(M2GNN)来完成知识图谱。混合曲率空间由一个易处理的黎曼乘积流形构成,它结合了欧几里得、球面和双曲空间。受益于混合曲率空间建模,我们的方法通过更好地捕获 KG 中的内在异构结构来改进多关系图表示。此外,所提出的方法可以自适应地聚合关系混合曲率空间中的上下文信息并提高嵌入质量。
Comments | NOTHING