https://arxiv.org/abs/2109.11800

https://github.com/renli1024/SE-GNN

论文概览

现有的KGE工作大多集中在精巧的三元组建模函数的设计上,主要告诉我们如何衡量观察到的三元组的似然性。

在这篇文章中,我们试图研究两个问题的KGE外推:

1.KGE如何对看不见的数据进行外推? 2.如何设计外推能力更好的KGE模型?

对于一个好的外推式匹配,(h , r , ?)和t在训练过程中获得了一定的语义相关性,这种相关性可能来自于三个层面。

关系 r 和 尾实体t (relation level)

头实体 h 和 尾实体 t (entity level)

头实体及关系的组合(h, r, ?) 与尾实体 t (triple level)

将这三个因素命名为语义证据(Semantic Evidence, SE)

对于关系层面,用 r 和 t 在训练集中的共现度来衡量;

对于实体层面,是训练集中从 h 到 t 的 路径连接;

对于三元组层次,则是(h, r, ?)和 t 存在的真值实体之间的相似性。

知识图谱嵌入的相关工作

根据评分函数和是否利用全局图结构,知识图谱嵌入模型可以分为三个家族:

(i)平移距离模型将基于距离的评分函数和模型关系应用为一些操作:

TransE 中的加法操作(2013)

TransH 中的超平面加法(2014)

RotatE 中的复数场旋转(2019)

(ii)语义匹配模型使用基于相似性的评分函数:

DistMult 提出了一个乘法模型来表示一个事实的可能性(2015)

ComplEx 在复域上对三元组匹配函数进行建模(2016)

ConvE(2018)、InteractE(2020)应用神经网络进行相似性建模

(iii)基于GNN的模型倾向于通过图神经网络捕获图谱的结构特征:

R-GCN 引入一种特定于关系的转换,在近邻聚合时合并关系信息(2018)

CompGCN 为邻居聚合提出了各种组合操作,以建模多关系图的结构模式(2020)

A Re-evaluation of Knowledge Graph Completion Methods. (ACL 2020) 一篇很好的文章,做了几个模型的对比

MedyG/kg-reeval: 图谱补全测试 (github.com)

核心思想:利用语义证据进行外推

KGE任务旨在预测给定(h, r, ?)的 t,或给定(? , r, t)的h,这里用查询和答案之间语义匹配的思想来对待预测任务。

在不损失通用性的情况下,我们将两个方向都表示为query(h, r)→t。

关系层面 r 和 t 之间的关系

如果在训练集中 t 频繁的出现在包含 r 的查询中,也就是在训练集中有很多的query(hi, r) → t,可以理解为r 将包含预测 t 的信息,从直觉上来看,这可以被视为类似实体类型信息的特征。

简单的想法,查询(hi,出生在),预测地点佛罗里达的概率应该比预测电影《钢铁侠》高。

实体层面 h 和 t 之间的关系

如果观察到存在 h 到 t 的查询或间接查询,这将代表 h 与 t 具有语义相关性。

查询(h, 是母亲)→e1 和 查询 (e1, 是父亲)→t 将为查询(h, 是祖母)→t提供信息,在图视角下可以看作是从h到t的路径。

三元组层面 query(h, r) 和 t 之间的关系

对于 query(h, r)来说,训练集中可能存在着其他 ground truth t‘,如果模型为query(hi, r) → t’做了训练,同时 t 和 t’ 很相似,那我们不难推出query(h, r) → t。例如query(James Cameron, profession) → film director 和 screen writer, 那么不难推出 query(James Cameron, profession) → film producer.

对于一个KGE模型,虽然它没有为未见过的数据查询(h, r)→ t 进行训练,但它已经从观察到的三元组中获得了足够的信息来进行预测。我们将这种关系命名为语义证据(SE),以表明它们为外推提供的支持语义信息。

对于一个未见过的预测查询 (h, r)→t,我们提出了三个相应的指标来量化每个SE的证据强度。

语义证据感知图神经网络(Semantic Evidence aware Graph Neural Network ,SE-GNN)

语义证据对于设计具有强大外推能力的KGE模型非常重要。然而,对于目前的大多数KGE工作来说,没有意识到这种外推因素,它们主要通过一种隐式的、不充分的方式来捕获SE信息,这限制了它们的外推性能。

对于关系级SE,它描述了整体的关系-实体交互,可以通过实体的邻居关系模式来捕获。

对于实体级SE,它描述实体之间的路径连接信息,可以从相邻实体模式中捕获。通过一次聚合邻居实体,我们可以捕获所有的长度为1的路径,通过迭代多层聚合,我们可以访问更长的路径。

对于三元组级SE,它从邻居结构的角度描述三元组相似特征,既考虑了邻居实体,也考虑了邻居关系。

 

整体模型架构

我们引入了邻居聚合方法来对每个SE进行建模,并获得相应表示。这三种嵌入提供了帮助模型外推的重要证据。我们将它们与原始知识嵌入合并:

它只捕获1跳邻域内的SE信息。为了获取多跳邻居信息并对SE组件的更深层交互进行建模,我们引入了一个用于SE聚合的多层版本。

用ConvE做解码器:

使用二进制交叉熵损失来衡量 q 和潜在答案 实体 t 之间的匹配

迭代训练时,作者为了使得每次迭代学到的信息更加丰富,会重新初始化关系嵌入。迭代轮数一般为2-3轮。

实验结果

在两个常用的公开数据集上进行了知识图谱补全任务的实验: FB15k-237 (2015) 和 WN18RR (2018)

通过五个常用的指标来衡量模型性能:

MRR(正确实体的平均倒数排名),

MR (正确实体的平均排名),

Hits@1, Hits@3, Hits@10(正确实体排名的准确性在top1/3/10)。

并遵循过滤设置协议(2013)进行评估,即在排序时排除所有出现在训练集、有效集和测试集中的其他真实实体。

 鉴于在两个数据集上五个指标,SE-GNN实现10个sota中的9个。

与基于gnn的典型KGE模型CompGCN相比,SE-GNN获得了明显的提升。这表明SE-gnn表现出更好的外推能力。

SE-GNN的提升在FB15k-237数据集上更加明显。在FB15k-237中有超过200种类型的关系,使得外推场景更具挑战性。

语义证据的有效性与模型的消融实验

评估SE-GNN在不同SE范围内的外推性能。为了控制变量,我们将结果与ConvE进行比较。可以看到,SE-GNN在所有范围的所有SE水平上表现更好。

评估每个SE部分的效果,我们做了只删除一个SE建模部分并同时删除其中两个的消融研究。可以观察到6种变体的效果都下降。

模型架构概览:

WN18RR dataset 上的运行结果:

 The model takes about 10h for training on a single GPU, and the GPU memory cost is about 11GB for FB15k-237 and 3GB for WN18RR dataset.

推荐阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: