论文标题:Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks论文来源:AAAI 2021
文章目录
1. 开篇2. 模型2.1. 整体结构2.2. Copy Mode2.3. Generation Mode2.4. Inference and Learning Objective
3. 实验结果4. 作者的展望5. 个人想法
1. 开篇
文章提出了一种新的时序知识图谱表示学习模型CyGNet,不仅能够利用全局图谱结构去预测三元组(Generation Mode),而且能够利用过去重复发生的事实(facts)去预测未来(Copy Mode)。
2. 模型
2.1. 整体结构
图1. CyGNet整体结构图
2.2. Copy Mode
Copy Mode使用过去重复发生的facts对未来的facts进行预测。
对于一个待预测的query
(
s
,
p
,
?
,
t
k
)
(s,p,?,t_k)
(s,p,?,tk),首先构建一个historical vocabulary(如图2所示意):
{
h
t
1
(
s
,
p
)
,
h
t
2
(
s
,
p
)
,
h
t
3
(
s
,
p
)
,
.
.
.
.
.
.
,
h
t
k
−
1
(
s
,
p
)
}
\{h^{(s,p)}_{t_1},h^{(s,p)}_{t_2},h^{(s,p)}_{t_3},......,h^{(s,p)}_{t_{k-1}}\}
{ht1(s,p),ht2(s,p),ht3(s,p),......,htk−1(s,p)}其中
h
t
i
(
s
,
p
)
h^{(s,p)}_{t_i}
hti(s,p)是一个N维向量(N是实体总数),向量中为1的元素表示训练集中存在以对应实体为objective(客体、宾语)的fact(且时间为
t
i
{t_i}
ti),反之则为0。(注意:对每个query只会用到在其之前的历史信息)
图2. historical vocabulary构建示意图
然后将这些历史信息汇总:
H
t
k
(
s
,
p
)
=
h
t
1
(
s
,
p
)
+
h
t
2
(
s
,
p
)
+
h
t
3
(
s
,
p
)
+
.
.
.
.
.
.
+
h
t
k
−
1
(
s
,
p
)
H^{(s,p)}_{t_k} = h^{(s,p)}_{t_1}+h^{(s,p)}_{t_2}+h^{(s,p)}_{t_3}+......+h^{(s,p)}_{t_{k-1}}
Htk(s,p)=ht1(s,p)+ht2(s,p)+ht3(s,p)+......+htk−1(s,p)随后用一个MLP接入query信息:
v
q
=
t
a
n
h
(
W
c
[
s
,
p
,
t
k
]
+
b
c
)
v_q=tanh(W_c[s,p,t_k]+b_c)
vq=tanh(Wc[s,p,tk]+bc)其中
W
c
W_c
Wc是模型参数;
s
,
p
,
t
k
s,p,t_k
s,p,tk都是embedding向量,值得注意的是
t
k
t_k
tk的embedding方式(之后再补充)。最后将query信息与history信息融合
p
c
=
s
o
f
t
m
a
x
(
v
q
+
H
t
k
(
s
,
p
)
)
p_c=softmax(v_q+H_{t_k}^{(s,p)})
pc=softmax(vq+Htk(s,p))其中
p
c
p_c
pc是一个长度为N的向量,每个元素代表预测客体为对应(索引编号)实体的概率。
2.3. Generation Mode
Generation Mode利用全局的结构信息进行预测。
g
q
=
t
a
n
h
(
W
g
[
s
,
p
,
t
k
]
+
b
g
)
g_q=tanh(W_g[s,p,t_k]+b_g)
gq=tanh(Wg[s,p,tk]+bg)
p
g
=
s
o
f
t
m
a
x
(
g
q
)
p_g=softmax(g_q)
pg=softmax(gq)
2.4. Inference and Learning Objective
作者将query
(
s
,
p
,
?
,
t
k
)
(s,p,?,t_k)
(s,p,?,tk)的预测问题看作一个N分类问题,Copy Mode和Generation Mode会产生两个概率分布向量
p
c
p_c
pc和
p
g
p_g
pg,将两者加权求和得到最终的概率分布:
p
=
α
∗
p
c
+
(
1
−
α
)
∗
p
g
p=\alpha*p_c+(1-\alpha)*p_g
p=α∗pc+(1−α)∗pg其中
α
∈
[
0
,
1
]
\alpha\in[0,1]
α∈[0,1]是超参数;而最终的预测客体编号为
a
r
g
m
a
x
(
p
)
argmax(p)
argmax(p)。 模型的前向推断过程如图3所示:
图3. 模型的前向推断过程
损失函数为概率分布向量的交叉熵(原文中的loss有些看不懂,这个是从源码中看出来的,就是多分类问题的交叉熵损失)
l
o
s
s
=
C
r
o
s
s
E
n
t
r
o
p
y
(
p
,
t
r
u
e
t
h
l
a
b
e
l
s
)
+
r
e
g
u
l
a
r
i
z
a
t
i
o
n
_
l
o
s
s
loss=Cross Entropy(p,truethlabels)+regularization\_loss
loss=CrossEntropy(p,truethlabels)+regularization_loss
3. 实验结果
作者在5个时序知识图谱数据集(ICEWS18,ICEWS14, GDELT, WIKI and YAGO)上进行实验。数据集规模
与baseline的对比实验。CyGNet在ICEWS18,ICEWS14,GDELT这三个数据集上都达到了最好的性能;在WIKI数据集上性能比RE-NET模型要差;在YAGO数据集上与RE-NET难分高下。 作者还分析了CyGNet模型在WIKI数据集上性能较差的原因,因为WIKI数据集上subjects和objects在历史中重复的比例不平衡。作者为此提出了一个改进方向:how to tackle this shortcoming of CyGNet with a more robust meta-learning framework is a meaningful direction for further studies.
消融实验
4. 作者的展望
For future work,we plan to improve the sequential copy mechanism by identifying globally salient entities and events.
5. 个人想法
融入历史信息的方式可以改进
相关阅读
发表评论