论文标题:Learning from History: Modeling Temporal Knowledge Graphs with Sequential Copy-Generation Networks论文来源:AAAI 2021

文章目录

1. 开篇2. 模型2.1. 整体结构2.2. Copy Mode2.3. Generation Mode2.4. Inference and Learning Objective

3. 实验结果4. 作者的展望5. 个人想法

1. 开篇

文章提出了一种新的时序知识图谱表示学习模型CyGNet,不仅能够利用全局图谱结构去预测三元组(Generation Mode),而且能够利用过去重复发生的事实(facts)去预测未来(Copy Mode)。

2. 模型

2.1. 整体结构

图1. CyGNet整体结构图

2.2. Copy Mode

Copy Mode使用过去重复发生的facts对未来的facts进行预测。

对于一个待预测的query

(

s

,

p

,

?

,

t

k

)

(s,p,?,t_k)

(s,p,?,tk​),首先构建一个historical vocabulary(如图2所示意):

{

h

t

1

(

s

,

p

)

,

h

t

2

(

s

,

p

)

,

h

t

3

(

s

,

p

)

,

.

.

.

.

.

.

,

h

t

k

1

(

s

,

p

)

}

\{h^{(s,p)}_{t_1},h^{(s,p)}_{t_2},h^{(s,p)}_{t_3},......,h^{(s,p)}_{t_{k-1}}\}

{ht1​(s,p)​,ht2​(s,p)​,ht3​(s,p)​,......,htk−1​(s,p)​}其中

h

t

i

(

s

,

p

)

h^{(s,p)}_{t_i}

hti​(s,p)​是一个N维向量(N是实体总数),向量中为1的元素表示训练集中存在以对应实体为objective(客体、宾语)的fact(且时间为

t

i

{t_i}

ti​),反之则为0。(注意:对每个query只会用到在其之前的历史信息)

图2. historical vocabulary构建示意图

然后将这些历史信息汇总:

H

t

k

(

s

,

p

)

=

h

t

1

(

s

,

p

)

+

h

t

2

(

s

,

p

)

+

h

t

3

(

s

,

p

)

+

.

.

.

.

.

.

+

h

t

k

1

(

s

,

p

)

H^{(s,p)}_{t_k} = h^{(s,p)}_{t_1}+h^{(s,p)}_{t_2}+h^{(s,p)}_{t_3}+......+h^{(s,p)}_{t_{k-1}}

Htk​(s,p)​=ht1​(s,p)​+ht2​(s,p)​+ht3​(s,p)​+......+htk−1​(s,p)​随后用一个MLP接入query信息:

v

q

=

t

a

n

h

(

W

c

[

s

,

p

,

t

k

]

+

b

c

)

v_q=tanh(W_c[s,p,t_k]+b_c)

vq​=tanh(Wc​[s,p,tk​]+bc​)其中

W

c

W_c

Wc​是模型参数;

s

,

p

,

t

k

s,p,t_k

s,p,tk​都是embedding向量,值得注意的是

t

k

t_k

tk​的embedding方式(之后再补充)。最后将query信息与history信息融合

p

c

=

s

o

f

t

m

a

x

(

v

q

+

H

t

k

(

s

,

p

)

)

p_c=softmax(v_q+H_{t_k}^{(s,p)})

pc​=softmax(vq​+Htk​(s,p)​)其中

p

c

p_c

pc​是一个长度为N的向量,每个元素代表预测客体为对应(索引编号)实体的概率。

2.3. Generation Mode

Generation Mode利用全局的结构信息进行预测。

g

q

=

t

a

n

h

(

W

g

[

s

,

p

,

t

k

]

+

b

g

)

g_q=tanh(W_g[s,p,t_k]+b_g)

gq​=tanh(Wg​[s,p,tk​]+bg​)

p

g

=

s

o

f

t

m

a

x

(

g

q

)

p_g=softmax(g_q)

pg​=softmax(gq​)

2.4. Inference and Learning Objective

作者将query

(

s

,

p

,

?

,

t

k

)

(s,p,?,t_k)

(s,p,?,tk​)的预测问题看作一个N分类问题,Copy Mode和Generation Mode会产生两个概率分布向量

p

c

p_c

pc​和

p

g

p_g

pg​,将两者加权求和得到最终的概率分布:

p

=

α

p

c

+

(

1

α

)

p

g

p=\alpha*p_c+(1-\alpha)*p_g

p=α∗pc​+(1−α)∗pg​其中

α

[

0

,

1

]

\alpha\in[0,1]

α∈[0,1]是超参数;而最终的预测客体编号为

a

r

g

m

a

x

(

p

)

argmax(p)

argmax(p)。 模型的前向推断过程如图3所示:

图3. 模型的前向推断过程

损失函数为概率分布向量的交叉熵(原文中的loss有些看不懂,这个是从源码中看出来的,就是多分类问题的交叉熵损失)

l

o

s

s

=

C

r

o

s

s

E

n

t

r

o

p

y

(

p

,

t

r

u

e

t

h

l

a

b

e

l

s

)

+

r

e

g

u

l

a

r

i

z

a

t

i

o

n

_

l

o

s

s

loss=Cross Entropy(p,truethlabels)+regularization\_loss

loss=CrossEntropy(p,truethlabels)+regularization_loss

3. 实验结果

作者在5个时序知识图谱数据集(ICEWS18,ICEWS14, GDELT, WIKI and YAGO)上进行实验。数据集规模

与baseline的对比实验。CyGNet在ICEWS18,ICEWS14,GDELT这三个数据集上都达到了最好的性能;在WIKI数据集上性能比RE-NET模型要差;在YAGO数据集上与RE-NET难分高下。 作者还分析了CyGNet模型在WIKI数据集上性能较差的原因,因为WIKI数据集上subjects和objects在历史中重复的比例不平衡。作者为此提出了一个改进方向:how to tackle this shortcoming of CyGNet with a more robust meta-learning framework is a meaningful direction for further studies.

消融实验

4. 作者的展望

For future work,we plan to improve the sequential copy mechanism by identifying globally salient entities and events.

5. 个人想法

融入历史信息的方式可以改进

相关阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: