Selective amnesia: A continual learning approach to forgetting in deep generative models

这篇文章提出了Selective Amnesia (SA),其借助了持续学习(continual learning)中的技巧(EWC和GR)实现生成模型中的概念遗忘。

输入:forget conceps

c

f

c_f

cf​及其对应图片

x

f

x_f

xf​,remaining concepts

c

r

c_r

cr​及其对应图片

x

r

x_r

xr​,文生图模型参数

θ

\theta

θ 输出:更新后的模型参数

θ

\theta^*

θ∗SA在微调过程中,最大化下面的损失函数: 其中,第一项对应需要遗忘的概念,最大化该项使得生成

c

f

c_f

cf​的概率似然函数最小。第二项是参数约束项,减小对模型整体生成能力的影响。第三项对应需要保留的概念,最大化该项使得需要保留的概念

c

r

c_r

cr​的概率似然函数最大。需要注意的是,第一项和第三项是不同的(

q

(

x

c

f

)

p

(

x

c

f

)

q(x|c_f) \neq p(x|c_f)

q(x∣cf​)=p(x∣cf​),其中前者是a surrogate distribution)。公式(4)由下面的公式(3)变换而来,公式(4)中的第一项越大,

c

f

c_f

cf​对应的似然函数就越小,那么对应公式(3)中第一项(取负值后)的值越大,这就与最大化公式(3)的目标一致了。 而从公式(3)到公式(4)的转换是利用了下面的公式: 上面的公式,右边的项对应公式(3)第一项(不包括负号),左边的项对应公式(4)的第一项。右边取最小,左边取最大,所以,让公式(3)第一项(不包括负号)取得最小值,就是公式(4)第一项取得最大值。具体的解释在下面的定理1: 使得公式左边取得最大值的解为

θ

q

\theta^q

θq,也就是使得

E

q

(

x

c

)

p

f

(

c

)

[

l

o

g

 

p

(

x

θ

,

c

)

]

E_{q(x|c)pf (c)} [log~p(x|θ, c)]

Eq(x∣c)pf(c)​[log p(x∣θ,c)]最大的

θ

\theta

θ,对应公式(4)中的第一项。

推荐文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: