Selective amnesia: A continual learning approach to forgetting in deep generative models
这篇文章提出了Selective Amnesia (SA),其借助了持续学习(continual learning)中的技巧(EWC和GR)实现生成模型中的概念遗忘。
输入:forget conceps
c
f
c_f
cf及其对应图片
x
f
x_f
xf,remaining concepts
c
r
c_r
cr及其对应图片
x
r
x_r
xr,文生图模型参数
θ
\theta
θ 输出:更新后的模型参数
θ
∗
\theta^*
θ∗SA在微调过程中,最大化下面的损失函数: 其中,第一项对应需要遗忘的概念,最大化该项使得生成
c
f
c_f
cf的概率似然函数最小。第二项是参数约束项,减小对模型整体生成能力的影响。第三项对应需要保留的概念,最大化该项使得需要保留的概念
c
r
c_r
cr的概率似然函数最大。需要注意的是,第一项和第三项是不同的(
q
(
x
∣
c
f
)
≠
p
(
x
∣
c
f
)
q(x|c_f) \neq p(x|c_f)
q(x∣cf)=p(x∣cf),其中前者是a surrogate distribution)。公式(4)由下面的公式(3)变换而来,公式(4)中的第一项越大,
c
f
c_f
cf对应的似然函数就越小,那么对应公式(3)中第一项(取负值后)的值越大,这就与最大化公式(3)的目标一致了。 而从公式(3)到公式(4)的转换是利用了下面的公式: 上面的公式,右边的项对应公式(3)第一项(不包括负号),左边的项对应公式(4)的第一项。右边取最小,左边取最大,所以,让公式(3)第一项(不包括负号)取得最小值,就是公式(4)第一项取得最大值。具体的解释在下面的定理1: 使得公式左边取得最大值的解为
θ
q
\theta^q
θq,也就是使得
E
q
(
x
∣
c
)
p
f
(
c
)
[
l
o
g
p
(
x
∣
θ
,
c
)
]
E_{q(x|c)pf (c)} [log~p(x|θ, c)]
Eq(x∣c)pf(c)[log p(x∣θ,c)]最大的
θ
\theta
θ,对应公式(4)中的第一项。
推荐文章
发表评论