先来看一下整体的框架图

训练过程包括三个部分:

1、CLIP训练(用预训练模型即可)

2、prior网络训练 (学习文本特征到图像特征的映射)

输入是CLIP编码后的文本特征,输出是图像特征,用CLIP编码的图像特征作为监督

3、decoder网络训练(学习图像特征到图像的映射)

输入是CLIP编码后的图像特征,输出是图,用原图做监督

相关文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: