先来看一下整体的框架图
训练过程包括三个部分:
1、CLIP训练(用预训练模型即可)
2、prior网络训练 (学习文本特征到图像特征的映射)
输入是CLIP编码后的文本特征,输出是图像特征,用CLIP编码的图像特征作为监督
3、decoder网络训练(学习图像特征到图像的映射)
输入是CLIP编码后的图像特征,输出是图,用原图做监督
相关文章
评论可见,请评论后查看内容,谢谢!!!
先来看一下整体的框架图
训练过程包括三个部分:
1、CLIP训练(用预训练模型即可)
2、prior网络训练 (学习文本特征到图像特征的映射)
输入是CLIP编码后的文本特征,输出是图像特征,用CLIP编码的图像特征作为监督
3、decoder网络训练(学习图像特征到图像的映射)
输入是CLIP编码后的图像特征,输出是图,用原图做监督
相关文章
本文由 用户 于 2024-04-06 发布在 金钥匙,如有疑问,请联系我们。
本文链接:https://www.51969.com/post/18700865.html
发表评论