DALL·E 2 DALLE2

先来看一下整体的框架图

训练过程包括三个部分：

1、CLIP训练（用预训练模型即可）

2、prior网络训练（学习文本特征到图像特征的映射）

输入是CLIP编码后的文本特征，输出是图像特征，用CLIP编码的图像特征作为监督

3、decoder网络训练（学习图像特征到图像的映射）

输入是CLIP编码后的图像特征，输出是图，用原图做监督

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

本文由用户于 2024-04-06 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18700865.html

金钥匙