AIGC系列分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍与AIGC概念相关的有趣内容。AIGC系列主要分为以下几篇文章:

被称为下一代风口的AIGC到底是什么?

AIGC的数据集构建方案分享系列

从文本创建艺术,AI图像生成器的数据集是如何构建的

ChatGPT的数据集构建方案(敬请期待)

未完待续......

最近,“AI绘画”吸引了很多人的目光,而“AI绘画”在近期取得如此巨大进展的原因之一得益于Stable Diffusion的开源。

引自Imagen官网

什么是文图生成技术

文本描述:A small cabin on top of a snowy mountain in the style of Disney, artstation

文图生成技术的研究开始于2010年中期,伴随着深度学习技术的发展而进步。截至2023年2月,目前已知的最先进的文生图模型有:OpenAI的DALL-E2、Google的ImageGen和StableilityAI的Stable Diffusion。这些模型生成的图片已经开始接近真实照片以及人类所绘艺术作品的质量。

在深度学习兴起之前,搭建文本到图像模型的尝试仅限于通过排列现有的组件图像进行拼贴,例如从剪切画数据库中选择图像形成类似于拼贴画的图像。随着深度学习的发展,越来越多的机构提出基于深度学习的文生图模型。

2015年,由多伦多大学研究人员提出第一个现代化文生图模型:alignDRAW。它使用带有注意力机制的循环变分自动编码器来扩展之前的DRAW架构,使其能以文本序列作为输入。尽管alignDRAW生成的图片是模糊,不逼真的,但是该模型能够归纳出训练数据中没有的物体。并且可以适当地处理新的文本描述,例如:“停车标识在蓝天上飞”。这表明该模型在一定程度上可以理解语言描述,并生成新的东西,而不是仅仅在“回放”训练集中的数据。

文本描述:停车标识在蓝天上飞,引自aligenDRAW论文

2016年,Reed、Akata、Yan等人首先试图将生成对抗网络(GAN)用于文生图任务。他们通过在特定领域的数据集上训练生成器以及判别器。训练完成的模型能够从文本描述中生成“视觉上可信的”物体。但是,基于GANs生成的图片在视觉上只可“远观”,在细节上缺乏一致性。此外,基于GANs生成的图片多样性不够好,生成的图片都差不多,原创性不佳。常见的基于GANs的文图生成模型有:AttnGAN、DM-GAN、DF-GAN、XMC-GAN、VQGAN+CLIP、GauGANs、StyleGAN、Make-A-Scen等。

2021年1月,OpenAI发布了DALL-E,这是最早引起公众广泛关注的文生图模型之一。DALL-E模型是GPT-3的多模态实现,它基于Transformer架构,拥有120亿个参数。该模型在一个从网上收集的包含2.5亿个图像文本对的数据集上进行训练得到。DALL-E会根据文本描述生成多个图像,之后由CLIP模型对这些图像进行排序,以呈现最高质量的图像。除了生成各种风格的图像(相机写实主义图像、绘画、表情符号等)之外,它还可以“操作和重新排列”图像中的对象。其创作者指出DALL-E的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中。例如,输入文本:“穿着圣诞衣服的企鹅”。DALL-E不仅生成企鹅穿着毛衣的图像,还会生成与主题相关的圣诞老人的帽子。如下所示:

文本描述:穿着圣诞衣的企鹅

同年4月份,OpenAI宣布了新版本的DALL-E2,宣称它可以从文本描述中生成照片般逼真的图像。与DALL-E相比,DALL-E2在速度、图像质量、训练数据集以及语言理解能力都有了显著改进。不过有时候模型也会出现错误。比如DALL-E2就无法区分:“黄色的书和红色的花瓶”。

文本描述:黄色的书和红色的花瓶,左边图片由Imagen生成,右边图片由DALL-E2生成,引自Imagen论文

2022年5月,Google推出Imagen。它是一种文本到图像(text-to-image)扩散模型(diffusion model),具有前所未有的逼真度和深度的语言理解。Imagen建立在大型Transformer语言模型理解文本语义的能力之上,依赖于扩散模型生成高保真的图像。Imagen表明了以下四点结论:

冻结大型预训练模型的文本编码器对于文本到图像任务非常有效

缩放预训练文本编码器的大小比缩放扩散模型的大小更重要

提出一种新的阈值扩散采样器,可以使用非常大的无分类器指导权重

引入了一种新的高效的U-Net架构,其计算效率更高,内存效率更高,收敛速度更快

参考文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: