文章目录 摘要解决问题算法模型结构通过frozen图像编码器学习视觉语言表征图像文本对比学习(ITC)基于图像文本生成(ITG)图文匹配(ITM) 从大规模语言模型学习视觉到语言生成模型预训练预训练数据预训练图像编码...