超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型
论文链接:
背景介绍
通用文本引导图像生成领域近年受到广泛关注,在二次创作, 虚拟试穿和原型设计领域得到广泛应用。艺术家和设计师利用它重新构思和创新现有作品。消费者通过生成图像预览服装和配饰,提升购物体验。设计师能快速生成产品概念图,节省时间和资源。尤其扩散模型(Diffusion)由于其高质量和多元的生成,在文生图领域占有主导地位。通过逐步的去噪过程,为图像生成提供了更强的稳定性和可控性,然而也导致生成过程及其耗时。
自回归(Auto-regressive,AR)模型通过离散视觉编码器(VQ-VAE,d-VAE 等)将图像转化为离散 token,训练模型按顺序逐个预测新的 token,预测的整个 token map 解码即可得到生成的图像。
这一方式避免了原始基于 next-token 的自回归方案难以建模图像模态的问题,重新为视觉生成定义了新的自回归范式,从而使得生成的图像具有更高的真实度。
这一方法有效地建模了离散图像 token 的二维相关性,然而其仅局限于有限类别引导的生成,无法泛化到未知的实体和概念,除此之外采用的绝对可学习位置编码,导致额外的学习参数,限制了高分辨图像生成的潜力。
为了探索这种新的生成范式在文本控制生成这一开放集任务的表现,作者提出基于尺度的文生图自回归模型 STAR,重新思考 VAR 中的 “next-scale prediction” 范式,以获得性能更好、效率更高的通用文生图模型,为目前扩散模型支配的文生图领域带来新的看法。
方法核心
具体来说,所提出的 STAR 包括两部分:增强的文本引导和改进的位置编码,以高效地实现高质量图像生成:
增强的文本引导
为了更好地处理各种复杂的文本描述并生成相应的图像,研究者提出几项关键解决方案:
1)文本特征作为起始 token map,根据起始 token map 生成更高分辨率的 token map 这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性
2)在每个 transformer 层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。
具体网络结构如下:
归一化旋转位置编码(Normalized RoPE)
对于 next-scale prediction 范式,如何利用同一个 transformer 生成不同尺度的 token map 是一个重要的问题,随之而来的是如何编码这些 token map 中的 tokens 的位置。
传统的正余弦编码难以处理不同尺度的 token map,同时编码多个尺度容易导致尺度之间的混淆。可学习的绝对位置编码需要为每个尺度的 token map 学习对应的位置编码,导致额外的学习参数,提升了训练难度,尤其是大尺度情况下的训练变得更加困难;除此之外固定个数的位置编码限制了更大分辨率图像生成的可能。
任意 token 间的相对位置被归一化到统一的尺度 ,从而确保了对不同尺度的 token map 中的相对位置有统一的理解,避免对不同尺度位置同时编码的混淆,更好地适配 scale-prediction 任务。除此之外,这一新的位置编码不需要额外的参数,更易于训练,为更高分辨率图像生成提供了潜在的可能。
训练策略
研究者选择先在 256*256 图像上以较大的 batch size 训练生成,随后在 512*512 图像上微调,以获得 512 的生成结果。由于归一化位置编码,模型很快收敛,仅需少量微调即可生成高质量 512 分辨率图像。
实验结果
相比目前的方法,所提出的 STAR 在 FID,CLIP score 和 ImageReward 上表现优异,体现了 STAR 良好的生成真实度,图文一致性和人类偏好。除此之外,STAR 生成一张 512 分辨率的高质量图像仅需约 2.9 秒,相比现有的扩散文生图模型具有显著优势。
相比现有的方法,STAR 可以生成多元的图像类型,在人物摄影、艺术绘画、静物、风景等场景下均能获得很好的效果,生成的人脸、毛发、材质达到了令人惊叹的细节:
结论
STAR 基于 scale-wise 自回归的方式,解决了 VAR 中存在的引导条件有限、位置编码不合理的问题,实现了更高效、性能更好的文本引导图像生成。
广泛的实验证明,所提出的方法在生成图像真实度、图文一致性和人类偏好上均表现优秀。仅需约 2.9 秒的时间内,在 512 分辨率图像生成上,实现超越先进的文生图扩散模型(PixArt-、Playground、SDXL 等)的性能。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者