---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. VAR 会是 Scaling Law 在视觉生成的新起点吗?
基于扩散的Sora没有Scaling Law吗?自回归比扩散模型更能Scale Up?VAR如何验证Scaling Law?下个视觉生成范式是VAR吗?...
2. Gen AI 应用需求急剧降速?3月访问量暴跌超 90%
被用户「证伪」的有哪些应用?「急剧降速」的 AI 应用都有哪些特点?在 AI 应用「高度同质化」的背景下,有哪些仍在持续涨幅的应用值得关注?顶级 VC 们看好哪类应用?...
3.《2024 年人工智能指数报告》报告都说了什么?
2024 AI Index有什么变化?AI在2023年有哪些进展?全球各国对AI的态度如何?政府对AI治理态度如何?...
...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 8 项,国外方面 11 项。
本期通讯总计 23461 字,可免费试读至 14 % 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读 ① VAR 会是 Scaling Law 在视觉生成的新起点吗?
事件:2024 年初,OpenAI 在 Sora 的技术报告中称 Diffusion Transformer 具备 scale effective 的特征,引起了社区对 Scailing Law 的又一次热议。北大和字节团队近期提出的 VAR 则使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws。基于扩散模型的 Sora 没能解锁视觉领域的 Scaling Law 吗?1、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。2、扩散模型是当前最流行的生成式技术之一。虽然具备 Scaling Law 和零试泛化能力的 GPT、LLaMa 系列等自回归模型在 NLP 领域进展显著,但在视觉领域的表现仍落后于 Dall-E3、Stable Diffusion3 等基于扩散方法的模型。3、Sora 是当前最为热门的视觉生成模型,有许多分析称 Sora 是潜在扩散模型(LDMs)和 DiT 的结合,但后续有工作质疑了这两个模型和 Scaling Law 并非十分契合。[2] [3] [4]4、谷歌团队在 2024 年 4 月的论文中证明了 scaling law 在 LDM 中并不适用。[5]① 该工作发现,对于潜在扩散模型(Latent Diffusion Models, LDMs),在计算资源较少时,如果增加 10 倍的计算量,应该让数据集大小增加为 10 倍,而不增加模型参数量。5、被 Sora 带火的 DiT 论文虽然验证了该模型一定程度上符合 Scaling Law,但后续 VAR 论文中指出了 DiT 在 Scale Up 时存在局限,无法触及 FID 下限。① DiT 论文中,研究者使用 Transformer 代替原始扩散模型中的 U-Net,获得了 SoTA 的图像生成效果,并证明随着整个计算的 FLOPs 的增多(即模型变大或 patch 更精细),FID 会越来越小。[6]② 北大和字节的研究者在 VAR 论文中指出,DiT 存在 Scaling 局限,在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限 [1]表:扩散模型与其他图像生成技术的特征对比 [7]
扩散不行,基于自回归的 VAR 能证明视觉领域也有 Scaling Law 吗?[1]1、北大和字节跳动的研究者 4 月 3 日发布的论文中提出 VAR 视觉自回归模型,其核心是模仿人类视觉,重新定义图像自回归顺序,先概览全局再深入细节,这种由粗到细的逻辑顺序更自然且符合人类直觉。2、在实验中,VAR 架构实现了让 GPT 风格的自回归模型在图像生成首次超越扩散模型。① 研究者在 Conditional ImageNet 256x256 和 512x512 上实验对比了 VAR 和其他生成式模型。② VAR 最高实现了 FID=1.80 分值,逼近理论上的 FID 下限 1.78(ImageNet validation set),显著优于 DiT(FID=2.10)③ VAR 只需不到 0.3 秒即可生成一张 256x256 图像,速度是 DiT 的 45 倍;在 512x512 的生成速度则是 DiT 的 81 倍。3、研究者还通过实验观察到 VAR 展现出与 LLM 几乎完全一致的 Power-Law Scaling Law。① 研究者训练了 12 种大小的模型,参数量覆盖 1800 - 20 亿,总计算量跨 6 个数量级,最大总 token 数达到 3050 亿。② 研究者观察发现测试集损失于参数规模间展现了平滑的的幂律(Power-Law)关系,并拟合良好。③ 通过测试对比,DiT 大模型在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限;而 VAR 经过 scale up 到 20 亿参数,性能不断提升,最终触及 FID 下限。
图:VAR Transformer 伴随模型尺寸(N) 的 Scaling Law,幂律拟合以虚线表示,方程可见图例。其中,接近零的小指数 α 表明,当增大 VAR Transformer 尺寸时,测试损失 L 和标记误差率 Err 都会平稳下降。坐标轴均为对数刻度。皮尔逊相关系数接近 -0.998,表明 log(N) 与 log(L) 或 log(N) 与 log(Err) 之间存在很强的线性关系。[1]1、VAR 模型采用自回归方法,其设计灵感来源于人类感知和创作图像的方式,即从全局到局部,从粗略到精细。① 这种「以人为本」的「下一尺度预测」的生成策略,这允许模型更有效地捕捉图像的视觉分布。② 传统的图像自回归模型采用光栅扫描顺序(raster-scan order)来逐个预测图像 token,虽适合计算机处理,但不符合人类直觉。2、VAR 的训练过程含两个阶段,第一阶段训练一个多尺度量化自动编码器(VQVAE),将图像转化为离散的 token map,并通过连续化和解码重建图像。第二阶段则训练出类似 GPT-2 的自回归 Transformer,并使用 AdaLN 技术。3、训练过程中,VAR 模型通过多尺度 VQVAE 将图像编码为多个不同分辨率的 token maps,然后自回归地生成。这种方法保持了图像的空间局部性,并且可以并行生成同一尺度内的标记。4、传统的 AR 模型需要对每个像素进行自回归预测,其计算复杂性较高,通常是 O(n^2)的迭代次数和 O(n^6)的总计算量,其中 n 是图像的分辨率。VAR 模型通过多尺度预测,可将计算复杂性降低到 O(n^4)。5、就 VAR 的未来机会,北大和字节的研究者 VAR 模型与 LLMs 在本质上相似,因此可以轻松地与它们集成,以通过编码器-解码器或上下文方式执行文本到图像的生成。这会是团队当前优先探索的研究方向之一。① 虽然 VAR 没有实现视频生成,但研究者认为通过将多尺度视频特征视为 3D 金字塔,可以自然地扩展 VAR 模型以生成视频。VAR 模型在处理长期依赖性方面具有潜在优势,这使得它在视频生成领域具有竞争力。6、VAR 的表现和幂律 scaling effectiveness 引起了社区的热议。在感慨的同时,也有网友指出 VAR 可能存在的局限。