快手开源 I2V-Adapter，即插即用、轻量级模块让静态图像秒变动态视频

7月前

作者 | 快手大模型团队

快手开源图像生成视频技术 I2V-Adapter。I2V-Adapter 是基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块。该模块能够在不需要改变现有文本到视频生成（T2V）模型原始结构和预训练参数的情况下，将静态图像转换成动态视频。

研究背景

电影，从黑白默片的古朴典雅到特效大片的视觉盛宴，是人类艺术史上不可或缺的一环。然而，其诞生之初，竟源于一场关于马匹奔跑时四蹄离地状态的打赌。1872 年，斯坦福与科恩的这场打赌，让摄影师穆布里奇利用 24 架照相机捕捉了马匹奔跑的连续瞬间，进而通过连续放映这些照片，赋予了静态图像生命，开创了电影艺术的先河。

如今，在计算机视觉领域，静态图像到动态视频（I2V）任务同样面临着巨大的挑战。其核心在于如何从单一的静态图像中提炼出动态的时间维度信息，并确保所生成的视频在真实性和视觉连贯性上达到高度一致。为了实现这一目标，当前的 I2V 方法大多依赖于复杂的模型架构和庞大的训练数据集。例如 Stable Video Diffusion（SVD），通常采用的策略是扩展文本到视频生成（T2V）模型的输入层维度，通过在扩展的维度上输入参考图像来注入图像信息。然而，这种方法需要对模型架构进行修改，导致整个模型需要重新训练，带来了巨大的计算和时间成本。Stable Video Diffusion 模型需要训练 1.5 亿个参数，累计训练迭代次数高达 33 万次，并消耗了 1000 万的数据量。更为复杂的是，由于重训练涉及到了控制图像空间排布的空间模块和风格化组件，如 ControlNet 和 DreamBooth 等，不再适配该模型，限制了其应用范围和效率。

研究方案

基础模型

相较于图像生成，视频生成的独特挑战在于建模视频帧间的时序连贯性。现有大多数方案都基于预训练的文本生成视频（T2I）扩散模型（例如 Stable Diffusion 1.5 和 SDXL）加入时序模块对视频中的时序信息进行建模。例如 AnimateDiff，一个为定制化 T2V 任务而设计的模型，它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力，能够结合定制化 T2I 模型生成流畅的视频。于是，研究者认为，预训练时序模块可以作为通用时序表征，并应用于其他视频生成场景，例如 I2V 生成，且无需任何微调。

I2V-Adapter 正式开源

为了突破这一技术瓶颈，快手 AI 团队在最新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》中，提出了一种适用于基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块（即 I2V-Adapter），该模块能够在不需要改变现有文本到视频生成（T2V）模型原始结构和预训练参数的情况下，将静态图像转换成动态视频。这一成果不仅展示了 I2V 技术的巨大潜力，也为该领域的研究提供了新的思路。目前该论文已被 SIGGRAPH 2024 接受，项目也已开源。

GitHub 地址：

https://github.com/KwaiVGI/I2V-Adapter

论文地址：

https://arxiv.org/abs/2312.16693

I2V 任务相对于 T2V 的一大主要难点在于保持输入图像的 ID 信息，现有方案为解决这一问题，往往需要改变模型的结构与参数，训练代价大且兼容性较差。

I2V-Adapter 提出将输入图像作为视频首帧与噪声并行输入给网络，在模型的空间模块（Spatial Block）中的自注意力层（Self Attention），所有帧都会额外查询一次首帧信息，即 key，value 特征都来自于不加噪的首帧，输出结果与原始模型的自注意力结构相加。此模块中的输出映射矩阵使用零初始化以实现 T2V 初始化，并且只训练输出映射矩阵与 query 映射矩阵以实现高效的训练效率。为了进一步加强模型对输入图像语义信息的理解，研究论文还在交叉注意力层（Cross Attention）中引入了一种 Content-Adapter（本文使用的是预训练的 IP-Adapter）注入图像的语义特征。

Frame Similarity Prior

为了进一步增强生成结果的稳定性，I2V-Adapter 提出了帧间相似性先验（Frame Similarity Prior），用于在生成视频的稳定性和运动强度之间取得平衡。其关键假设是，在相对较低的高斯噪声水平上，一段视频的不同帧之间足够接近，如下图所示：

因此，可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导，研究者还使用了高斯模糊算子（GaussianBlur）和随机掩码混合输入。具体运算由下式给出：

实际效果

快手 AI 团队为了全面评估生成视频的质量，设定了四种定量指标，包括 DoverVQA（美学评分）、CLIPTemp（首帧一致性）、FlowScore（运动幅度）以及 WarppingError（运动误差）。这些指标从不同维度对生成的视频进行了全方位的评价。在最近的研究中，I2V-Adapter 模型在各项指标上均展现出了卓越的性能。如表 1 所示，I2V-Adapter 在美学评分上获得了最高分，显示出其生成的视频在视觉美学上具有出色的表现。同时，在首帧一致性方面，I2V-Adapter 同样表现出色，远超其他对比方案。值得一提的是，I2V-Adapter 生成的视频不仅运动幅度最大，而且运动误差相对较低。这意味着该模型在生成高度动态视频的同时，还能精准地保持时序运动的准确性。

Image Animation（左为输入，右为输出）：

w/ Personalized T2Is（左为输入，右为输出）

w/ ControlNet（左为输入，右为输出）

业务应用

I2V-Adapter 展现了其卓越的多功能性，不仅适用于广泛的 I2V 任务场景，还能与定制化的 T2I 模型结合，实现独具特色的风格化 I2V 任务。更值得一提是，它还能与 ControlNet 兼容，为用户带来高度可控的 I2V 体验。

快手与联发科技深化合作，

共同推进视频生成技术的革新

视频生成技术如今已不仅仅局限于 App 应用层面，它在端侧同样取得了令人瞩目的成就。近日，快手与全球领先的半导体公司联发科技达成技术合作，共同探索并推进视频生成技术的革新。通过此次合作，快手将其先进的 AI 模型 I2V Adapter 与联发科技的 Dimensity 平台强大的 AI 计算能力结合，实现将静态照片转化为生动影片。用户只需简单挑选照片，平台便能智能识别照片中的人物和场景，通过深度分析精准捕捉关键帧，并据此生成自然流畅、栩栩如生的视频效果。

此外，该平台还支持个性化定制，提供了丰富多样的动画风格、精选的背景音乐和个性化的文字添加功能，让用户能够自由发挥创意，打造出独一无二的影片作品。无论是记录生活点滴，还是展现个人风采，这一平台都能满足用户的多样化需求，让视频生成变得更加简单、有趣和个性化。

展望未来

I2V-Adapter 以其独特的即插即用特性，为图像到视频生成任务带来了革命性的轻量级扩散模型模块。它巧妙地保留了原始文生视频模型的结构与参数不变，仅通过引入额外设计的注意力机制，使得生成的视频帧能够与用户输入的图像视频首帧交互，从而产生时序连贯且与首帧一致的视频。令人瞩目的是，通过定量实验验证，I2V-Adapter 在仅训练 1% 的参数量和使用 18% 的数据量的情况下，便达到了与 SVD 相媲美的图像到视频生成能力。此外，其灵活的解耦设计赋予了该方案出色的兼容性，使得 DreamBooth、Lora 与 ControlNet 等模块能够无缝集成，为用户提供高度定制化和可控的图像到视频生成体验。

内容推荐

新应用时代，融合AI技术的应用开发变得更加复杂。在6月14日至15日的ArchSummit全球架构师峰会上，来自字节、百度和腾讯云等知名企业的资深架构师分享了他们如何运用AI模型及技术管理手段，解决实际问题。「AI前线」精选了大会上聚焦AI模型及其应用开发的系列PPT，关注「AI前线」，回复关键词「应用开发」免费获取。

活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会，汇聚顶尖企业专家，深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名，6 月 30 日前可以享受 8 折优惠，单张门票节省 960 元（原价 4800 元），详情可联系票务经理 13269078023 咨询。