Bendi新闻
>
字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

夕小瑶科技说 原创
作者 | 谢年年、python
扩散模型带动了文生视频领域的发展。Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等模型在文生视频界崭露头角。只需文本描述,就能轻松生成视频。让人不禁感叹,世界已经发展成这样了吗?

国内公司也不甘示弱,字节团队最近发布了一个新的多级文生视频框架——MagicVideo-V2,集成了文本到图像(T2I),图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块组成多级端到端视频生成pipeline,能够根据文本描述生成美观且高分辨率的视频,在人工评估中,其性能优于上面提到的一些明星文生视频产品

论文标题:
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

论文链接:
https://arxiv.org/pdf/2401.04468.pdf

先来看看效果到底如何~

更多示例与对比高清视频可在官方发布的链接中找到:
https://magicvideov2.github.io/

模型结构

如图所示,MagicVideo-V2,集成了文本到图像(T2I),图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块。

  • T2I模块根据文本描述创建了一个1024×1024图像。
  • I2V模块将此静止图像动画化,生成600×600×32帧序列,并预先使用latent noise prior确保初始帧的连续性。
  • V2V模块在细化视频内容的同时将这些帧增强到1048×1048分辨率。
  • 最后,插值模块VFI将序列扩展到94帧,得到一个1048×1048分辨率视频,既保证高质量,又具有时间平滑性。

接下来将具体看看每个模块是如何实现的?

文本到图片模块(Text-to-Image)

T2I模块以用户的文本提示作为输入,生成1024 × 1024的图像作为视频生成的参考图像。参考图像有助于阐述视频内容和风格。MagicVideo-V2兼容不同的T2I型号,使用内部开发的基于扩散的MagicVideo-V2中的T2I模型,可以输出高美感的图像。

图像到视频模块(Image-to-Video)

I2V模块建立在Stable Diffusion1.5版本基础上,该版本利用人类反馈来提高模型在视觉质量和内容一致性方面的能力。

I2V模块搭载了参考图像嵌入模块,通过调整外观编码器来提取嵌入信息,并利用交叉注意力机制将其融入模块中。这使得图像提示能够与文本提示有效分离,为图像提供更强大的条件。

此外,作者采用潜在噪声先验策略,为起始噪声潜在值设定布局条件。帧从标准高斯噪声中初始化,均值逐渐向参考图像潜在值偏移。适当的噪声先验技巧使得图像布局得以保留,并提升帧间的时序一致性。

为进一步强化布局和空间条件,作者部署了ControlNet模块,从参考图像中直接提取RGB信息并应用于所有帧。这些技术确保帧与参考图像精准对齐,同时使模型能够生成清晰的运动。

作者还采用了图像-视频联合训练策略来训练I2V模块,将图像视为单帧视频。联合训练利用内部的高质量和美学图像数据集,提高生成视频的帧质量。图像数据集有效地弥补了视频数据集在多样性和数量上的不足。

视频到视频模块(Video-to-Video)

V2V模块与I2V模块设计相似,采用相同的骨干和空间层。其运动模块经过高分辨率视频子集的微调。同时采用图像外观编码器和ControlNet模块,确保视频帧在更高分辨率下生成。参考图像的信息有助于减少结构误差和失败率,同时增强高分辨率下的细节表现。

视频帧插值(VFI)

VFI模块基于GAN的VFI模型训练得到,采用增强型可变形可分离卷积(EDSC)头与VQ-GAN配对,类似于自动编码器模型。为提高稳定性和流畅性,还采用了预先训练的轻量级插值模型。

实验结果

人类评估

为了评估MagicVideo-V2,作者组织了61名评估人员,与最先进的T2V系统进行对比。进行了500次随机比较实验,每次选取MagicVideo-V2和T2V使用相同文本提示生成的视频,评估人员从“好”、“一样”和“坏”中选择,分别代表对MagicVideo-V2的偏好、无偏好和偏好另一个T2V产品。

评估指标包含三类::1)哪个视频具有更高的帧质量和整体视觉吸引力。2)哪个视频的时间一致性更强,运动范围和运动有效性更好。3)哪个视频结构错误少,或者情况不好。

实验结果如下表所示,从人类视觉感知的角度,MagicVideo-V2明显优于其他产品。

除此之外,作者还展示了MagicVideo-V2的I2V和V2V模块的一大优势——擅长于纠正和完善T2I模块的缺陷,制作流畅美观的视频。

比如将初始的狗修正为猫。

一只灰色的英国短毛猫在时代广场玩滑板,立体派绘画风格.

铁人的多余手臂被I2V和V2V模块移除。

V2V模块细化树的细节和场景亮度,分辨率更高。

V2V模块增强画面细节与分辨率,视频更清晰。

不同产品示例对比展示

除了定量分析,作者还展示了不同文生视频产品在相同文本提示下生成的视频对比情况。以下的动图从左到右依次为MagicVideo-V2、SVD-XT、Pika 1.0、Gen-2产生的结果。

从以上对比图中可以看到MagicVideo-V2生成的视频在动作上更加流畅,且色彩饱和度更高,画面细节更好。但要说更喜欢哪一种,属于仁者见仁智者见智,小编觉得不同产品侧重点不一样,比如SVD-XT生成的视频更偏写实风,更像真实拍摄的场景。

你更喜欢哪一种呢?欢迎在评论区讨论~

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会比特币涨超7万2刷新历史!关注明日美国最新通胀率最新!超2000人被活埋!澳洲附近突发大灾难,至今寻获5遗体1条腿!紧急求援,澳洲伸援手…脱发人数已超2.5亿!Science最新发现:脱发的人最容易缺这种维生素!清仓361°鞋全场89;得力双层工具箱9.9!决战情人节超薄24只9.9福利大放送 | 女神节超光子$299, 买就送!最强特惠来了!太突然!字节最新业绩曝光:2224亿,第一清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航字节营收超腾讯! Tiktok官宣: 2024业务扩张+人才扩招!3月最新!字节、腾讯、中银总部...200+公司开岗,最快2周拿Offer伦敦2大超出片沉浸展来袭:泡泡气球玩一天!全英1月活动合集:灯光节/啤酒节/冬季跑...超好玩!财经早参丨最新!特朗普被处以超3.5亿美元罚款;租房10天花2万,退房要把马桶擦干净?当地通报;薛之谦回应“盗摄”事件精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!最新!国际航班传来利好消息,有航司恢复情况已超2019年!CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!京东物流001号员工火了,京东最新回应:近百名快递小哥三年收入超百万!还有人三年收入超200万……老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万大学老师上课放视频超8分钟,是教学事故!全院绩效扣20%TESLA特斯拉2024春招开启!外企500强,行业巨头,六险一金,超多节假日福利,偏爱留学生!2024医美年货节首炸!399到手全模式超光子+嗨体2.5+水光!8点1氪:7195名投资者获赔2.8亿开始到账;饿了么否认与字节跳动接洽收购;微软超苹果成为市值最高公司
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。