Bendi新闻
>
Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

6月前
作者|周一笑,丸丸柚贝

编辑|王兆洋

可媲美Sora的中国文生视频模型,就这么来了。
4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。
据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。
生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。
但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:
Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
言下之意,还说生数科技是“中国sora”,就有点太没想象力了。
生数的野心比这更大。

1

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:
“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。
据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。
这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。

经典走路名场面

Sora这个街头美女走路的视频也是刷爆了各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!
首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。

Vidu

Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。
Vidu

Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。
另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。
Vidu

Sora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!
Vidu

Sora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。
Vidu

Sora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理也相当不错。
Vidu

Sora

猫和人
Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。
Vidu

Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。
而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。
Vidu:“画室里的一艘船驶向镜头”
‍‍

Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”

宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。
Vidu

Sora


1

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?
这看起来的突破其实是生数长期积累的结果。
OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。
在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。

图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。
但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。
另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。
这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。
Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。
除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。
在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。
据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。
此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。
正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。
实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。
从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。
“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”
除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。
至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:
敬请期待。
点个在看,再走吧👀

微信扫码关注该文公众号作者

来源:硅星人Pro

相关新闻

【早鸟售票|开幕式嘉宾揭晓】2024哈佛中国教育论坛 “人文与科技:迎接教育新浪潮”【年货节来了!】2024美丽从头“发”生,仁生泽发微信群“BU租房群”,有需要的可以加一下!【内附租房助手】微信群“NEU租房群”,有需要的可以加一下!【内附租房助手】微信群“波士顿租房2024”,有需要的可以加一下!【内附租房助手】【交通安全】​“我就这点私房钱,全给你了”老婆突发奇想“阳台封一半,留一半”,完工拥有绝美双阳台,太明智了!【装修干货】【城事】法国网红发声:如果不想“死”,今年夏天就千万别来巴黎!【今日天下0508】接连闭店 “高端西餐”在中国过气了;郑爽秀漫画腿;华人女娃被中美夫妻争抢7年,结局令人唏嘘!【视频】“加拿大现在到底发生了什么?”纽约人吐槽:不可思议!【玩具日报】英媒:欧美玩具八成仍是“中国制造”;阿里鱼已与数百个国内外优质IP达成合作【亲历】外国人体验中国免签政策:25分钟内就离开机场【娱乐】英“2024最性感男人”出炉,又是这老头!?审美降级也太厉害了吧!【健康】花粉“升级”了!中招人数比以往任何时候都多​【时事】“悉尼惨案”中国女留学生确认遇害,很快要做新娘;澳洲呼吁给见义勇为者公民身份【恐怖】“终结者”真的来了!史上最强暑假工,00后开始化身“金牌收割机”了 |【经纬低调分享】热热热,地球要变成“火球”了吗? |【经纬低调出品】【视频】没钱还装“大款”!男子带女友到华人餐馆狂点 不付款还打人【官方确认】“中国新冠疫苗之父”、国药首席科学家杨晓明被抓【治安】这位“天后”又在巴黎失窃了!这次丢了两只行李箱机票:【又来了】单程含税2599人民币,往返不到5000人民币~洛杉矶中国内地,原来厦航这些票是真的……【他来了,就没别人什么事了|Allston全翻新高级公寓】【BU校园楼|本科可|室内洗烘|步行5分钟上学】中超88,绿线旁【15天免费试睡】有了它,“消灭”了伴侣近20年的鼾声!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。