Bendi新闻
>
中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?

中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?

7月前

追赶 OpenAI 文生视频模型 Sora 需要多久?
在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。
Vidu 生成的视频 demo 甫一发布,便迅速在各大社交平台的热搜榜上「攻城略地」,被誉为效果层面最接近 Sora 的国内大模型。
中国版 Sora 来了,视频大模型 Vidu 登场
Sora 生成的视频之所以令人惊艳,很大程度上归功于其对真实物理世界运动的精确模拟,Vidu 也不遑多让。
以加速行驶在土路上的 SUV 为例,Vidu 生成的扬尘效果要比 Sora 更到位。
并且,无论是光线的反射,还是阴影的变化,Vidu 的每个画面都处理得恰到好处。
Vidu
Sora
在走路镜头的模拟上,Sora 和 Vidu 算得上棋逢对手。
视频中的人物走起路来自信淡然,特别是周围环境的渲染,如霓虹灯在潮湿街面水渍上的倒影,简直是加分项,让画面的逼真程度直线上升。
Vidu
Sora
Vidu 不仅能生成人物,还能生成走路的熊,人物一致性让人眼前一亮。
当涉及到动作协调性时,Sora 的表现要更胜一筹。Vidu 则自带 AI 的「顿挫感」,走路姿势略显僵硬,还需要「多加练习」。
多复杂镜头、多景别的切换是 Sora 拉开其他视频生成模型的一大杀招。
Vidu 在这方面也不甘示弱,尽管电视机画面的细节处理还有提升空间,但流畅的镜头转换犹如真人导演的精心编排。
画室里的一艘船随着海浪摇摆,木头玩具船在地毯上航行,Vidu 不仅脑洞大开,画面效果更是令人赞叹。


在理解中国文化元素上,Sora 生成的国外唐人街舞龙环节,画面细节丰富,整体文化氛围是拉满的。
Vidu 生成的「龙」更靠近西方世界的龙形象,在中国宫殿的建筑环境里稍微有些格格不入。
不过熊猫在湖畔弹吉他的画面,倒有些「忽闻江上弄哀筝」的意境。
Vidu
Sora
戴珍珠耳环的橙猫、优雅眼神杀、缓慢抬头、陶艺 DIY,视觉效果简直爆棚,让人分不清是现实还是电影场景。
清华打造,Vidu 先行一步
Vidu 是清华大学联合大模型创业公司生数科技,用两个半月交出的一份新答卷。
Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室原创架构上开花结果。
据证券时报消息, Vidu 发布后,清华大学 AI 研究院副院长、生数科技首席科学家朱军在朋友圈写下了上面这段话。
生数科技官方介绍称, Vidu 模型之所以取得快速突破,源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。
早在 2022 年 9 月,出于对标当时刚刚开源的 Stable Diffusion, 清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,里面提出了全球首个 Diffusion 与 Transformer 融合的架构,比 Sora 采用的 DiT 架构还要再早两个月。
到了去年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,一举实现了从简单的文生图扩展到图生文、图文改写等多种功能。
朱军曾透露,之所以选择先做图文任务,而不是视频生成,完全是基于算力的考虑和对技术成熟度的预判,但在图文领域的技术积累,也为后续长视频的爆发积攒了不少的经验。
生数科技官方介绍,正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验,团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术,成功研发出 Vidu 视频大模型。
3 月份的 Vidu 还只能生成 8 秒的视频,包括当时生数科技联创兼 CEO 唐家渝在媒体沟通会上表示,今年内一定能达到 Sora 目前版本的效果,但很难说是三个月还是半年。
如今,短短一个月过去,Vidu 再次在技术上迎来突破,不仅画面效果逼近 Sora 的水准,视频生成的时长也扩展到了 16 秒。
正如那句老话,起跑领先只是一时之快,大模型之战笑到最后才是赢家。
前不久,我们提到 OpenAI 和艺术家合作发布的七部专业级短片在影视界一石激起千层浪,让不少电影人感叹饭碗不保。
然而,与 Sora 合作的加拿大制作公司 Shy Kids 透露了 Sora 一些实际的内幕:从 Sora 生成的素材到最终成品之间的差距,不亚于「买家秀」和「买家秀」的区别。

具体来说,生成的原始素材与最终使用素材的比例高达 300:1,也就是说,为得到一秒的有效画面,制作团队需要并审查长达 300 秒的原始素材,对筛选和判断能力提出极高的要求。
这就好比,我们用 AI 来简化任务,却忘了先要教会 AI 怎么简化。
从原始素材的打磨到最终成品的诞生,还需要如同传统影视工作流一般,经过大量后期处理工作,以至于 Sora 的制作流程更适合于「先打枪后画靶子」——根据生成的素材「改剧本」,而不是按照剧本生成画面。
电影艺术的魅力,很大程度源自于导演对镜头语言的精妙运用。推拉摇移升降跟往往构成电影视觉叙事的骨架。
OpenAI 的研究人员最初在开发 Sora 的过程中,更多地将注意力集中在图像生成的技术层面,却没有考虑到创作者在实际应用中对镜头语言的需求。
Sora 这些「尚未成神」的状态,为其他竞争者,尤其是国内的研发团队提供了迎头赶上宝贵的时间窗口。一大批有望对标甚至超越 Sora 的大模型也正在涌现。
上个月,北大-兔展 AIGC 联合实验室发起了一项 Sora 的开源复现计划。现在 Open-Sora 已经支持单镜头生成长达 16 秒的视频生成,分辨率最高可达 720P。
并且该团队还声称支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。
与此同时,在 AI 视频生成技术的赛道上,腾讯的 VideoCrafter2、Morph Studio、NeverEnds 也都是国内发布类 Sora 产品的佼佼者。
Vidu 是国内第一个有希望追赶 Sora 的视频生成大模型,但也不会是唯一一个迎头赶上的大模型。



微信扫码关注该文公众号作者

来源:APPSO

相关新闻

中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户“中国版Sora”来了!仅需一张全身照,就可以原地“唱跳”,分辨率高达1080p!来看效果→口服版司美格鲁肽来了!能用来减肥吗?北京楼市新政来了!房子能买了吗?一个月两起!NZ航班接连出事,还能安心坐飞机吗?详细解答来了!谷歌地球被完爆?原来SU一键就能生成国内地形!特朗普是“魔鬼”吗?对华政策泄密!这次他憋了个大损招……80%清华毕业生出国?最新回应来了!又来了?!生成式AI在文娱界到底能掀起多大波澜?反向移民来了?加拿大夫妇移居中国,一呆就是十年!暴赞物价和医疗简直不要太好,天天下馆子,收入还暴涨!微软中国AI团队被打包去美国?回应来了!进度赶超大厂,中国最接近Sora的视频模型出自一家「清华系」公司|New Things重磅!H-1B“一人一抽”正式获批!对中国学生会是利好吗?美国变天!拜登退选,川普稳了?中国留学生的日子还能好过吗?吵翻天!全网群嘲澳洲大学“充多了”!2025QS世界大学排名公开!墨大、悉大力压清华,世界TOP20?网友:表情包来了...知名学者与顶级投资人领衔!视频、3D、音乐生成玩家都来了,中国生成式AI大会嘉宾阵容更新,4月开启!揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?头部新势力新车型将全系标配!4D成像雷达元年真来了?定了!中国对新西兰免签!对澳洲免签,还会远吗?清华毕业生“80%都出国了”?真相来了!警惕!小长假已有3人车祸死亡!后续来了!“辱华”车牌被撤销!有钱就能买?摄像头竟识别不出来这种黑牌……还是来了!加拿大移民局对临时居民“限量”!还在观望的你汗流浃背了吗?中国版“星链”有何亮点;网球团购订单激增!你打网球了吗?清华博士出家当和尚,父母下跪哀求不为所动,16年过去他后悔了吗?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。