Bendi新闻
>
微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

 夕小瑶科技说 原创
 作者 | 任同学

还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦:

比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好

现在 Microsoft Research 推出了VASA-1项目,同样是单张人像照片+语音音频=超现实的说话脸视频,但是性能SOTA!

VASA-1 可实现精确的唇声同步,逼真的面部行为,自然的头部运动,并支持实时生成!

据作者报道,该 VASA-1 不仅能够产生与音频同步的嘴唇动作,而且还能够捕捉到大量的面部细微差别和自然的头部动作,从而有助于感知真实性和人物状态。

可以看到表情非常到位,特别是那灵活的小眼神!

相比之前的高启强普法视频,眼神、眉毛的动作显然要自然很多。

更好的可控性

VASA-1 的一个显著的特性是它可以接受可选信号作为条件,如主眼睛注视方向和头部距离,以及情绪偏移。这不仅增强了可玩性,重要的是动画效果更加自然!

▲不同主注视方向(前、左、右、上)下的生成结果
▲不同头距尺度下的生成结果
▲不同情绪(分别为中性、快乐、愤怒、惊讶)下的生成结果

非常优秀的分布外泛化能力

对于分布外的照片,比如油画、动漫中的人物,也一样可以让他或自然或鬼畜的说话!

实时生成高质量内容

不仅生成的效果非常逼真,VASA-1更是支持在离线批处理模式下以45fps的速度生成512x512大小的视频帧,在在线流媒体模式下可以支持高达40fps的视频帧,前延迟仅为170ms!

官方的展示demo中丝滑的生成过程以及丰富的可编辑选项都能看出这项工作的成熟度,真是把吃瓜群众都给看急眼了,究竟啥时候才能玩啊。

什么是VASA-1

区别于以往的方法,VASA-1不直接生成视频帧,而是根据声音和其他信号在潜在空间中生成整体面部动态和头部运动。

VASA-1 的面部解码器将这些动作潜在编码生成视频帧,同时也将从输入图像中提取的外观和身份特征作为输入。

在论文中,作者还研究了音频和头部姿态之间的同步性测量问题,并提出了一种新的度量方法,称为“Contrastive Audio and Pose Pretraining”(CAPP)分数。

据作者介绍,这个方法受到了CLIP模型的启发,它通过联合训练一个姿态序列编码器和一个音频序列编码器来工作,其目标则是预测输入的姿态序列和音频是否配对。其中的音频编码器是基于一个预训练的Wav2Vec2网络初始化的,而姿态编码器是一个随机初始化的6层 transformer。

该 CAPP模型在大约2000小时的真实生活音频和姿态序列上进行了训练,并且展示了强大的能力来评估音频输入和生成的姿态之间的同步程度。

或者正是通过这种音频和头部姿态的对齐预训练才使得 VASA-1具有这么逼真的生成效果吧!

怎么还不开源?

微软表示,在还不能避免技术滥用的情况下,他们不打算发布在线演示、API、产品、其他实现细节或任何相关产品,直到确定该技术将被负责任地使用。或者这也是阿里的 EMO 迟迟没有更新 github 的原因吧?那为啥腾讯就发布了捏?

参考资料

[1]https://x.com/bindureddy/status/1780737428715950460 

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩8点1氪:7195名投资者获赔2.8亿开始到账;饿了么否认与字节跳动接洽收购;微软超苹果成为市值最高公司微软发布Phi-3,性能超Llama-3,可手机端运行让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!突发!DeepMind联创空降微软:统领AI团队,还掏空了OpenAI劲敌谷歌发布AI视频生成模型;传微软组建新GenAI团队;蚂蚁成立AI创新部门丨AIGC大事日报小模型时代来了?微软最小参数AI模型发布,性能逼近 GPT-3.5马斯克起诉OpenAI:他们做出了AGI还授权给微软,这是对创始协议赤裸裸的背叛微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5微软开抢年收入上亿美元的 Redis 饭碗?开源性能遥遥领先的 Garnet:无需修改,Redis 客户端可直接接入统一所有模态的3D范式来了!Any2Point:仅需训练1%的参数量,超越SOTA!最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTASora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂一大波北京AI重磅成果发布!5年投资超1000亿,最高重奖1亿元,北大清华百度蚂蚁微软大佬齐聚AI盛会微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力AI赋能天气:微软研究院发布首个大规模大气基础模型AuroraOpenAI被曝帮苹果Siri换脑,微软急了:CEO约谈奥特曼最适合写代码的等宽字体Cascadia Code——三年来首次大版本更新:由微软开源、新增两款Nerd字体CVPR 2024 | 微软新作StarNet:超强轻量级Backbone向Redis宣战?微软开源Garnet,性能提升几十倍!顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能微软Copilot Pro来了:个人用户也能在Word里用GPT-4,20美元/月
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。