Bendi新闻
>
让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!

让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!

3月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散和多模态】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:机器之心

一张照片 + 一段视频,就能让照片活起来!
近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。

目前 Champ 已经开源推理代码与权重,用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线,封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集,感兴趣的小伙伴可以持续关注项目动态。

  • 项目主页:https://fudan-generative-vision.github.io/champ/

  • 论文链接:https://arxiv.org/abs/2403.14781

  • Github 链接:https://github.com/fudan-generative-vision/champ

  • Hugging Face 链接:https://huggingface.co/fudan-generative-ai/champ


先来看下 Champ 在真实世界人像上的视频效果,以下图左上角的动作视频为输入,Champ 能让不同的人像「复制」相同的动作:


虽然 Champ 仅用真实的人体视频训练,但它在不同类型的图像上展现了强大的泛化能力:


黑白照片,油画,水彩画等效果拔群,在不同文生图模型生成的真实感图像,虚拟人物也不在话下:


技术概览

Champ 利用先进的人体网格恢复模型,从输入的人体视频中提取出对应的参数化三维人体网格模型 SMPL 序列(Skinned Multi-Person Linear Model),进一步从中渲染出对应的深度图,法线图,人体姿态与人体语义图,作为对应的运动控制条件去指导视频生成,将动作迁移到输入的参考人像上,能够显著地提升人体运动视频的质量,以及几何和外观一致性。



针对不同的运动条件,Champ 采用了一个多层运动融合模块(MLMF),利用自注意力机制充分融合不同条件之间的特性,实现更为精细化的运动控制。下图中展示了该模块不同条件的注意力可视化结果:深度图关注人物形态的几何轮廓信息,法线图指示了人体的朝向,语义图控制人体不同的部分的外观对应关系,而人体姿态骨架则仅关注于人脸与手部的关键点细节。



另一方面,Champ 发现并解决了人体视频生成中一直被忽略的体型迁移的问题。此前的工作或是基于人体骨骼模型,或是基于输入的视频得到的其他几何信息来驱动人像的运动,但这些方法都无法将运动与人体体型解耦,导致生成的结果无法与参考图像的人体体型匹配。


例如,给定一个大胖作为参考图像得到的如下图 7 所示的对比结果:



可以看到,Animate Anyone 与 MagicAnimate 的生成结果中,大胖的大肚子被抹平,甚至骨架也有一些缩水。而 Champ 利用 SMPL 中体型参数,来将其与驱动视频的 SMPL 序列进行参数化的体型对齐,从而在体型,动作上都取得了最佳的一致性(图中 with PST)。


实验结果


如下表 4 所示,与其他的 SOTA 工作相比,Champ 具有更好的运动控制以及更少的伪影:



同时,Champ 还展现了其优越的泛化性能与外观匹配上的稳定性:


在 TikTok Dance 数据集,Champ 评估了图像生成与视频生成的量化效果,它在多个评估指标上均有较大的提升,如下表 1 所示。


更多技术细节以及实验结果请参阅 Champ 原论文与代码,也可在 HuggingFace 或下载官方源码动手体验。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

让人物跳起来!华科&阿里巴巴提出UniAnimate:人类跳舞视频生成新框架!支持合成一分钟高清视频!ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好复旦发布公开匿名评测平台:3D生成模型同台竞技,魁首究竟花落谁家!北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源3B模型新SOTA!开源AI让日常调用不同大模型更简单孟德尔随机化这么火,现在入场还来得及吗?复旦医学院博士:来得及!GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划果然:复旦流浪博士全是剧本!AI首次实时生成视频!尤洋团队新作,网友:这是新纪元Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!加快410倍!字节豆包新工作TiTok:全新图像Tokenizer!生成图像最低只需32个token顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具​【社会】法国议员新提案:让小偷“露脸”!RoboUniview :视觉语言大模型控制机器人新SOTA!突破机器人相机限制!硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。