让人物动起来！南大/复旦/阿里提出Champ：人体视频生成新SOTA！

国际科技财经移民娱乐民生时事体育

Bendi新闻

9月前

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/扩散和多模态】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

一张照片 + 一段视频，就能让照片活起来！

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。

目前 Champ 已经开源推理代码与权重，用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线，封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集，感兴趣的小伙伴可以持续关注项目动态。

项目主页：https://fudan-generative-vision.github.io/champ/
论文链接：https://arxiv.org/abs/2403.14781
Github 链接：https://github.com/fudan-generative-vision/champ
Hugging Face 链接：https://huggingface.co/fudan-generative-ai/champ

先来看下 Champ 在真实世界人像上的视频效果，以下图左上角的动作视频为输入，Champ 能让不同的人像「复制」相同的动作：

虽然 Champ 仅用真实的人体视频训练，但它在不同类型的图像上展现了强大的泛化能力：

黑白照片，油画，水彩画等效果拔群，在不同文生图模型生成的真实感图像，虚拟人物也不在话下：

技术概览

Champ 利用先进的人体网格恢复模型，从输入的人体视频中提取出对应的参数化三维人体网格模型 SMPL 序列（Skinned Multi-Person Linear Model），进一步从中渲染出对应的深度图，法线图，人体姿态与人体语义图，作为对应的运动控制条件去指导视频生成，将动作迁移到输入的参考人像上，能够显著地提升人体运动视频的质量，以及几何和外观一致性。

针对不同的运动条件，Champ 采用了一个多层运动融合模块（MLMF），利用自注意力机制充分融合不同条件之间的特性，实现更为精细化的运动控制。下图中展示了该模块不同条件的注意力可视化结果：深度图关注人物形态的几何轮廓信息，法线图指示了人体的朝向，语义图控制人体不同的部分的外观对应关系，而人体姿态骨架则仅关注于人脸与手部的关键点细节。

另一方面，Champ 发现并解决了人体视频生成中一直被忽略的体型迁移的问题。此前的工作或是基于人体骨骼模型，或是基于输入的视频得到的其他几何信息来驱动人像的运动，但这些方法都无法将运动与人体体型解耦，导致生成的结果无法与参考图像的人体体型匹配。

例如，给定一个大胖作为参考图像得到的如下图 7 所示的对比结果：

可以看到，Animate Anyone 与 MagicAnimate 的生成结果中，大胖的大肚子被抹平，甚至骨架也有一些缩水。而 Champ 利用 SMPL 中体型参数，来将其与驱动视频的 SMPL 序列进行参数化的体型对齐，从而在体型，动作上都取得了最佳的一致性（图中 with PST）。

实验结果

如下表 4 所示，与其他的 SOTA 工作相比，Champ 具有更好的运动控制以及更少的伪影：

同时，Champ 还展现了其优越的泛化性能与外观匹配上的稳定性：

在 TikTok Dance 数据集，Champ 评估了图像生成与视频生成的量化效果，它在多个评估指标上均有较大的提升，如下表 1 所示。

更多技术细节以及实验结果请参阅 Champ 原论文与代码，也可在 HuggingFace 或下载官方源码动手体验。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和多模态学习交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者多模态+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer5555，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

来源：CVer

让人物动起来！南大/复旦/阿里提出Champ：人体视频生成新SOTA！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/扩散和多模态】微信交流群

转载自：机器之心

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

相关新闻

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/扩散和多模态】微信交流群