Bendi新闻
>
LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity

LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity

9月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术/投稿/求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

转载自:极市平台

导读

 

来自大连理工大学的IIAU团队提出StableIdentity,允许用户只需上传一张图片,通过优化学习身份,即可结合包含动作、背景、风格的文本提示实现图像定制生成,并且无需微调即可插入视频/3D生成。 

project page:https://qinghew.github.io/StableIdentity/

paper:https://arxiv.org/abs/2401.15975

github(代码即将开源)

https://github.com/qinghew/StableIdentity

最近,来自大连理工大学的IIAU团队提出StableIdentity,允许用户只需上传一张图片,通过优化学习身份,即可结合包含动作、背景、风格的文本提示实现图像定制生成,并且无需微调即可插入视频/3D生成。

Yann LeCun也点赞转发,调侃自己从没戴过这样的帽子。

一、引言:

随着扩散模型的发展,定制化生成任务受到广泛关注。这项任务旨在为文本到图像模型注入新的主题(如身份),并在对齐输入文本提示的同时,生成在不同语境下主题一致的图像。例如,用户可以上传自己的照片以获得有趣的图片,如 "穿着超人服装"。定制生成的成功可以促进许多应用,如个性化肖像照片虚拟试穿和艺术设计。

然而,现有的定制方法是通过微调模型的部分/全部参数或学习通用编码器来解决这一问题的。参数微调方法需要花费很长时间来搜索最佳参数,但往往会返回一个不准确的平凡解来表示身份。尤其是在只有单张图像的情况下,这些方法往往会过拟合输入图像,导致可编辑性下降。另外,基于编码器的方法需要大规模的数据集进行训练,很难捕捉到独特的身份和细节。此外,目前的方法所学习到的身份在不同的语境下容易与目标身份不一致。因此,迫切需要提出一种新的框架来解决这一任务所面临的巨大挑战(如身份保持不稳定、可编辑性差等)。

二、方法

在这项工作中,研究者们提出了 StableIdentity,如图所示,给定一张输入人脸图像,它将身份先验和可编辑先验集成到了人的定制生成中,旨在通过优化学习可以表示目标身份的词向量。

具体来说,本文首先引入了一个经过人脸识别任务预训练的编码器来精确地捕捉身份表示。此外,研究者们收集了在Stable Diffusion中可以在不同上下文中生成一致身份的名人姓名,构建了统一维度的嵌入空间,以作为定制生成的先验身份分布。为了激励目标身份在预训练扩散模型中表现得像名人姓名一样,本文进一步将身份表示通过AdaIN落入到这一先验空间。

此外,为了学习更稳定的身份和细粒度重建,本文设计了一种two phase扩散损失,分别在降噪训练的前期和后期阶段分配专门的目标函数。其中降噪前期已被证明决定了生成图像的布局,因此前期使用原始的降噪损失以保证学到的身份可以适应多样的布局。降噪后期使用对预测的z_0的重建损失,以提升对输入图像的像素级感知,从而学习更稳定的身份。

三、实验结果

1.在实验环节,本文在多个指标上与6个baselines进行了定性和定量的对比。如图1和表4所示,本文的方法取得了最佳的人脸相似性、可编辑性、图像质量。

2.此外,本文进一步在与3D模型的结合上与同类型基于词向量的方法进行了对比,可以看出StableIdentity可以更好地插入到3D生成中。

本文用TSNE可视化了学到的身份编码与具有可编辑性的名人名字编码的2D分布。可以看出,本文的StableIdentity学到的embedding分布更加紧凑,更接近于真实的名人名字embedding的分布。

3.本文也用单张名人照片作为输入进行了实验,可以看出,学到的身份在图像/视频/3D上都表现不错。更多的结果可以在https://qinghew.github.io/StableIdentity/中查看

四、展望

这一方法可以直接与ControlNet等基于Stable Diffusion的即插即用的模块配合使用,甚至可以将学习到的身份插入现成的视频/3D生成的模型中,而无需进行微调即可产生出色的效果。这项工作被认为是统一图像、视频和3D定制化生成任务的重要一步。未来的工作将进一步探索通过更高效的方式学习泛化性强的身份表示,以更好地适应和解决实际应用中的挑战。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!

多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源硅谷有了自己的鲁迅!AI大佬LeCun连续暴走,从马斯克到OpenAI,全被怼了个遍ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测李飞飞、吴恩达、LeCun联名抗议加州AI限制法案!全球科技巨头研发投入大排行!第一名高达5000亿!LeCun表示Meta才是最看重研发的LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发图灵巨头再次决裂!Hinton支持的加州AI限制法案初步通过,LeCun李飞飞吴恩达喊打Hinton、LeCun、Bengio、清华马维英等人当选2023 ACM Fellow!LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯NeurIPS24评审结果遭全网吐槽,惊动LeCun!评审员打低分,严重贬低论文贡献DeepMind CEO称AI智力不如猫!LeCun持相同看法!曝光谷歌新项目AI将突破聊天限制12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界最猛AI独角兽:一年估值1700亿,再造一个OpenAI!马斯克LeCun却吵起来了原创 关注前沿科技 量子位最猛AI独角兽:一年估值1700亿,再造一个OpenAI!马斯克LeCun却吵起来了Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新「硅谷鲁迅」疯狂对线!AI大佬LeCun暴走,从马斯克到OpenAI,无差别狂怼马斯克与LeCun隔空开怼!竟上升到人身攻击!xAI最新估值240亿美元!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。