Bendi新闻
>
一张照片,为深度学习巨头们定制人像图片

一张照片,为深度学习巨头们定制人像图片

8月前

机器之心专栏

作者:InstantX 团队



主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。

为了解决这些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。


  • 论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds

  • 论文地址:https://arxiv.org/abs/2401.07519

  • 代码地址:https://github.com/InstantID/InstantID
  • 项目地址:https://instantid.github.io

InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

下图为利用 InstantID 进行风格化的结果,输入仅为最左侧的人物图像。


文章的主要贡献如下:

(1) InstantID 作为一种全新的 ID 保留方法,有效弥补了训练效率与 ID 保真度之间的差距。
(2)InstantID 是可插拔的,与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容,可以零成本地在推理过程中保持人物 ID 属性。此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。
(3)实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际应用中的巨大潜力,例如新颖的视图合成、ID 插值、多 ID 和多风格合成等。


方法介绍

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时保证高保真度。上图概述了我们的方法。它包含三个关键组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功能的交叉注意力,支持 Image Prompt;(3) IdentityNet,引入额外的弱空间控制对参考面部图像的复杂特征进行编码。

1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以我们采用预训练的人脸编码器来提取人脸特征。在本文中,我们使用来自 insightface 提供的 antelopev2 模型来提取人脸特征。

2. 如先前方法所述,预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,我们采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于我们使用人脸特征,而非 CLIP 表征。

3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改:1)只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。2)我们消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

实验结果

作者首先展示了方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。


同时该方法也支持多张图注入,来进一步提升效果。


InstantID 与目前社区内主流的三类方法进行对比。

(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。而我们提出的 InstantID 兼顾了人脸保真度和文本控制能力。


(2)基于微调的人物 LoRAs


(3)非扩散模型的换脸模型 inswapper


此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。

(1)多视角生成


(2)ID 插值


(3)多 ID + 多风格的生成


衍生应用玩法


基于高性能的人像注入和编辑能力,InstantID可以支持很多衍生应用玩法

(1)快速低门槛的真人写真


(2)夸张五官人像定制



(3)非人像混合定制






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

年年被传去世,他却凭一张照片震撼了1000w人:为热爱而死,是一种恩赐Midjourney V6超进化,大神网友深度评测来了!画质逼真到可怕,人像图片令人惊呆AI 换脸项目 Deep-Live-Cam 一夜爆火:只需一张照片,变身马斯克直播卢浮宫举行奥运晚宴,欧洲王室齐聚,小丽靠一张照片秒杀全场!突发:澳币飙涨!要破这个数!留学圈刷屏!澳洲一张照片揭露真相,真活不起了...周杰伦在澳洲,也得买打折商品过日子!一张图片,揭露了澳洲残酷真相...大批华人举家搬回中国! 直呼在澳生活艰难! 一张照片疯传网络, 数百墨尔本人排队领免费食物! 揭露当下的“悲惨现实”...噩耗!澳洲跌至34年最差!大批华人放弃澳洲,举家回国!一张照片引爆全网...噩耗!美国传奇宇航员坠机身亡!曾用一张照片改变世界!就在刚刚!一张图片揭露了澳洲惨烈真相!大批华人正在逃离他用一张照片改变世界!阿波罗8号宇航员意外去世,享年90岁噩耗!美国传奇宇航员在加拿大坠机身亡!曾用一张照片改变世界!凯特今年都不会出现?!友人透露治疗顺利,网友却质疑:一张照片都没办法发布?Kibana(一张图片胜过千万行日志)被一张照片震动,谁说3岁以前没有记忆!日本母亲节广告被喷到连夜下架,网友为一张车票吵翻了天……澳洲25年来最惨!血崩!华人哀嚎一片!一张图片引发热议,这个数字飙升了一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人凯特王妃露面!一张照片击碎所有阴谋论大结局!"消失的凯特王妃" 终于露面!一张照片击碎所有阴谋论...突发!凯特王妃露面!一张照片击碎所有阴谋论!目击者称她看上去…突发!凯特王妃露面!一张照片击碎所有阴谋论凯特在商店被偶遇,全网都翻不出一张照片?动物不会撒谎,也许小狗已经透露了真相......
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。