Bendi新闻
>
郭德纲与马斯克合体,2024第一个爆火的Al写真为什么是它?

郭德纲与马斯克合体,2024第一个爆火的Al写真为什么是它?

9月前



郭德纲飙英语说相声、马斯克大佬秀中文采访...前段时间,这样的 AI 视频在各大平台传疯了。 


想象一下,如果他俩突然决定合体,会擦出什么样的火花? 


不得不说,AI 又进步了。最近小红书的开源力作 —— 爆火的「InstantID」,满足了网友们的“脑洞大开”。 


这个新开源的项目不光可以一张图生成写真,还能自定义融合两张脸。 





科技界与相声界的融合体,InstantID 诞生出的“郭斯克”,你最爱哪一款? 


如图,你可以看到 20% 的郭德纲 + 80% 的马斯克,甚至可以自由调整比例。



InstantID,是一款图像生成模型。用户只需要一张图片,便可在 30 秒内,轻松获得自己的多风格 AI 写真。 


自从小红书开源该项目以来,InstantID 在 Github 一周暴涨 4000+ star。 


它的颠覆性效果,也受到了深度学习领域的领军人物 Yann LeCun 的关注。



主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。


而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。 


为了解决这些问题,小红书 InstantX 团队提出了 InstantID,它不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。



论文标题:

InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址:

https://arxiv.org/abs/2401.07519

代码地址:

https://github.com/InstantID/InstantID

项目地址:

https://instantid.github.io/


在小红书发布的《InstantID: Zero-shot Identity-Preserving Generation in Seconds》论文中,详细阐述了 InstantID 的多个优势。 


1. 高效 ID 保留:InstantID 作为一种创新的 ID 保留方法,有效地弥合了训练效率与身份信息保真度之间的鸿沟;


2. 即插即用兼容性:InstantID 计为一个可插拔的模块,与现有的文生图模型、LoRAs、ControlNets等完美兼容。这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,同时保持对文本编辑的灵活控制。 


3. 卓越性能:实验结果显示,InstantID 在性能上不仅超越了基于单张图片特征的嵌入方法(如 IP-Adapter-FaceID),而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。这种高性能和高效率的特性,为 InstantID 在实际应用中的广泛应用,如视图合成、ID 插值、多身份和多风格合成等,提供了巨大的潜力。



上图概述了 InstantID 方法,主要包含三个关键组成部分:(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。 


1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以采用预训练的人脸编码器来提取人脸特征。在本次工作中,使用来自 InsightFace 提供的 antelopev2 模型来提取人脸特征;


2. 预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,InstantID 采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于使用人脸特征,而非 CLIP 表征;


3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改: 
  • 只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入;
  • 消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。



团队详细展示了 InstantID 方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。



同时该方法也支持多张图注入,来进一步提升效果。



InstantID 与目前社区内主流的三类方法进行对比。 


(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。InstantID 兼顾了人脸保真度和文本控制能力。



(2)基于微调的人物 LoRAs。LoRA 模型虽然在个性化图像生成方面表现出色,但它们对数据质量和数量有着特定的要求,这在现实世界的应用场景中可能会受到限制;同时,LoRA模型还需要额外的训练来定制化模型。相比之下,InstantID 则提供了一种高效的单步推理方法,只需一张图像就能完成推断,这种效率对于各种下游应用来说是一个巨大的优势。



(3)非扩散模型的换脸模型 InsightFace Swapper。虽然 InsightFace Swapper 在大多数标准场景下表现良好,但 InstantID 在将人脸与背景融合方面展现出更大的灵活性,尤其是在处理非现实风格(如动漫)时。



此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。 


(1)多视角生成。如图所示,最左侧是图像特征保留,最顶侧是姿势参考,按姿势 + 特征 + prompt 合成风格化图像。



(2)ID 插值。20% 的泰勒 + 80% 的杨幂,80% 的杨幂 + 20% 的泰勒,你更喜欢谁?前文所述的“郭斯克”就是利用了该能力。



(3)多 ID + 多风格的生成。从多张图像中分别提取姿势、ID、背景的特征,合成效果很和谐。



基于高性能的人像注入和编辑能力,InstantID 能支持很多衍生应用玩法。


(1)快速低门槛的真人写真。不仅生成速度快,且相比妙鸭成本更低,大约是其 1/300,体验效果好。



(2)夸张五官人像定制。真人化身动漫人物,创意无限。



(3)非人像混合定制。猫身猫头,与自家萌宠合体,温馨又有趣。


InstantID 免费体验地址:

https://huggingface.co/spaces/InstantX/InstantID

欢迎尝鲜,欢迎 Star!



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

AI应用的真正未来,为什么是【脑机接口】?|马斯克及Neuralink团队8.5小时揭秘(二)成为下一个尔滨?爆火的“空调大省”这样玩更深度!不仅能避开人挤人,看到最美风景,还能长知识!超适合带娃玩!欧洲人喜欢的中国古刹,为什么是它?赏荷+漂流,我竟在这里找到了最清凉的夏天iOS 今年最大的更新为什么会是它?近期国内最火的摄影展,为何是它?“南韩顶级小白花”长相的她,为什么一直没有爆火?为什么尿尿是黄色的?2024年Nature子刊刊登发现尿液是黄色的潜在机理,破解百年难题!仅用19天,建成全球最强AI超级集群,但马斯克更重要的事情是什么?下一个会火的国产动画会是?出手就是行业第一!新品最靠谱“爆火搭子”,为何是它?顶尖文理学院学生:为什么戏剧是一个值得尝试的选择?她是2024年第一个上桌吃饭的吗?超越恐怖谷!全球500万网友被骗,爆火TEDx演讲者没一个是真人?阿里国际推出首个专业版AI Search,为什么它会是下一个B2B谷歌?黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?论选择的重要性:为什么是兔狲与荒漠?朋友妻不客气?!马斯克被爆猛料:与好友的华裔妻子K粉、一夜情!细节曝光!AI史上的第一个成功的商业产品是怎样诞生的?今年爆火的“冰冰裤”是什么鬼?清凉显瘦又百搭,洋气死了!入秋第一爆火的趋势,凭什么是东方三缘色?全球首款集成 GPT-4o 的智能眼镜来了,这会是下一个爆款吗?拉香蕉的黑人小哥,说出了全网爆火奥德彪语录?《纽约时报》爆猛料:马斯克与好兄弟妻子一起吸毒后发生关系,下跪求原谅?今年爆火的新中式,英文是叫“New-Chinese Style”吗?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。