顶刊IJCV 2024!基于概率表征的半监督对比学习框架
论文题目:
PRCL: Probabilistic Representation Contrastive Learning for Semi-Supervised Semantic Segmentation
论文链接:
https://arxiv.org/abs/2402.18117
代码链接:
https://github.com/Haoyu-Xie/PRC2
一、 引言
半监督语义分割算法(Semi-Supervised Semantic Segmentation, S4)能够使用较少的有标注数据对模型进行训练,并且获得一个性能良好的图像分割模型,因此得到了研究者们较为广泛的关注。最近的S4研究中,研究者们引入了像素级别的对比学习(Pixel-wise contrastive learning),进一步提升了模型的能力。然而,最近的许多研究都存在着以下问题:模型在无标注数据上训练时鲁棒性较差,容易受到错误的指导影响。
为了提升模型的鲁棒性,我们提出了基于概率表征的对比学习框架(Probabilistic Representation Contrastive Learning framework, PRCL)。这个框架将像素级别的表征用高斯分布进行建模,并且根据表征语义的可靠性来微调它们在对比学习过程中的贡献。这样,模型就获得了容忍错误语义的表征的能力。随后,在概率表征(Probabilistic Representation, PR) 的基础上,我们建立了全局分布原型(Global Distribution Prototype, GDP)和虚拟负样本(Virtual Negatives, VNs) 来加入到对比学习的过程中,以解决传统像素级别的对比学习由小批量而造成的问题。实验表明,我们提出的PRCL框架在半监督设定下模型的分割能力达到了state-of-the-art的性能。此外,大量的消融实验也表明我们提出的模块的有效性。
二、 基于概率表征的对比学习框架
2.1 概率表征
近期的基于对比学习的S4算法框架大多都在原来的S4算法框架下(如老师-学生框架),将像素级别的对比学习视作一个辅助任务,让模型能够在潜在域上获得更规范的输出。具体的做法是将每一个表征分配上对应的语义信息,之后通过优化对比损失的方式将相同类的表征聚集在一起,将不同类的表征分散开来。由于每一个表征需要分配类别信息,在半监督条件设定下,模型在无标注数据上训练时获得的语义信息可能存在错误,这种错误会影响对比学习的效果,最终导致模型的准确度下降。
为了解决这个问题,我们在对比学习过程中使用了概率表征。概率表征与传统确定性表征不同的是,它不仅能够反映表征的位置,同时也能够反映表征出现在这个位置上的可能性,即表征分配到的语义信息的可靠性。
图6 虚拟负样本的示意图
作者简介: 谢昊宇 东北大学博士四年级学生,博士期间于阿里巴巴通义实验室实习。主要研究方向为半监督学习、语义分割、文生图方向。目前在AAAI,ICCV等国际会议上发表论文多篇,国家奖学金获得者。 王昶棋 东北大学三年级硕士研究生,硕士期间曾在香港中文大学MMLab进行远程实习。主要研究方向为语义分割和半监督学习。目前在AAAI,ICCV等国际会议上发表论文、多篇。曾获得国家奖学金,东北大学校长奖学金等荣誉。 赵健 中国电信人工智能研究院青年科学家、西北工业大学研究员、北京图象图形学学会理事,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、多模态大模型、生成式人工智能。围绕无约束视觉感知理解共发表CCF-A类论文32篇,以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文31篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369)。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。获2023 CAAI吴文俊人工智能优秀青年奖、2022 CAAI吴文俊人工智能自然科学奖一等奖、PREMIA Lee Hwee Kuan奖、ACM MM最佳学生论文奖,7次在国际重要科技赛事中夺冠。 孙佰贵 2014浙江大学CAD&CG国家重点实验室计算机硕士毕业,导师为章国锋、鲍虎军老师。同年加入阿里巴巴,10年AI经验,一直从事深度学习研发工作。4年淘宝技术部&搜索事业部,5年达摩院,目前在通义实验室负责人物AIGC,曾获得淘宝技术部最佳新人,阿里巴巴开源先锋人物等奖项。参与研发的大规模应用代表工作有:拍立淘、绿网/云盾、DeepCTR、钉钉考勤机、阿里云人脸API版块、FaceChain等。曾获得WiderFace检测6项冠军,6项国内外开源项目/个人奖项。目前发表合作顶会/刊论文26+篇,谷歌学术引用1070+,开源Star 8K+。
Illustration From IconScout By Delesign Graphics
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者