Bendi新闻
>
顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器

顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器

8月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和OCR】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文简要介绍TPAMI 2024录用论文“Turning a CLIP Model into a Scene Text Spotter”的主要工作。这篇文章介绍了一种新方法FastTCM,专注于直接将CLIP 模型用于文本检测和端到端文本识别,无需设计特殊的预训练代理任务。

一、研究背景



大规模对比语言-图像预训练CLIP模型[1]通过利用预训练的视觉和语言知识在各种下游任务中展现了巨大的潜力。场景文本包含丰富的文本和视觉信息,与像 CLIP 这样的视觉语言大模型有着固有的联系。现有利用视觉语言预训练的工作[2-4]通常包含两个阶段:第一个阶段需要设计合适的代理任务进行预训练,充分挖掘文本知识,使得视觉编码器能够较好地感知到文本;第二个阶段再对第一个阶段预训练好的视觉编码器进行微调,使其能够较好地执行下游的文本检测或者端到端文本识别任务。这篇文章介绍了一种新方法FastTCM,专注于直接将CLIP 模型用于文本检测和端到端文本识别,无需设计特殊的预训练代理任务。

图1 现有利用视觉语言知识进行文本检测或者端到端文本识别的不同范式

二、方法原理简述



FastTCM整体框架如图2所示,包含CLIP的图像编码器、文本编码器、视觉提示模块、文本提示单元和下游的文本检测或端到端文本识别头。其中,文本提示单元包含文本提示模块和双模态相似匹配机制。首先视觉编码器对图像进行编码,得到全局视觉特征;其次,文本提示模块通过可学习的元查询和预定义的提示构造有利于下游任务的提示,并送入文本编码器编码得到文本嵌入;接着,双模态相似匹配机制计算当前图像特征和文本嵌入的相似度,并将该相似度和图像特征相乘叠加到文本嵌入生成新的文本嵌入,该机制可以根据输入的视觉图像特征动态的调整文本编码器的输出,充分挖掘CLIP中预训练的文本知识,有利于后续提取细粒度的视觉图像特征。之后的流程和会议版本的工作[5]一致。在训练时文本提示模块的参数需要参与训练优化,当训练完成时该模块参数被固定,在推理时可以将文本编码器部分的输出离线计算,以此来减少推理时间。

图2 FastTCM方法整体框架图

三、主要实验结果



作者将FastTCM应用于现有的文本检测方法和端到端文本识别方法上进行了实验验证,发现FastTCM可以应用于改进现有的场景文本检测方法和端到端文本识别方法,并且速度有所提升,同时可以提升现有方法的小样本学习能力和泛化能力。

表1 分别提升现有的文本检测方法和端到端文本识别方法的性能
表2 提升现有的文本检测方法和端到端文本识别方法上的小样本学习能力
表3 提升现有的文本检测和端到端文本识别方法上的泛化学习能力

作者进一步在旋转目标检测任务上进行了验证,并在遥感图像数据集DOTA-v1.0[6]上进行了实验,本文提出的方法依旧可以适用于遥感目标检测,下图展示了可视化结果。

图 3 在旋转目标遥感数据集DOTA-v1.0上的可视化检测结果

四、未来展望



本文提出了一种利用大规模对比语言-图像预训练 CLIP 模型来提升文本检测和端到端文本识别下游任务,对迈向通用场景的文本感知任务更近了一步,未来可以继续探索借助更强大的多模态大模型[7]的能力来实现更通用的文本感知和理解任务。

五、相关资源



论文链接:https://ieeexplore.ieee.org/document/10476714

代码:https://github.com/wenwenyu/TCM

参考文献



[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in ICML, 2021.

[2] Q. Wan, H. Ji, and L. Shen, “Self-attention based text knowledge mining for text detection,” in CVPR, 2021.

[3] S. Song, J. Wan, Z. Yang, J. Tang, W. Cheng, X. Bai, and C. Yao, “Vision-language pre-training for boosting scene text detectors,” in CVPR, 2022.

[4] C. Xue, W. Zhang, Y. Hao, S. Lu, P. H. S. Torr, and S. Bai, “Language matters: A weakly supervised vision-language pretraining approach for scene text detection and spotting,” in ECCV, 2022.

[5] W. Yu, Y. Liu, W. Hua, D. Jiang, B. Ren, and X. Bai, “Turning a clip model into a scene text detector,” in CVPR, 2023.

[6] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. J. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in CVPR, 2017.

[7] Z. Li, , B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai,“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models,”in CVPR 2024.

原文作者:Wenwen Yu, Yuliang Liu*, Xingkui Zhu, Haoyu Cao,Xing Sun, Xiang Bai

撰稿:余文文 | 排:高 学
审校:连宙辉 | 发布:金连文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和医学影像交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者医学影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法顶刊TPAMI 2024!涨点显著!多尺度循环细化单目深度估计模型顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!顶刊TPAMI 2024!无需全标注,仅用少量涂鸦标注即可获得确定和一致的语义分割预测结果顶刊TPAMI 2024!清华提出ProCo,无限Contrastive Pairs的长尾对比学习顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景以ACL 2024为例,从投稿到接收:顶会投稿后全流程揭秘顶刊IJCV 2024!通过提问学习基于知识的新物体识别北大计算机学院登国际AI顶刊!张铭教授团队160万数据训练生物活性基础模型,加速癌症药物研发医学顶刊MedIA 2024 | 残差对齐网络(RAN):多器官的非连续性形变配准BB鸭 | QQ音乐电视端会员将单独付费;花小猪平台被约谈;比亚迪与大疆合作发布车载无人机;微信登顶2024全球最强品牌多伦多高端超市破产!4间连锁店全关,全市仅剩一家!卖白松露、顶级奶酪等进口精品分布式人工智能盛会 DAI 2024 征稿:Agent Day,数十顶会级别会议报告,Jim Fan 将出席!Node.js 22:服务器端 JavaScript 的未来如何在 Linux 上轻松设置 OpenVPN 服务器和客户端:完整教程与实用技巧医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集顶刊IJCV 2024!基于概率表征的半监督对比学习框架顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架前端最新趋势:JS正在向服务器端转移、开发者最爱Vue技术栈、Bun越来越受关注轻松配置NFS服务:CentOS7服务器与客户端自动挂载指南昔日音乐播放器王者!Winamp 宣布 Windows 端 9 月开源
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。