Bendi新闻
>
视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务
视觉prompt工程!无需微调、无需任何模型修改,让一个通用模型可以执行多种指定任务
6月前
太长不看版
本文做了什么工作
证明许多计算机视觉任务都可以按照图像修复任务来对待,只需给一些任务输入和输出示例和查询图像就可以做成。 构建了一个包含 88000 量的大型数据集,允许模型能够学习图像修复任务。无需任何标注信息,任务相关的描述。 展示出为训练数据集增加额外数据 (比如 ImageNet) 能获得更好效果。
论文名称:Visual Prompting via Image Inpainting (NeurIPS 2022) 译名:通过图像修复任务完成视觉提示
语言模型中一个通用模型做多种下游任务的特点能否迁移到视觉领域?
Je suis désolé I'm sorry
J'adore la glace
I love ice cream
MAE-VQGAN 方法介绍
给训练好的图像修复模型加提示
Visual Prompt 的设计
数据集
实验结果
下游任务实验结果
合成数据研究
数据集规模的影响
视觉提示工程
^Masked Autoencoders Are Scalable Vision Learners ^Taming Transformers for High-Resolution Image Synthesis
技术交流群邀请函 △长按添加小助手 扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向 (如:小张-哈工大-对话系统) 即可申请加入自然语言处理/Pytorch等技术交流群
扫描二维码添加小助手微信
关于我们
MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。 社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务无需人工标注!LLM加持文本嵌入学习:轻松支持100种语言,适配数十万下游任务OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务端到端自动驾驶技术不断进化,纯视觉、真无图方案真的来了?微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型太全了!苹果上新视觉模型4M-21,搞定21种模态ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力热门方向 | 计算机视觉求职无OFFER退款!ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布大模型时代的计算机视觉!CVPR 2024线上论文分享会启动字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别图像解码器;多头混合专家网络;视觉模型美学对齐;医学视觉任务适应基准大型视觉语言模型攻击综述:资源、进展与未来趋势