Bendi新闻
>
Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型
Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型
7月前
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
转载自:机器之心
调查了现有的多模态大型语言模型(MLLMs)通常依赖于 Transformer 网络,这表现出二次方的计算复杂度。为了解决这种低效问题,本文引入了 Cobra,一个新颖的具有线性计算复杂度的 MLLM。 深入探讨了各种模态融合方案,以优化 Mamba 语言模型中视觉和语言信息的整合。通过实验,本文探索了不同融合策略的有效性,确定了产生最有效多模态表示的方法。 进行了广泛的实验,评估 Cobra 与旨在提高基础 MLLM 计算效率的并行研究的性能。值得注意的是,Cobra 甚至在参数更少的情况下实现了与 LLaVA 相当的性能,突显了其效率。
原文链接:https://arxiv.org/pdf/2403.14520v2.pdf 项目链接:https://sites.google.com/view/cobravlm/ 论文标题:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
在 LLaVA v1.5 中使用的混合数据集,其中包含总计 655K 视觉多轮对话,包括学术 VQA 样本,以及 LLaVA-Instruct 中的视觉指令调优数据和 ShareGPT 中的纯文本指令调优数据。 LVIS-Instruct-4V,其中包含 220K 张带有视觉对齐和上下文感知指令的图片,这些指令由 GPT-4V 生成。 LRV-Instruct,这是一个包含 400K 视觉指令数据集,覆盖了 16 个视觉语言任务,目的是减轻幻觉现象。
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者
来源:CVer
相关新闻
Mamba再下一城!VideoMamba:高效视频理解的状态空间模型Mamba再下一城!RSMamba:遥感图像分类性能SOTA!北大等提出MoE-LLaVA:将多模态大模型稀疏化多模态大模型,爆了!网友:YYDS!港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评ECCV 2024:北大提出多模态提示学习:让大模型更懂人类在做什么!赋予机器人思考能力!北大提出自纠正多模态大模型,赋能端到端机器人操作核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈[COLING 2024教程] 多模态大语言模型MLLM系列教程第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程