Bendi新闻
>
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
8月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
调查了现有的多模态大型语言模型(MLLMs)通常依赖于 Transformer 网络,这表现出二次方的计算复杂度。为了解决这种低效问题,本文引入了 Cobra,一个新颖的具有线性计算复杂度的 MLLM。 深入探讨了各种模态融合方案,以优化 Mamba 语言模型中视觉和语言信息的整合。通过实验,本文探索了不同融合策略的有效性,确定了产生最有效多模态表示的方法。 进行了广泛的实验,评估 Cobra 与旨在提高基础 MLLM 计算效率的并行研究的性能。值得注意的是,Cobra 甚至在参数更少的情况下实现了与 LLaVA 相当的性能,突显了其效率。
原文链接:https://arxiv.org/pdf/2403.14520v2.pdf 项目链接:https://sites.google.com/view/cobravlm/ 论文标题:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
在 LLaVA v1.5 中使用的混合数据集,其中包含总计 655K 视觉多轮对话,包括学术 VQA 样本,以及 LLaVA-Instruct 中的视觉指令调优数据和 ShareGPT 中的纯文本指令调优数据。 LVIS-Instruct-4V,其中包含 220K 张带有视觉对齐和上下文感知指令的图片,这些指令由 GPT-4V 生成。 LRV-Instruct,这是一个包含 400K 视觉指令数据集,覆盖了 16 个视觉语言任务,目的是减轻幻觉现象。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了终于来了!中国首个接入大模型的Linux开源操作系统正式发布!首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言Falcon Mamba来了!首个无注意力大模型!再次挑战Transformer!大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了首个超越 GPT-4o 的开源模型提前泄露!Hugging Face 紧急 404 | 附下载链接清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业新加坡首个儿童集市来了!工作坊、艺术展览、拍卖等活动,遛娃绝了Meta「分割一切」进化2.0!一键跟踪运动物体,代码权重数据集全开源,网友:真正的OpenAI4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源比VS Code快得多!用Rust重写,支持OpenAI、Copilot 的Zed编辑器开源了