Bendi新闻
>
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
9月前
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路由算法仅激活 top-k 专家(expert),其余专家保持非活动(inactive)状态。
论文地址:https://arxiv.org/abs/2401.15947
项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
北大等提出MoE-LLaVA:将多模态大模型稀疏化Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024OpenAI宣布将终止对中国提供API服务,国内多家大模型推出“搬家计划”;司美格鲁肽国内获批减重适应症 | 环球科学要闻iPhone 和 iPad 将升级眼球追踪功能;字节豆包大模型全面开启商业化;蔚来第二品牌发布首款新车 | 极客早知道苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果对话面壁智能刘知远:大模型将有新的「摩尔定律」,AGI 时代的智能终端未必是手机“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平英伟达 Nemotron-4 340B 火了!合成数据能否将大模型带入下一个阶段?1块3090就能训7B大模型,山东大学低带宽低显存训练法,解决显卡限购卡脖子将大模型疯狂用到军事上,这家企业创始人“疯了”?LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokensAI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍赛迪展望丨人工智能大模型将赋能千行百业OpenAI 演讲:如何通过 API 将大模型集成到自己的应用程序中李彦宏最新判断:大模型应用,将率先在这个赛道爆发!下一代 RAG 技术来了!微软正式开源 GraphRAG:大模型行业将迎来新的升级?律所如何降本增效?99%的律所都将是大模型使用者苹果和百度讨论 AI 合作;雷军公布第二批小米汽车交付中心城市候选名单;阿里、百度将推出大模型长文本功能 | 极客早知道