Bendi新闻
>
Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

3月前

随着 LLaMA,Mistral 等大模型的成功,各家大厂和初创公司都纷纷创建自己的大模型。但从头训练新的大模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。

为了整合不同来源、不同结构大模型的优势,减少重复预训练的昂贵开销,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于融合多个异构大模型。不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大模型,后者需要合并模型具备相同的结果,FuseLLM 从概率分布表征的角度来探讨大模型的融合,对于同样的输入文本,作者认为由不同模型生成的表征可以反映出它们在理解这些文本时的内在知识。因此,FuseLLM 首先利用多个源模型生成表征,将它们的集体知识和各自优势外化,然后将生成的多个表征取长补短进行融合,最后经过轻量级的持续训练迁移到一个目标模型。

为了实现 Chat 大模型的融合,团队提出 FuseChat 方案,其在 FuseLLM 的基础增强了可扩展性和灵活性。FuseChat 采用先融合后合并的策略,其首先对不同的源模型进行知识融合,得到具有相同结构和规模的多个目标模型,然后将这些目标模型的参数合并。这种先融合后合并的方式使得集成任意规模的新模型都是即插即用的。考虑到 Chat 大模型的频繁更新,FuseChat 在 Chat 大模型融合方面更具前景。

机器之心最新一期线上分享邀请到了 SOTA!模型社区 FuseLLM&FuseChat 项目主理人万凡琦,与大家分享使用 FuseChat 融合多个异构大模型的一手经验,并在直播期间在线对融合后的 FuseChat-7B-VaRM 和融合前的 NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7B 进行典型案例对比实测及技术分析,进行技术探讨。


分享主题:Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?

环节1:FuseLLM&FuseChat技术方案分享

-异构大模型融合研究背景

-FuseLLM&FuseChat方法介绍

-实验结果分析

-手把手教你融合自己的 Base/Chat 大模型

环节2:实测分析 + QA 研讨

- 不同场景下与主流闭源/开源大模型性能对比

- 局限性&未来展望

分享嘉宾:万凡琦,FuseLLM&FuseChat 项目主理人;中山大学二年级硕士生,导师为权小军教授。其主要研究方向为自然语言处理与大语言模型,研究兴趣包含模型融合,幻觉缓解,指令微调。曾在 ICLR, ACL, EMNLP 等机器学习和自然语言处理顶级国际会议上以第一作者身份发表论文。

项目链接:

https://sota.jiqizhixin.com/project/fusellm

https://sota.jiqizhixin.com/project/fusechat

分享时间:3月27日19:00 - 20:00

直播间:关注机器之心机动组视频号,立即预约直播。

交流群:本次直播设有 QA 环节,欢迎加入活动群探讨交流。

扫码添加 SOTA!模型社区助手,回复关键词「特别活动」加入活动群
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?英高回国,继续学A-Level,能拿到哪些大学的offer?英国G5、KCL、曼大……创始人被限高、套路营销、被质疑虚假宣传 壹健康这次能圆上市梦吗?还不试试AI大模型?能让你少加点班!降息预期降温了,美股为什么还能创新高?网传创始人称开创维汽车能治病、延寿? 创维汽车回应;Lucid前CFO雪莉·豪斯加入福特汽车丨汽车交通日报B 站人气 Top2 AI 主播“羊驼-阿花”何以拥有“高智商、高情商”?美国封锁开源AI!国产大模型还能卷多久?谁是EPQ霸主?三大考局CIE、爱德思、牛津AQA实力大比拼!今年以来债基超八成净值创新高,还能买吗?曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了UCL语言班提前关闭,如何更早找到房子?伦敦1B、2B高端公寓转租Liverpool station 附近1B 仅£780/周!硅胶娃娃接入大模型,能替代女朋友吗?小模型怎么扩大参数?SOLAR: “自我嫁接”就行!主播“倒下”的钟薛高,品牌还能撑多久?2024年高考陆续出分:今天的大模型,能考上几本?|亮马桥小纪严选被《AIGC体验派》硬控25分钟,大模型落地还能这么玩?怎么看待企业家、高管做个人IP?周鸿祎:经受了很多非议,“要感谢雷军”GPT-4o炸裂发布!能陪作业、教外语?家长惊了:未来如何培养不被AI替代的孩子……Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动从北冰洋融化到极端天气,80、90后能安享晚年吗? |【经纬低调出品】智能终端能否颠覆手机?华为、苹果、高通如何布局|直播为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新毛绒玩具接入大模型,能让孩子放下手机吗?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。