Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?
随着 LLaMA,Mistral 等大模型的成功,各家大厂和初创公司都纷纷创建自己的大模型。但从头训练新的大模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。
为了整合不同来源、不同结构大模型的优势,减少重复预训练的昂贵开销,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于融合多个异构大模型。不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大模型,后者需要合并模型具备相同的结果,FuseLLM 从概率分布表征的角度来探讨大模型的融合,对于同样的输入文本,作者认为由不同模型生成的表征可以反映出它们在理解这些文本时的内在知识。因此,FuseLLM 首先利用多个源模型生成表征,将它们的集体知识和各自优势外化,然后将生成的多个表征取长补短进行融合,最后经过轻量级的持续训练迁移到一个目标模型。
为了实现 Chat 大模型的融合,团队提出 FuseChat 方案,其在 FuseLLM 的基础增强了可扩展性和灵活性。FuseChat 采用先融合后合并的策略,其首先对不同的源模型进行知识融合,得到具有相同结构和规模的多个目标模型,然后将这些目标模型的参数合并。这种先融合后合并的方式使得集成任意规模的新模型都是即插即用的。考虑到 Chat 大模型的频繁更新,FuseChat 在 Chat 大模型融合方面更具前景。
机器之心最新一期线上分享邀请到了 SOTA!模型社区 FuseLLM&FuseChat 项目主理人万凡琦,与大家分享使用 FuseChat 融合多个异构大模型的一手经验,并在直播期间在线对融合后的 FuseChat-7B-VaRM 和融合前的 NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7B 进行典型案例对比实测及技术分析,进行技术探讨。
分享主题:Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?
环节1:FuseLLM&FuseChat技术方案分享
-异构大模型融合研究背景
-FuseLLM&FuseChat方法介绍
-实验结果分析
-手把手教你融合自己的 Base/Chat 大模型
环节2:实测分析 + QA 研讨
- 不同场景下与主流闭源/开源大模型性能对比
- 局限性&未来展望
分享嘉宾:万凡琦,FuseLLM&FuseChat 项目主理人;中山大学二年级硕士生,导师为权小军教授。其主要研究方向为自然语言处理与大语言模型,研究兴趣包含模型融合,幻觉缓解,指令微调。曾在 ICLR, ACL, EMNLP 等机器学习和自然语言处理顶级国际会议上以第一作者身份发表论文。
项目链接:
https://sota.jiqizhixin.com/project/fusellm
https://sota.jiqizhixin.com/project/fusechat
分享时间:3月27日19:00 - 20:00
直播间:关注机器之心机动组视频号,立即预约直播。
微信扫码关注该文公众号作者