Bendi新闻
>
20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐

20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐

国内最早一批大模型研究者们建立的AI公司面壁智能,2月1日发布了一款“实验性”十足,但野心巨大的端侧“小参数”模型——MiniCPM-2B。
训练一些参数较小(一般指70亿参数以下)的大语言模型,让它们可以在端侧本地运行并同样实现强大的功能,是近来大模型领域的一个重要课题。微软推出了Phi2,谷歌的Gemini系列里专门开发了小尺寸的版本Nano,而有“欧洲OpenAI”之称的Mistral推出的mistral 7B,更是大受开源社区欢迎。
而现在面壁想用自己的方法,用MiniCPM来挑战一下它们的天花板。


高性能,低成本

“Mistral的mistral 7B在开源社区受到极大关注并且下载量也很大,它用70亿参数的模型战胜了130亿参数的模型,我们也想体现我们的效率,而我们要用20亿参数的模型干掉LLaMA130亿参数的的模型。”面壁智能CTO贾国洋在发布模型时说。
打的就是精锐。
那么这个以小搏大的模型表现如何?话不多说,先来看看它和对手们的对比情况。
根据其Github页面总结:
  • 经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
  • 经过 DPO 后,MiniCPM 在当前最接近用户体感的评测集 MTBench上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
这是MiniCPM-2B与同尺寸模型的性能评分对比图。
而在一系列的评分对比中,在使用DPO完成偏好对齐后,MiniCPM-2B模型在更接近人们日常使用体感的MT-Bench上的分数甚至还可以超过包括Llama2-70B-Chat在内的大模型。
不过在技术报告中,面壁智能也强调,这部分的评分中因为部分学习数据可能会让模型表现有利于MTBench的评测,例如让模型的生成风格更受GPT-4 Evaluator的喜欢,因此“希望研究者冷静看待榜单上的评测结果。例如,我们认为作为一个2B的小模型,可能在很多任务上仍然是弱于Llama2-70B-Chat的”。
评分感受还是比较抽象,我们看一看它的一些具体的能力展示。
代码生成能力:
数学能力:
加入了多语言干扰后的翻译表现:
而且,此次面壁智能还把多模态版本的MiniCPM-V 部署在手机,首次跑通了多模态大模型在手机上的部署。面壁智能展示了一个端侧模型离线状态下,用户在偏远山上想要识别一个蘑菇是否有毒的场景。
另外,在达到这些效果的同时,它的成本也控制在很低的水平。发布会上,面壁智能CEO李大海表示,一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
“我们看中了端侧模型的另外一点就是成本。成本决定大模型的利润率,2023年我们做非常多商业化实验的时候,看到很多应用场景下的客户都会非常关注模型的成本,虽然千亿模型效果很好,但是当它真的要大规模部署的时候,其实还是有很多的障碍。而在端上模型当中,从成本角度让推理成本实现断崖式下跌,甚至可以实现CPU推理,进而实现成本更低。”他说。
“规模飙升的技术竞赛中,成本是大模型隐形竞争力,人们需要省钱大模型。”


把训练模型变成实验科学

为什么能实现上面提到的这些成绩?面对这个问题,面壁智能的团队非常自信。

在发布会上,硅星人/品玩CEO骆轶航和面壁智能技术核心团队做了对话
“我们没有追赶谁,我们一直是领先的。”面壁智能的联合创始人,清华大学长聘副教授刘知远对我说。
“尤其在Scaling的方面。”他的研究方向从深度学习、BERT、大模型到Agent,都在今天大模型的发展方向上。
据他透露,Mistral也经常联系他们和他们讨论面壁提出的许多研究方法。
在此次模型开发过程中,面壁智能胡声鼎是那个掌勺者。“开发模型就像做菜,这是我们的三星大厨。”刘知远介绍。
胡声鼎同时也是清华大学计算机系博士,他在技术博客和当天的分享中简单介绍了模型背后的一些技术亮点。
总体上,它体现出一种把模型训练科学化,变成某种实验科学的思路。
最重要的一个体现是模型沙盒。
简单说,就是在一些更小的参数,比如0.009B(也就是900万参数)的模型上做沙盒实验,并且是大量的实验,然后通过试验结果,研究出在学习率、Batchsize以及超参数稳定的最佳“配方”,然后预估并使用到真正要训练的更大规模参数的模型上。这理论上避免了诸如每次训练模型都要重新进行超参数调整等在成本和技术上都不太现实的做法。
这个实验的过程事实上也是面壁智能做出技术路线判断的过程。
它首先是一系列具体的判断:
比如模型最关键的超参数——学习率并不会因为规模扩大而大幅度改变,比如在损失函数与token数变化的研究上,挑战了OpenAI提出的不消耗过多步数的策略,转而追求最少token量;比如在学习率调度器上推翻了现在最主流的Cosine LRS,提出了在学习过程中初期表现略差于Cosine LRS但后期会实现“反超”从而整体更优的WSD调度器。

图源:MiniCPM技术博客
而且,让我觉得最有意思的是,面壁的一系列实验不只是研究某个单点的最优解,它还带来了一个新的可能:用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去,是不是其实可以比训练一个更大的模型效果更好?它带来的答案会直接决定你的技术方向。
根据实验,面壁智能团队表示,2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal 模型。
在这些具体判断之上,则是更“终局”的判断——大模型最终变成今天这个样子,很大程度就是OpenAI当初对GPT路线的“赌注”决定的,面壁的一系列研究和技术布局背后也有这个对AGI的它自己的赌注。
“我从技术角度来看,大模型的技术路线大方向已经确定了。就是一个纯data driven的方案,而预训练也好,这些都是它对应的具体方法。而这个和2023年之前大家一致认为的方案是非常不一样的。我们在2022年底之前一直以为自然语言处理的解决还需要十几年的时间,它需要把更多外部的知识放到模型,才能掌握常识知识。”刘知远对我说。
“但ChatGPT让我们发现它已经可以非常好地把常识学到,这个对于我来讲是一次非常大的教育。所以ChatGPT的出现意味着2023年整个自然语言处理领域进入到了打扫战场的状态——核心问题已经解决差不多了,剩下的都是怎么让它变得更高效。”
他认为接下来的六七年时间一个非常重要的竞争优势,就在于一个团队有没有足够强的技术上的原创探索能力。
“世界上从来没有人探索出来过把2B模型达到这么一个水平,今天我们可以达到,大家可以沿着这个方向跑,但我们可以比他们跑得更快,做更多的新的问题。这个至少是我们未来五六年里面我们的护城河,它不是单独的东西,而是我们强大的产研的团队,非常完美的清华大学自然语言处理实验室跟面壁智能联合的机制。”
此次发布的MiniCPM-2B也是一个系列模型的主力,面壁智能也对这系列模型做了全面的开源。
  • 基于MiniCPM-2B的指令微调与人类偏好对MiniCPM-2B-SFT/DPO。
  • 基于MiniCPM-2B的多模态模型MiniCPM-V,能力超越基于Phi-2的同参数级别多模态模型。
  • MiniCPM-2B-SFT/DPO的Int4量化版MiniCPM-2B-SFT/DPO-Int4
  • 基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序,文本及多模态模型均可在手机端进行推理。
想要体验这些模型的开发者可以去以下链接下载体验:
https://github.com/OpenBMB/MiniCPM
技术博客的更多细节可以在此找到:
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a


欢迎加入这个星球,见证硅基时代发展↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

来源:硅星人Pro

相关新闻

逃往美国的“百亿非法集资案”隐秘富豪:国内欠债20亿,住千万美元豪宅,逃跑后还攫走数亿20元就能买1杯,“没兴趣打价格战”的星巴克,也打折了?中国会员数已超1.27亿,然而……20岁华裔女孩从哈佛退学创业,半年赚4亿:她的选择,狠狠打脸了“精英教育”短剧编剧:一个月写20万字,“这不就是生产队的驴吗?”短剧编剧:一个月写20万字,“这不就是生产队的驴吗?” | 谷雨抖音出手!严打“厚黑学”“伪成功学”;揭秘Kimi大模型:日均获客成本超20万元|大公司动态卷入“金融圈手撕老板第一人”的财通资管:权益产品亏超20亿 管理费收了2亿“重生”的医疗终端:锐捷云桌面引领“流畅革命”房子卖得不错,这些开发商春节给员工放“超级长假”:最多的20天!A股的“龙头时代”:当一个20年周期走向尾声从暴雪客服、到Supercell游戏主管,一款20亿美金手游的“生死故事”3月两起命案:男孩遭杀害、女医生刎颈,让我想起20年前的“真假”女同学颜昌武:观察「街头官僚」20多年,我想知道为什么挨骂的总是他们轰-20真要来了,“六爷”的传奇终于要落幕了?“大语文时代”来临:孩子未来20年的差距,是这样拉开的知名艺人当众和女儿“热吻”长达20秒:没有边界感的父母,有多可怕?靠79元自助,狂赚20年!老字号里的“穷鬼之光”,打趴必胜客对话Traini:4人创业公司用大模型翻译“狗语”,已获得20万用户全中国最“坏”患者:医生最佩服的他,在医院医闹20年 | 医院奇闻录79壕!俄百亿名媛打赢60亿天价离婚案,告完前夫告儿子:他俩还欠我20亿的游艇!ESG+20|“行动者”厦门航空:引路航空业的“零碳未来”“最抠门”老板,衣服打补丁,年入20亿那些年底裸辞的年轻人:有的提前存好20万,有的不想再“凑合”工作ESG+20|“行动者”宁德时代:构建可持续发展未来“您的时代”
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。