Bendi新闻
>
20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐
20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐
高性能,低成本
经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。 经过 DPO 后,MiniCPM 在当前最接近用户体感的评测集 MTBench上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
把训练模型变成实验科学
基于MiniCPM-2B的指令微调与人类偏好对MiniCPM-2B-SFT/DPO。 基于MiniCPM-2B的多模态模型MiniCPM-V,能力超越基于Phi-2的同参数级别多模态模型。 MiniCPM-2B-SFT/DPO的Int4量化版MiniCPM-2B-SFT/DPO-Int4。 基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序,文本及多模态模型均可在手机端进行推理。
微信扫码关注该文公众号作者
来源:硅星人Pro
相关新闻
逃往美国的“百亿非法集资案”隐秘富豪:国内欠债20亿,住千万美元豪宅,逃跑后还攫走数亿20元就能买1杯,“没兴趣打价格战”的星巴克,也打折了?中国会员数已超1.27亿,然而……20岁华裔女孩从哈佛退学创业,半年赚4亿:她的选择,狠狠打脸了“精英教育”短剧编剧:一个月写20万字,“这不就是生产队的驴吗?”短剧编剧:一个月写20万字,“这不就是生产队的驴吗?” | 谷雨抖音出手!严打“厚黑学”“伪成功学”;揭秘Kimi大模型:日均获客成本超20万元|大公司动态卷入“金融圈手撕老板第一人”的财通资管:权益产品亏超20亿 管理费收了2亿“重生”的医疗终端:锐捷云桌面引领“流畅革命”房子卖得不错,这些开发商春节给员工放“超级长假”:最多的20天!A股的“龙头时代”:当一个20年周期走向尾声从暴雪客服、到Supercell游戏主管,一款20亿美金手游的“生死故事”3月两起命案:男孩遭杀害、女医生刎颈,让我想起20年前的“真假”女同学颜昌武:观察「街头官僚」20多年,我想知道为什么挨骂的总是他们轰-20真要来了,“六爷”的传奇终于要落幕了?“大语文时代”来临:孩子未来20年的差距,是这样拉开的知名艺人当众和女儿“热吻”长达20秒:没有边界感的父母,有多可怕?靠79元自助,狂赚20年!老字号里的“穷鬼之光”,打趴必胜客对话Traini:4人创业公司用大模型翻译“狗语”,已获得20万用户全中国最“坏”患者:医生最佩服的他,在医院医闹20年 | 医院奇闻录79壕!俄百亿名媛打赢60亿天价离婚案,告完前夫告儿子:他俩还欠我20亿的游艇!ESG+20|“行动者”厦门航空:引路航空业的“零碳未来”“最抠门”老板,衣服打补丁,年入20亿那些年底裸辞的年轻人:有的提前存好20万,有的不想再“凑合”工作ESG+20|“行动者”宁德时代:构建可持续发展未来“您的时代”