爆打多模态王者 GPT-4V、Gemini Pro！这个小小端侧模型杀疯了！

国际科技财经移民娱乐民生时事体育

Bendi新闻

7月前

夕小瑶科技说分享
多模态王者 GPT-4V、Gemini Pro ，竟然被一个端侧模型打爆了！而且这个模型还凭强劲实力拿下了全球最强端侧多模态模型王座！

有图有真相。比如输入一张充满繁密字迹的《三体》主体的建筑图， GPT-4V 压根答不上来。

但这个端侧模型却能一眼道破，甚至还能推理出该建筑对《三体》的纪念意义：

或许你会觉得要达到力压 GPT-4V 的效果，这个模型肯定得上千亿参数起步；

但如果我告诉你这个端侧模型只有8B参数，你敢信吗？笔者我最开始打死也是不信的，毕竟 GPT-4V 据说可是有几千上万亿参数。

然而事实摆在眼前，我却不得不信。

那么这背后究竟是什么模型？又是如何做到的呢？

不卖关子了，这背后就是由国内大模型研发头部公司面壁智能最新打造的最强端侧多模态模型——MiniCPM-Llama3-V 2.5。

据说内部叫做小钢炮 520 特别版，是送给开源社区的一份情人节礼物 🎁

啧啧啧，这浪漫的简直不像个科技公司。MiniCPM-Llama3-V 2.5的厉害之处在于，它不仅是最强端侧多模态模型，而且支持30多种语言，此外，它还同时具备：

最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V；
OCR 能力 SOTA！9 倍像素更清晰，难图长图长文本精准识别；
图像编码快 150 倍！首次端侧系统级多模态加速；
芜湖，简直强到起飞！！！

此外，作为全球「以小博大」著称的MiniCPM 旗舰端侧模型，正在不断推新端侧多模态能力天花板，可以说 MiniCPM-Llama3-V 2.5 用实力证明了——模型不是只有“参数越大才能性能越好”，而是可以用最小参数撬动最强性能！！！

随着大模型参数愈益降低、端侧算力愈益增强，高性能端侧模型势头强劲。而手机、PC等智能终端设备因其高频的影像视觉处理需求，对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。

从面壁「小钢炮」系列模型三个月、三级跳的迅猛进化来看，推理成本大大降低、大模型高效落地的那一天，不会太久到来！

➤ MiniCPM-Llama3-V 2.5开源地址：

https://github.com/OpenBMB/MiniCPM-V

➤ MiniCPM 系列开源地址：

https://github.com/OpenBMB/MiniCPM

➤ Hugging Face 下载地址：

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

OCR 能力SOTA + 最强端侧多模态
8B 端侧模型，超越 GPT-4V, Gemini Pro

这一次，MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级，贡献了惊艳的 OCR（光学字符识别）SOTA 成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

▲模型雷达图，MiniCPM-Llama3-V 2.5 综合能力水平全面优秀

在综合评测权威平台 OpenCompass 上，MiniCPM-Llama3-V 2.5 以小博大，综合性能超越多模态巨无霸 GPT-4V 和 Gemini Pro。

OCR（光学字符识别）是多模态大模型最重要的能力之一，也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5 在 OCR 综合能⼒权威榜单 OCRBench 上，越级超越了 Claude 3V Opus、Gemini Pro 等标杆模型，实现了性能SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上，MiniCPM-Llama3-V 2.5 在Object HalBench 榜单上超越了 GPT-4V 等众多模型（注：目标幻觉率应为0）。

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上，MiniCPM-Llama3-V 2.5 再次超越 GPT-4v 和 Gemini Pro，这对8B模型而言难能可贵。

快 150 倍！首次端侧系统级多模态加速
支持 30+ 多语言，拥抱世界开源社区

首次进行端侧系统加速，MiniCPM-Llama3-V 2.5 已高效部署手机。

在图像编码方面，面壁首次整合 NPU 和 CPU 加速框架，并结合显存管理、编译优化技术，在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面，目前开源社区的报告结果中，Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下，相比之下，多模态大模型的端侧运行面临着更大的效率挑战，经过 CPU、编译优化、显存管理等优化方式，我们将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

目前，语言模型的图像编码加速也在进行中，更灵敏互动体验即将到来。

此处 GIF 为 2 倍速，面壁正进一步加速优化中

有别于常见的中英双语模型，MiniCPM-Llama3-V2.5 可支持30+多种语言，包括德语、法语、西班牙语、意大利语、俄语等主流语言，基本覆盖一带一路国家。

基于自研的跨语言泛化技术，仅通过少量翻译的多模态数据的指令微调，就可对多语言多模态对话性能高效泛化。现在，上百个国家的几十亿人口，终于可以自如使用母语和端侧大模型交流，不再游离于前沿科技发展的主线，也因此享有更多AI应用落地、生活品质提升与参与科技角逐的可能性。真正让更多人享受大模型的乐趣！

多语言案例展示（语言加速工作正在进行，此处为2倍速）

▲多语言版本 LLaVABench 评测结果，MiniCPM-Llama3-V 2.5 对话能力更胜一筹；

9倍像素更清晰难图长图长文本精准识别

OCR 技术进一步打磨，复杂推理与多模态识别能力再进化，MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别，再度带来出众表现！

面壁自研高清图像高效编码技术，我们可以高效编码及无损识别180 万高清像素图片，并且支持任意长宽比、甚至「有点变态」的 1:9 极限比例图像，突破了传统技术仅能识别 20 万像素小图的瓶颈。此前，MiniCPM-V 系列多模态模型就因对于街景、长图等困难场景的高效解析，赢得了良好口碑。

技术升级， MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破。可更好地深入洞察图像，在更复杂、更接近人类的水平上进行思考和解决问题，堪称大模型中的“小福尔摩斯”。

复杂推理能力使得模型不仅能理解单一文本或图像等模态信息，还能跨越不同模态间的综合信息，做出更准确和深入的分析。

另外，识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现，MiniCPM-Llama3-V 2.5 不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系，还能给出清晰易懂的解释说明。

给妈妈转发一张亚洲饮食金字塔图，但她读不懂英文？MiniCPM-Llama3-V 2.5 凭借出色的推理能力，不仅深入理解分析图像里的饮食类型和分布，还能洞察背后的营养均衡需求，进行智能化搭配组合，直接一次性用中文推荐出满满一周的三餐食谱。

全文OCR能力方面，结构化信息提取能力的提升，对于长图长文本的精准识别大有帮助。例如输入一张包含稠密信息的长文长图，MiniCPM-Llama3-V 2.5 一字不差地识别出了全文。

再给一张要翻阅好几屏的图文复杂交错的长图难图长文本，MiniCPM-Llama3-V 2.5 也能精准给出正确的回答。

再输入一张手机拍摄的火车票，MiniCPM-Llama3-V 2.5 也能准确提取信息，给出无误的"json"格式输出。

最后，面壁是开源社区的热心贡献者，也是受益者。

本次 MiniCPM-Llama3-V 2.5的飞跃表现依托于面壁团队对多模态技术的创新打磨，更离不开 Llama3-8B-Instruct 作为基座模型的性能基础。感谢世界优秀同行的卓越工作，令我们站在彼此的肩膀上，伸手摘星，指向更高、更璀璨的科学无垠之处。

我们也将持续回报社区，开源更多优秀模型、数据、infra工具等，将开源开放的星火播撒世界协作创新之苍穹。

➤ MiniCPM-Llama3-V 2.5开源地址：
https://github.com/OpenBMB/MiniCPM-V
➤ MiniCPM 系列开源地址：
https://github.com/OpenBMB/MiniCPM
➤ Hugging Face 下载地址：
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

微信扫码关注该文公众号作者

来源：夕小瑶科技说

爆打多模态王者 GPT-4V、Gemini Pro！这个小小端侧模型杀疯了！

OCR 能力SOTA + 最强端侧多模态 8B 端侧模型，超越 GPT-4V, Gemini Pro

快 150 倍！首次端侧系统级多模态加速 支持 30+ 多语言，拥抱世界开源社区

9倍像素更清晰 难图长图长文本精准识别

相关新闻

OCR 能力SOTA + 最强端侧多模态
8B 端侧模型，超越 GPT-4V, Gemini Pro

快 150 倍！首次端侧系统级多模态加速
支持 30+ 多语言，拥抱世界开源社区

9倍像素更清晰难图长图长文本精准识别