新一代旗舰端侧模型：面壁 MiniCPM 2.0 发布

2024-04-28 13:56:16 来源：实况网

小大

军事APP 头条APP

全球领先的旗舰端侧模型系列面壁 MiniCPM 上新！一口气带来：

l 端侧最强的多模态模型 MiniCPM-V 2.0：OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;

l 适配更多端侧场景的基座模型 MiniCPM-1.2B：性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;

l 最小的 128K 长文本模型 MiniCPM-2B-128K ;

l 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B

此前发布的 MiniCPM 第一代，凭借其强有力的性能与极致低成本，堪称大模型里的小钢炮。两个月后的今天，我们秉承高效 Scaling Law 的科学方法论，持续挖掘小钢炮的性能极限，将其升级为新一代 MiniCPM 2.0 系列模型。

端侧最强的多模态模型

刷新OCR综合性榜单开源模型最佳表现，部分能力比肩Gemini-Pro、GPT-4V

多模态能力已成为当前大模型的核心竞争力之一，智能终端设备由于其影像视觉处理的高频需求,对在端侧部署的人工智能模型提出了更高的多模态识别与推理能力要求。

这一次，MiniCPM-V 2.0 不仅带来最强端侧多模态通用能力，更带来极为惊艳的 OCR 表现。通过自研的高清图像解码技术，可以突破传统困境，让更为精准地识别充满纷繁细节的街景、长图在端侧成为可能。

甚至，还能识读 2300 多年前的清华简上一些难以辨别的古老字迹，以卓越的 OCR 能力，为我们叩响识读老文字的大门。譬如，它不仅可以在三根竹简中准确找到最短的竹简，也能精准地识别出上面的字迹。甚至，连无从辨别的复杂楚文字都被正确解读。

作为多模态识别与推理能力的硬核指标，新一代 MiniCPM-V 2.0 在 OCR(光学字符识别)方面的成绩，已被一项项权威榜单验证。

在权威 OCR 综合能⼒榜单 OCRBench 中，MiniCPM-V 2.0 秉承面壁「小钢炮」系列「以小博大」传统，刷新了开源模型 SOTA。在场景图片文字识别榜单 TextVQA 中，越级超越全系 13B 量级通用模型，甚至部分能力比肩多模态领域代表性模型 Gemini Pro。

这一次，新一代 MiniCPM-V 2.0 还加速解锁了过去难以识别的高清图像信息识别，譬如街景、长图这类典型场景。

为什么我们在手机上随手可得的影像，用于 OCR 识别却如此困难?这是由于传统处理方法，只能处理固定尺寸图片，会将大像素或不规则图片强制压缩，导致原始图片中丢失大量信息、难以识别，这对充满了细节文字信息、又大量零散分布的街景类画面提出了极大挑战。

得益于自研高清图片解码技术，新一代 MiniCPM-V 2.0 带来清晰大图识别体验的大幅提升。可以处理最大 180 万像素高清大图，甚至 1:9 极限宽高比的高清图片(譬如要翻阅好几屏的长图)，对它们进行高效编码和无损识别。

具体效果如下：

不仅如此，在中文OCR 能力方面，MiniCPM-V 2.0 展现的性能效果明显超越了 GPT-4V。例如，识别同一张街景图，MiniCPM-V 2.0 可以准确地叫出大厦的名字，但 GPT-4V 却只能回答“看不清楚”。

此外，多模态通用能力是衡量基座模型水平的重要指标。

目前，在多模态大模型综合评测权威平台 OpenCompass 榜单上，MiniCPM-V 2.0 仅以 2B 量级规模，以小博大超过了一众10B、17B甚至34B量级主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。

在又一项多模态大模型性能的重要指标：幻觉能力方面，MiniCPM-V 2.0 取得与 GPT-4V 持平水平(Object HalBench 榜单)。

目前，MiniCPM-V 2.0 已经可部署于智能手机，在图像理解和推理效率方面取得了卓越的表现：

小钢炮四连发，还带来

更适配端侧场景的1.2B尺寸，以及长文本、MoE版本

在「高效大模型」的路径下，把大模型变得更小!更强!推动大模型落地应用!

我们再次追求极致，制造了一颗小小钢炮—— MiniCPM-1.2B。参数减少一半，速度提升 38%，成本下降 60%(1元= 4150000 tokens) 。在手机上的推理速度达到 25 token / s，甚至相当于人的语速的 15 ～25 倍。

在公开测评榜单上，MiniCPM-1.2B 延续以小博大、越级超越的传统，取得了综合性能超过 Qwen1.8B、Llama2-7B 甚至超过 Llama2-13B 的优异成绩。

25 token / s，则是将 MiniCPM-1.2B 离线部署于 iPhone 15 的实测成绩。

同时而来的，还有当前最小的“128K长文本”模型，将原先4K上下文窗口一口气扩增至 128K(20万字)。

在多维度长文本评测集 InfiniteBench 上，在多维度综合性能评测中表现卓越，综合性能超过了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量级模型。此评测集针对大模型在长文本方面的五项能力(检索、数学、代码、问答和摘要)而设计，相较于当前主流的仅关注检索能力的大海捞针测试更加全面。