面壁智能MiniCPM 2.0：手机端多模态AI的新纪元

简介：面壁智能与清华大学联合开源的MiniCPM 2.0，以其超强的多模态能力和优化的中文OCR表现，将手机秒变AI神器。仅2B参数量的模型，在多项评测中超越GPT-4V，为AI技术普及化树立新标杆。

面壁智能MiniCPM 2.0：手机端多模态AI的新纪元

引言

在人工智能快速发展的今天，大模型的应用日益广泛，但如何在移动端实现高效、精准的AI功能，一直是业界关注的焦点。近日，面壁智能与清华大学联合开源了超强端侧多模态大模型MiniCPM 2.0，这一模型不仅在参数规模上实现了优化，更在多项核心指标上超越了行业标杆，将手机秒变AI神器。

MiniCPM 2.0的核心优势

1. 多模态能力显著提升

MiniCPM 2.0作为端侧多模态大模型，其多模态通用能力极为强大。在OpenCompass综合评测榜单上，MiniCPM-V 2.0凭借仅2B的小体量，却超越了10B、17B乃至34B级的主流模型，如Qwen-VL-Chat-10B、CogVLM-Chat-17B和Yi-VL-34B等。这一成就展示了MiniCPM 2.0在多模态处理上的卓越能力，使得手机等端侧设备也能实现高效的图像、文本等多源信息处理。

2. 中文OCR能力超越GPT-4V

在OCR（光学字符识别）领域，MiniCPM 2.0同样表现出色。其OCR能力显著增强，甚至部分能力比肩业界领先的Gemini Pro。在中文OCR性能方面，MiniCPM-V 2.0明显超越了GPT-4V。例如，在识别同一张街景图时，MiniCPM-V 2.0能准确识别出大厦名称，而GPT-4V则只能回答“看不清楚”。这一提升得益于面壁智能自主研发的高清图像解码技术，使得模型能够处理高达180万像素的大图，甚至1:9超宽长图，都能进行高效编码和无损识别。

3. 高效推理与低成本部署

MiniCPM 2.0不仅在性能上实现了突破，还在推理速度和部署成本上进行了优化。以MiniCPM-1.2B为例，该模型参数仅为1.2B，较上一代模型减少了一半，但保留了87%的综合性能。在iPhone 15上的推理速度达到25 token/s，是人类语速的15-25倍。同时，其内存用量较上一代模型减少了51.9%，折算成本下降了60%。这使得MiniCPM 2.0更加适合在移动端等资源受限的设备上部署和运行。

MiniCPM 2.0的实际应用

MiniCPM 2.0的强大多模态能力和高效的推理速度，为其在多个领域的应用提供了可能。例如，在智能手机上，MiniCPM 2.0可以实现高效的图像理解和文本识别功能，提升用户的拍照和阅读体验。在智能客服领域，MiniCPM 2.0可以通过识别用户的图像和文本信息，提供更加精准和个性化的服务。此外，MiniCPM 2.0还可以应用于智能家居、自动驾驶等多个领域，为这些领域带来更加智能和便捷的体验。

结论

面壁智能与清华大学联合开源的MiniCPM 2.0，以其超强的多模态能力和优化的中文OCR表现，为AI技术的普及化树立了新的标杆。这一模型的推出，不仅推动了AI技术在移动端等端侧设备上的应用和发展，也为人工智能技术的进一步创新和应用提供了有力支持。未来，随着技术的不断进步和应用场景的不断拓展，MiniCPM 2.0有望在更多领域发挥重要作用，为人们的生活和工作带来更多便利和惊喜。

面壁智能MiniCPM 2.0：手机端多模态AI的新纪元