面壁智能发布端侧大模型MiniCPM 4.0，端侧推理性能实现飞跃

🤖 由文心大模型生成的文章摘要

面壁智能正式发布端侧大模型MiniCPM 4.0，引发行业广泛关注。该模型凭借自研的CPM.cu推理框架，在性能上实现了重大突破，为端侧大模型的发展树立了新的标杆。

据了解，MiniCPM 4.0通过CPM.cu推理框架，在极限场景下实现了最高220倍的提速，常规场景下也能达到5倍的速度提升。这一显著的性能提升，得益于面壁智能在投机采样、模型压缩量化以及端侧部署框架等方面的创新。通过这些创新，MiniCPM4.0实现了模型体积缩小90%，同时大幅提升了运行速度，为端侧推理带来了“从天生到终生”的丝滑体验。

此次发布的MiniCPM 4.0系列模型包含8B和0.5B两种参数规模，以满足不同场景的需求。其中，8B版本采用了创新的稀疏架构，被称为“闪电稀疏版”。针对单一架构难以兼顾长、短文本不同场景的技术难题，MiniCPM 4.0-8B引入了“高效双频换挡”机制。该机制能够根据任务特征自动切换注意力模式，在处理高难度的长文本、深度思考任务时，启用稀疏注意力以降低计算复杂度；在短文本场景下，切换至稠密注意力以确保精度，实现了长、短文本切换的高效响应。

而0.5B版本则凭借其小巧灵活的特点，被形象地誉为“轻巧灵动的最强小小钢炮”。在保持高性能的同时，极大地降低了计算资源的消耗，尤其适合轻量级应用场景。

兼容性方面，MiniCPM 4.0表现出色，支持在vLLM、SGLang、LlamaFactory、XTuner等多个开源框架上进行部署，为开发者和企业用户提供了更多的选择，方便其根据自身需求进行灵活配置和应用开发。无论是自然语言处理、文本生成，还是数据分析等任务，MiniCPM4.0都能凭借其强大的性能轻松应对。

英特尔与面壁智能在模型开发阶段就紧密合作，通过硬件感知的草稿模型优化策略，结合英特尔加速套件与KVCache内存增强技术，实现了端到端推理效率2.2倍的提升。目前，具有CPU、GPU、NPU三个AI运算引擎的英特尔酷睿Ultra处理器已迅速对MiniCPM 4.0进行适配，并借助OpenVINO™工具套件为其提供优化的卓越性能表现。英特尔再次在NPU上对模型发布提供第零日（Day0）支持，为不同参数量模型和应用场景提供了多样化、有针对性的平台支持。

「93913原创内容，转载请注明出处」

面壁智能发布端侧大模型MiniCPM 4.0，端侧推理性能实现飞跃

相关文章

Canva收购初创公司Leonardo.ai，以增强Magic Studio AI工具

百度AI大模型文心4.5将于3月16日推出

生成式AI赛道引爆资本热情！Anthropic F轮融资130亿美元，估值飙升近三倍

Google AI Studio推出的实验模型目前在Lmarena排名第一

英伟达称Fugatto AI模型可生成“前所未闻的声音”

辩论或有助于人工智能模型趋近真相

推荐

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

苹果沉浸式视频《Elevated》纽约篇上线外媒评测：画面震撼但难触城市灵魂

2026世界VR/AR/XR/MR产业与智能眼镜展5月10日广州启幕打造全球XR产业顶级平台

AI应用推荐

热门

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

友情链接

推荐

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

苹果沉浸式视频《Elevated》纽约篇上线外媒评测：画面震撼但难触城市灵魂

2026世界VR/AR/XR/MR产业与智能眼镜展5月10日广州启幕打造全球XR产业顶级平台