面壁智能正式发布端侧大模型MiniCPM 4.0,引发行业广泛关注。该模型凭借自研的CPM.cu推理框架,在性能上实现了重大突破,为端侧大模型的发展树立了新的标杆。
据了解,MiniCPM 4.0通过CPM.cu推理框架,在极限场景下实现了最高220倍的提速,常规场景下也能达到5倍的速度提升。这一显著的性能提升,得益于面壁智能在投机采样、模型压缩量化以及端侧部署框架等方面的创新。通过这些创新,MiniCPM4.0实现了模型体积缩小90%,同时大幅提升了运行速度,为端侧推理带来了“从天生到终生”的丝滑体验。
此次发布的MiniCPM 4.0系列模型包含8B和0.5B两种参数规模,以满足不同场景的需求。其中,8B版本采用了创新的稀疏架构,被称为“闪电稀疏版”。针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B引入了“高效双频换挡”机制。该机制能够根据任务特征自动切换注意力模式,在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度;在短文本场景下,切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。
而0.5B版本则凭借其小巧灵活的特点,被形象地誉为“轻巧灵动的最强小小钢炮”。在保持高性能的同时,极大地降低了计算资源的消耗,尤其适合轻量级应用场景。
兼容性方面,MiniCPM 4.0表现出色,支持在vLLM、SGLang、LlamaFactory、XTuner等多个开源框架上进行部署,为开发者和企业用户提供了更多的选择,方便其根据自身需求进行灵活配置和应用开发。无论是自然语言处理、文本生成,还是数据分析等任务,MiniCPM4.0都能凭借其强大的性能轻松应对。
英特尔与面壁智能在模型开发阶段就紧密合作,通过硬件感知的草稿模型优化策略,结合英特尔加速套件与KVCache内存增强技术,实现了端到端推理效率2.2倍的提升。目前,具有CPU、GPU、NPU三个AI运算引擎的英特尔酷睿Ultra处理器已迅速对MiniCPM 4.0进行适配,并借助OpenVINO™工具套件为其提供优化的卓越性能表现。英特尔再次在NPU上对模型发布提供第零日(Day0)支持,为不同参数量模型和应用场景提供了多样化、有针对性的平台支持。