面壁智能开源MiniCPM-o4.5:行业首个原生全双工全模态大模型,9B参数解锁终端即时交互新体验

🤖 由 文心大模型 生成的文章摘要

2026年2月4日,面壁智能正式宣布开源新一代全模态旗舰模型MiniCPM-o4.5,这款被誉为“行业首个原生全双工全模态大模型”的产品,以9B轻量化参数规模实现终端部署突破,凭借“边看、边听、主动说”的核心能力,彻底打破传统AI“对讲机”式的回合制交互局限,重构人机即时自由对话新范式,为端侧全模态智能应用的落地开辟全新路径,引发行业广泛关注与热议。

在人工智能交互技术快速迭代的当下,用户对AI助手的期待已从“一问一答”的被动响应,升级为更贴近人类真实沟通的流畅、主动交互——能够同时感知视觉、听觉信息,在输出回应的同时持续捕捉环境变化,实现无延迟、无卡顿的动态交流。然而,当前多数多模态大模型要么依赖云端部署,存在响应延迟、隐私泄露风险;要么虽支持端侧部署,却受限于参数规模与技术架构,无法实现多模态信息的并行处理,交互体验生硬且缺乏灵活性,成为制约端侧智能落地的核心瓶颈。

作为面壁智能“MiniCPM小钢炮”系列的重磅升级产品,MiniCPM-o4.5精准破解行业痛点,凭借三大核心突破重新定义全模态交互标准。其一,原生全双工架构革新交互形态,成为行业首个真正实现“即时自由对话”的大模型。与传统单工或伪双工模型不同,该模型采用端到端全模态架构,融入全双工多模态实时流机制、主动交互机制与可配置语音建模设计,无需依赖VAD等外部工具,就能实现“看、听、说”并行不阻塞——在生成语音或文本回应的同时,持续接收视频、音频等多模态信息流,毫秒级同步处理并动态调整回应策略,就像身边的同伴一样,能主动捕捉环境变化、实时补充表述,彻底摆脱“提交—响应”式的刻板交互模式。

例如,在白板绘图场景中,MiniCPM-o4.5能实时观察落笔过程,同步用自然语言点评每一个细节变化;在扑克牌展示场景中,它不会机械播报数字,而是用“第一张是……”等拟人化表达开展交流,让交互节奏与人类沟通同频共振;在车机场景中,其可在播报导航信息的同时,持续感知路况变化,及时发出安全提醒,帮助司机专注驾驶,充分体现“感知不中断、对话不死板、提醒无需问”的核心优势。而传统模型要么无法实时跟踪动态过程,要么会因外部干扰误判中断,难以实现这种自然流畅的主动交互。

其二,9B轻量化参数实现终端部署突破,兼顾高性能与高能效比。MiniCPM-o4.5延续该系列“以小博大”的核心优势,仅用9B参数规模,就在全模态交互、视觉理解、文档解析、语音生成与声音克隆等多个领域达到行业SOTA(最优)水准——在OpenCompass综合评估中斩获77.6分,在MMBench(视觉理解)、MathVista(数学推理)、OmniDocBench(文档解析)等关键基准测试中,甚至击败了Gemini 2.5-Flash等更大规模的顶级闭源模型。

「93913原创内容,转载请注明出处」