面壁智能开源MiniCPM-o4.5：行业首个原生全双工全模态大模型，9B参数解锁终端即时交互新体验

🤖 由文心大模型生成的文章摘要

2026年2月4日，面壁智能正式宣布开源新一代全模态旗舰模型MiniCPM-o4.5，这款被誉为“行业首个原生全双工全模态大模型”的产品，以9B轻量化参数规模实现终端部署突破，凭借“边看、边听、主动说”的核心能力，彻底打破传统AI“对讲机”式的回合制交互局限，重构人机即时自由对话新范式，为端侧全模态智能应用的落地开辟全新路径，引发行业广泛关注与热议。

在人工智能交互技术快速迭代的当下，用户对AI助手的期待已从“一问一答”的被动响应，升级为更贴近人类真实沟通的流畅、主动交互——能够同时感知视觉、听觉信息，在输出回应的同时持续捕捉环境变化，实现无延迟、无卡顿的动态交流。然而，当前多数多模态大模型要么依赖云端部署，存在响应延迟、隐私泄露风险；要么虽支持端侧部署，却受限于参数规模与技术架构，无法实现多模态信息的并行处理，交互体验生硬且缺乏灵活性，成为制约端侧智能落地的核心瓶颈。

作为面壁智能“MiniCPM小钢炮”系列的重磅升级产品，MiniCPM-o4.5精准破解行业痛点，凭借三大核心突破重新定义全模态交互标准。其一，原生全双工架构革新交互形态，成为行业首个真正实现“即时自由对话”的大模型。与传统单工或伪双工模型不同，该模型采用端到端全模态架构，融入全双工多模态实时流机制、主动交互机制与可配置语音建模设计，无需依赖VAD等外部工具，就能实现“看、听、说”并行不阻塞——在生成语音或文本回应的同时，持续接收视频、音频等多模态信息流，毫秒级同步处理并动态调整回应策略，就像身边的同伴一样，能主动捕捉环境变化、实时补充表述，彻底摆脱“提交—响应”式的刻板交互模式。

例如，在白板绘图场景中，MiniCPM-o4.5能实时观察落笔过程，同步用自然语言点评每一个细节变化；在扑克牌展示场景中，它不会机械播报数字，而是用“第一张是……”等拟人化表达开展交流，让交互节奏与人类沟通同频共振；在车机场景中，其可在播报导航信息的同时，持续感知路况变化，及时发出安全提醒，帮助司机专注驾驶，充分体现“感知不中断、对话不死板、提醒无需问”的核心优势。而传统模型要么无法实时跟踪动态过程，要么会因外部干扰误判中断，难以实现这种自然流畅的主动交互。

其二，9B轻量化参数实现终端部署突破，兼顾高性能与高能效比。MiniCPM-o4.5延续该系列“以小博大”的核心优势，仅用9B参数规模，就在全模态交互、视觉理解、文档解析、语音生成与声音克隆等多个领域达到行业SOTA（最优）水准——在OpenCompass综合评估中斩获77.6分，在MMBench（视觉理解）、MathVista（数学推理）、OmniDocBench（文档解析）等关键基准测试中，甚至击败了Gemini 2.5-Flash等更大规模的顶级闭源模型。

「93913原创内容，转载请注明出处」

面壁智能开源MiniCPM-o4.5：行业首个原生全双工全模态大模型，9B参数解锁终端即时交互新体验

相关文章

首届国际通用人工智能大会聚焦AGI发展，腾讯、淘天展示技术成果

消除噪音：NVIDIA Broadcast为直播和远程工作提供强大助力

小米AI实验室发布ZipVoice系列语音合成TTS模型，解决零样本语音合成痛点

xAI为iOS版Grok语音模式推出视觉功能

智源发布悟界・Emu3.5：NSP技术引领多模态世界模型迈入“行动智能”新纪元

智谱华章叩响港交所大门冲刺 “全球大模型第一股”

推荐

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

VITURE亮相WAIC 2026：发布Auto Immersive 3D技术，开启XR全系统一键3D“升维”

国内VR电影迎规模化落地拐点第二批22部作品获公映“龙标”

AI应用推荐

热门

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

友情链接

推荐

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

VITURE亮相WAIC 2026：发布Auto Immersive 3D技术，开启XR全系统一键3D“升维”

国内VR电影迎规模化落地拐点第二批22部作品获公映“龙标”