
小米正式推出自研旗舰级开源语言模型MiMo-V2-Flash。这款总参数达3090亿的MoE架构模型,凭借稀疏激活设计实现“大参数容量+小推理开销”的极致平衡,不仅在核心性能上跻身全球开源第一梯队,更以亲民定价和全场景适配能力,重新定义国产大模型的实用标准。
MiMo-V2-Flash的核心竞争力源于针对性的技术架构革新。采用稀疏激活的 MoE(专家混合)架构,模型总参数规模达3090亿,但推理时仅激活150亿参数,通过“按需调用”专家层大幅降低计算成本。其独创的Hybrid Sliding Window Attention混合注意力机制,以5:1的比例融合滑动窗口注意力与全局注意力,既保证长文本处理时的效率,又不丢失关键信息关联,使KV缓存存储量较同类模型减少近6倍。
多层MTP(多词元预测)推理加速技术的引入,让模型实现“并行解码”突破——传统模型一次仅能生成一个token,而MiMo-V2-Flash可同时预测多个候选token并并行验证,在 3 层MTP配置下实现2.0至2.6倍的实际加速比。实测数据显示,该模型推理速度高达每秒150个token,在RTX 4090硬件上的单机吞吐量达15000 toks/s,是国产竞品的3倍以上,轻松应对高并发场景需求。
在权威基准测试中,MiMo-V2-Flash展现出顶尖实力。数学推理方面,其在AIME 2025竞赛中的表现接近GPT-5和Gemini 3.0 Pro,跻身开源模型前二;代码生成能力更是实现突破,SWE-Bench Verified得分达73.4%,不仅远超阿里QwQ-32B的50.7%,更比肩闭源标杆Claude 4.5 Sonnet,能高效解决真实项目中的Bug修复、网页开发等工程任务。
智能体(Agent)场景适配性同样突出,该模型支持256K超长上下文窗口,可完成数百轮交互和工具调用任务,在τ²-Bench 通信、零售、航空三类任务中均获高分,BrowseComp 搜索代理测试得分经上下文管理优化后达58.3分。除专业场景外,其在日常问答、创意写作、多语言处理等通用任务中也表现稳定,仅在少数纯创意生成场景中略逊于头部闭源模型。
小米在模型生态布局上展现出开放姿态,MiMo-V2-Flash遵循MIT协议全面开源,已将模型权重、推理代码全量上传至Hugging Face,并向SGLang框架贡献核心代码,开发者可直接下载部署,无需依赖官方API限制。目前模型网页端已开放免费体验,API服务限时免费,正式定价仅为0.7元/百万输入token、2.1元/百万输出token,是Gemini-2.5 Pro价格的二十分之一,DeepSeek V3.2的一半。
这种“开源+低价”的策略,彻底打破了中小企业和个人开发者使用高端大模型的成本壁垒。相较于百度文心等需要高规格GPU集群支持的模型,MiMo-V2-Flash仅需12GB显存即可流畅运行,无论是个人用户进行数学建模、独立开发者搭建应用,还是企业批量处理客服对话、文档摘要,都能以极低成本获得顶尖AI能力。
作为小米AI战略的核心基座,MiMo-V2-Flash未来将深度融入“人车家全生态”产品矩阵。在消费电子领域,它将优化手机、平板的语音助手交互体验;在智能家居场景,将为扫地机器人等设备赋予更精准的环境理解和任务规划能力;在智能汽车领域,其强大的实时推理和决策能力,将为SU7的高阶智驾系统提供支持,提升复杂路况下的感知与响应精度。










