
小米正式开源其首个原生端到端语音模型——Xiaomi-MiMo-Audio,这一突破性进展在语音领域引发了广泛关注。Xiaomi-MiMo-Audio基于创新预训练架构,并借助上亿小时的海量训练数据,首次在语音领域实现了基于ICL(In-ContextLearning,上下文学习)的少样本泛化,且在预训练过程中观察到明显的“涌现”行为。
五年前,GPT-3通过自回归语言模型结合大规模无标注数据训练,首次展现出ICL能力,开启了人工智能发展的新篇章。然而,在语音领域,现有大模型仍严重依赖大规模标注数据,这不仅限制了模型对新任务的适应能力,也阻碍了其向类人智能的迈进。Xiaomi-MiMo-Audio的出现,打破了这一瓶颈。
小米的研究团队通过创新的预训练架构,对海量的语音数据进行深入挖掘和学习。经过上亿小时的训练,该模型在智商、情商、表现力与安全性等跨模态对齐能力方面均有显著提升,尤其在自然度、情感表达和交互适配等方面达到了拟人化水准。这意味着,用户在与基于该模型的语音交互系统对话时,将获得更加自然、流畅且富有情感的交流体验。
在具体创新点方面,Xiaomi-MiMo-Audio首次证明,将语音无损压缩预训练Scaling至1亿小时,能够“涌现”出跨任务的泛化性,具体表现为Few-ShotLearning(少样本学习)能力。这一发现为语音模型的训练提供了全新的思路和方法,有望推动整个语音领域的发展。此外,该模型还是首个明确语音生成式预训练的目标和定义,并开源一套完整语音预训练方案的模型,其中包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。这一开源举措,将为全球的科研人员和开发者提供宝贵的资源和参考,促进语音技术的创新和应用。
目前,小米已在Huggingface平台开源了这款模型的预训练、指令微调模型,同时在Github平台开源了Tokenizer模型。其参数量达1.2B,基于Transformer架构,支持音频重建任务和音频转文本任务。这一开源行动,将极大地降低开发者进入语音模型领域的门槛,激发更多创新应用的诞生。
在性能表现上,Xiaomi-MiMo-Audio同样令人瞩目。在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能。在音频理解基准MMAU的标准测试集上,MiMo-Audio的表现甚至超过了Google的闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准BigBenchAudioS2T任务中,MiMo-Audio也成功超越了OpenAI的闭源语音模型GPT-4o-Audio-Preview。这些优异的成绩,充分证明了Xiaomi-MiMo-Audio的强大实力。








