小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio

🤖 由文心大模型生成的文章摘要

小米正式开源其首个原生端到端语音模型——Xiaomi-MiMo-Audio，这一突破性进展在语音领域引发了广泛关注。Xiaomi-MiMo-Audio基于创新预训练架构，并借助上亿小时的海量训练数据，首次在语音领域实现了基于ICL（In-ContextLearning，上下文学习）的少样本泛化，且在预训练过程中观察到明显的“涌现”行为。

五年前，GPT-3通过自回归语言模型结合大规模无标注数据训练，首次展现出ICL能力，开启了人工智能发展的新篇章。然而，在语音领域，现有大模型仍严重依赖大规模标注数据，这不仅限制了模型对新任务的适应能力，也阻碍了其向类人智能的迈进。Xiaomi-MiMo-Audio的出现，打破了这一瓶颈。

小米的研究团队通过创新的预训练架构，对海量的语音数据进行深入挖掘和学习。经过上亿小时的训练，该模型在智商、情商、表现力与安全性等跨模态对齐能力方面均有显著提升，尤其在自然度、情感表达和交互适配等方面达到了拟人化水准。这意味着，用户在与基于该模型的语音交互系统对话时，将获得更加自然、流畅且富有情感的交流体验。

在具体创新点方面，Xiaomi-MiMo-Audio首次证明，将语音无损压缩预训练Scaling至1亿小时，能够“涌现”出跨任务的泛化性，具体表现为Few-ShotLearning（少样本学习）能力。这一发现为语音模型的训练提供了全新的思路和方法，有望推动整个语音领域的发展。此外，该模型还是首个明确语音生成式预训练的目标和定义，并开源一套完整语音预训练方案的模型，其中包括无损压缩的Tokenizer、全新模型结构、训练方法和评测体系。这一开源举措，将为全球的科研人员和开发者提供宝贵的资源和参考，促进语音技术的创新和应用。

目前，小米已在Huggingface平台开源了这款模型的预训练、指令微调模型，同时在Github平台开源了Tokenizer模型。其参数量达1.2B，基于Transformer架构，支持音频重建任务和音频转文本任务。这一开源行动，将极大地降低开发者进入语音模型领域的门槛，激发更多创新应用的诞生。

在性能表现上，Xiaomi-MiMo-Audio同样令人瞩目。在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能。在音频理解基准MMAU的标准测试集上，MiMo-Audio的表现甚至超过了Google的闭源语音模型Gemini-2.5-Flash；在面向音频复杂推理的基准BigBenchAudioS2T任务中，MiMo-Audio也成功超越了OpenAI的闭源语音模型GPT-4o-Audio-Preview。这些优异的成绩，充分证明了Xiaomi-MiMo-Audio的强大实力。

「93913原创内容，转载请注明出处」

小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio

相关文章

ImageBind：跨六种模式的整体人工智能学习

山姆・奥尔特曼预告引爆期待，OpenAI开发者大会解锁创作新可能

Kimi-K2开源大模型上线一周登顶全球开源榜

据报道，Meta正在测试首款内部AI训练芯片

Anthropic重磅发布Claude Opus 4.6，多维度突破重构AI专业能力边界

腾讯优图实验室正式开源智能体框架Youtu-Agent

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban

AI应用推荐

热门

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

友情链接

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban