🤖 由 文心大模型 生成的文章摘要
小米通过“Xiaomi MiMo”公众号宣布,正式开源其首个“为推理而生”大模型——Xiaomi MiMo。该模型在数学推理和代码竞赛公开测评集中展现出卓越性能,以仅7B的参数规模,成功超越OpenAI的闭源推理模o1-mini,以及阿里Qwen更大规模开源推理模型QwQ-32B-Preview。
MiMo由新成立的“小米大模型Core团队”开发,旨在通过整合预训练与后训练技术,全面提升模型的推理能力。官方表示,MiMo的出色表现得益于多方面的创新,包括数据处理和算法优化。在预训练阶段,团队着重挖掘丰富的推理语料,并合成了约200B tokens的推理数据,通过三阶段训练策略,逐步提升训练难度,总训练量达到25T tokens。
后训练阶段则采用了高效稳定的强化学习算法,团队提出Test Difficulty Driven Reward策略,有效解决了奖励稀疏问题,并引入Easy Data Re – Sampling策略,进一步稳定RL训练。此外,团队设计的Seamless Rollout系统使RL训练速度提升了2.29倍,验证速度提升1.96倍。
在实际应用中,MiMo在数学推理(AIME 24 – 25)和代码竞赛(LiveCodeBench v5)公开测评集中的表现尤为突出,展现了其强大的推理能力。这不仅为研究人员和开发者提供了新的工具,也预示着小米在AI领域的技术实力正不断增强。
小米此次开源Xiaomi MiMo,将进一步推动行业技术的发展,为AI领域注入新的活力。感兴趣的开发者可通过HuggingFace获取开源代码,技术报告也可在GitHub上查阅。
「93913原创内容,转载请注明出处」