
小米集团与北京大学联合在arXiv平台发表重磅论文,以“95后AI天才少女”罗福莉为通讯作者之一的研究团队,提出名为Rollout Routing Replay(R3)的创新性方法,成功攻克混合专家(MoE)模型在强化学习(RL)训练中的稳定性难题。这一突破不仅为大模型性能提升扫清关键障碍,更标志着国内产学研结合在AI基础研究领域的重要进展。
MoE架构作为大模型规模化的核心基石,通过门控网络对每个token稀疏激活部分专家参数,实现了模型容量与推理成本的解耦。然而,当强化学习——这一提升大模型复杂推理能力的关键技术——与MoE结合时,路由机制引发的“训练-推理错配”成为行业顽疾。
“问题本质是路径错乱而非优化不足。”论文指出,MoE的路由选择具有离散不确定性,且训练与推理引擎的计算差异会导致同一输入激活不同专家集合,这种偏差在强化学习循环中被指数级放大,最终引发训练崩盘:损失曲线剧烈振荡、奖励突然塌陷、输出长度异常。此前GSPO的序列级采样、TIS的token级修正等方法,在稠密模型中效果显著,却无法解决MoE的结构性矛盾。实验显示,未优化的MoE模型训练-推理KL散度高达1.5×10⁻³,是稠密模型的两倍多。
研究团队跳出“优化器修修补补”的传统思路,提出“记录推理路由,回放训练过程”的核心解决方案:
推理端捕获:在序列生成期间,从推理引擎实时记录每层、每个token的专家路由掩码(Top-Kmask);
训练端回放:将捕获的路由掩码直接重用于训练前向传播,同时保留训练逻辑的softmax计算以维持梯度流;
工程优化:通过路由掩码缓存机制与KVCache无缝集成,相同前缀token可直接复用掩码,在多轮对话的Agent场景中几乎不增加计算开销,训练速度保持在原速97%以上。
“这种设计实现了双重目标:既让训练时的专家选择与推理完全对齐,又确保梯度能有效流回路由器。”罗福莉团队解释,这从根本上消除了路由层级、token层级、序列层级的三重错配。








