谷歌DeepMind发布新型语言模型架构MoR，性能与效率双突破

🤖 由文心大模型生成的文章摘要

7月17日，谷歌DeepMind与韩国科学技术院（KAIST）的研究人员联合发布了一种名为“Mixture-of-Recursions”（MoR）的新型语言模型架构。该架构在保持模型性能的同时，实现了推理速度翻倍、训练计算量减少，并降低了约50%的KV缓存内存使用，为未来语言模型架构设计提供了极具潜力的发展方向。

自2017年问世以来，Transformer架构已成为大型语言模型的技术基础，几乎所有先进模型都构建于其上。然而，随着模型规模的不断扩大，Transformer架构对计算和内存资源的需求急剧增加，使得训练和部署成本变得极为高昂。过去的效率优化方法往往只侧重于单一方向，例如通过参数共享来缩小模型尺寸，或借助自适应计算来按需分配算力，但很少能同时优化多个效率目标。

MoR架构的核心创新在于将递归计算与动态路由机制相结合，在一个统一的框架内解决了多重效率问题。在标准的Transformer模型中，输入文本的每个token都需经过相同数量的计算层处理。而MoR改变了这一模式，允许不同的token依据自身的复杂度接受不同深度的处理。

具体而言，MoR使用共享的参数块来提升参数效率，同时通过一个轻量级的“路由器”决定每个token需要经历多少次递归计算。研究团队测试了多种路由策略，如“专家选择”（expert-choice）和“token选择”（token-choice），以平衡计算负载并避免信息处理中的逻辑问题。在参数共享方面，测试结果显示“Middle-Cycle”策略表现最佳，该策略保持模型的第一层和最后一层使用独立参数，仅在中间层之间共享权重，从而在参数效率和模型表达能力之间取得了较好的平衡。

内存管理是MoR的另一项关键改进。即便参数共享，传统递归模型在每一层递归时仍会产生独立的KV缓存，导致内存占用居高不下。MoR提出了两种新的KV缓存策略来解决这一问题。一种是“递归式缓存”，只为被路由到特定递归步骤的token存储KV数据，并将注意力计算限制在这些本地数据中，有效降低了KV缓存的内存占用和数据读写量。另一种“递归共享”策略更进一步，利用所有token都会经过第一个递归块的特性，只在第一步缓存KV数据，供后续所有递归步骤重复使用，最大限度地节省了内存。

研究团队在1.35亿到17亿参数的多个模型规模上进行了测试。结果表明，在相同的训练计算预算下，采用MoR架构的模型，尽管其参数量比基准Transformer模型少近一半，但在多项少样本学习任务中的平均准确率达到了43.1%，超过了基准模型的42.3%。

更重要的是，MoR更高的计算效率使其能够在相同的计算预算内处理更多的训练数据，进而提升了模型的最终性能。在固定训练数据量的对比实验中，一个MoR配置在使用少25%训练计算量的情况下，其性能依然超越了基准模型，同时训练时间减少了19%，峰值内存使用降低了25%。

在推理性能上，MoR的优势更为显著。它采用了连续深度批处理技术，可将处在不同计算阶段的token组合到同一个批次中进行处理，因为它们都使用相同的参数块。该技术与模型的早期退出机制相结合，显著提升了处理吞吐量。在3.6亿规模的模型测试中，MoR-4配置在特定设置下实现了高达2.06倍的推理加速。

「93913原创内容，转载请注明出处」

谷歌DeepMind发布新型语言模型架构MoR，性能与效率双突破

相关文章

国行苹果AI终获“通行证”：Apple Intelligence完成备案，上线进入最后冲刺

《AI大模型技术方案白皮书》发布移远通信以整合方案领跑部署领域

IDC：到2027年，生成式人工智能支出将达到260亿美元

国产AI逆袭！阿里千问Qwen登顶AI实盘投资大赛，GPT-5持续垫底

DeepSeek Janus Pro AI模型在图像生成方面击败竞争对手

DeepSeek上线专家模式首推双模式分层设计

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆

AI应用推荐

热门

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

友情链接

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆