谷歌DeepMind发布新型语言模型架构MoR,性能与效率双突破

🤖 由 文心大模型 生成的文章摘要

7月17日,谷歌DeepMind与韩国科学技术院(KAIST)的研究人员联合发布了一种名为“Mixture-of-Recursions”(MoR)的新型语言模型架构。该架构在保持模型性能的同时,实现了推理速度翻倍、训练计算量减少,并降低了约50%的KV缓存内存使用,为未来语言模型架构设计提供了极具潜力的发展方向。​

自2017年问世以来,Transformer架构已成为大型语言模型的技术基础,几乎所有先进模型都构建于其上。然而,随着模型规模的不断扩大,Transformer架构对计算和内存资源的需求急剧增加,使得训练和部署成本变得极为高昂。过去的效率优化方法往往只侧重于单一方向,例如通过参数共享来缩小模型尺寸,或借助自适应计算来按需分配算力,但很少能同时优化多个效率目标。​

MoR架构的核心创新在于将递归计算与动态路由机制相结合,在一个统一的框架内解决了多重效率问题。在标准的Transformer模型中,输入文本的每个token都需经过相同数量的计算层处理。而MoR改变了这一模式,允许不同的token依据自身的复杂度接受不同深度的处理。​

具体而言,MoR使用共享的参数块来提升参数效率,同时通过一个轻量级的“路由器”决定每个token需要经历多少次递归计算。研究团队测试了多种路由策略,如“专家选择”(expert-choice)和“token选择”(token-choice),以平衡计算负载并避免信息处理中的逻辑问题。在参数共享方面,测试结果显示“Middle-Cycle”策略表现最佳,该策略保持模型的第一层和最后一层使用独立参数,仅在中间层之间共享权重,从而在参数效率和模型表达能力之间取得了较好的平衡。

内存管理是MoR的另一项关键改进。即便参数共享,传统递归模型在每一层递归时仍会产生独立的KV缓存,导致内存占用居高不下。MoR提出了两种新的KV缓存策略来解决这一问题。一种是“递归式缓存”,只为被路由到特定递归步骤的token存储KV数据,并将注意力计算限制在这些本地数据中,有效降低了KV缓存的内存占用和数据读写量。另一种“递归共享”策略更进一步,利用所有token都会经过第一个递归块的特性,只在第一步缓存KV数据,供后续所有递归步骤重复使用,最大限度地节省了内存。​

研究团队在1.35亿到17亿参数的多个模型规模上进行了测试。结果表明,在相同的训练计算预算下,采用MoR架构的模型,尽管其参数量比基准Transformer模型少近一半,但在多项少样本学习任务中的平均准确率达到了43.1%,超过了基准模型的42.3%。​

更重要的是,MoR更高的计算效率使其能够在相同的计算预算内处理更多的训练数据,进而提升了模型的最终性能。在固定训练数据量的对比实验中,一个MoR配置在使用少25%训练计算量的情况下,其性能依然超越了基准模型,同时训练时间减少了19%,峰值内存使用降低了25%。​

在推理性能上,MoR的优势更为显著。它采用了连续深度批处理技术,可将处在不同计算阶段的token组合到同一个批次中进行处理,因为它们都使用相同的参数块。该技术与模型的早期退出机制相结合,显著提升了处理吞吐量。在3.6亿规模的模型测试中,MoR-4配置在特定设置下实现了高达2.06倍的推理加速。

「93913原创内容,转载请注明出处」