国产算力实现重大突破!深圳依托昇腾910C集群完成1.6万亿参数大模型全参数训练

🤖 由 文心大模型 生成的文章摘要

深圳河套学院AI训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为等多方力量,协同深智城AI算力平台完成技术攻关,依托昇腾910C国产AI算力集群,顺利实现1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。此次成果验证了国产AI芯片具备承载世界级超大参数模型训练的能力,填补了行业技术短板,为全球同类技术探索积累了宝贵实践经验,助力国内AI产业链自主可控发展迈上新台阶。

万亿参数大模型是人工智能前沿领域的核心载体,在逻辑推理、数理运算、代码生成、长文本解析等场景表现优异。而全参数训练是大模型迭代升级的关键环节,对硬件算力、集群调度、通信协同、系统稳定性都有着极为严苛的要求。长期以来,全球万亿级大模型的全参数训练大多依赖海外高端算力产品,国内国产算力此前仅多用于模型推理、小幅微调,难以胜任高难度的全参数深度训练,这也成为制约我国AI产业自主发展的一大瓶颈。

本次训练对象DeepSeek-V4-Pro采用混合专家模型(MoE)架构,进一步放大了训练难度。该架构日常运行仅调用部分“专家模块”,运行效率较高,但在后训练阶段,模块间交互通信量远超常规模型,叠加动态注意力机制,对芯片算力调度、显存管理提出极限挑战。如果将模型推理比作简单通行,那么全参数后训练就如同搭建复杂立体交通网络,计算量、数据交互量成倍提升,考验着整套算力集群的综合性能。

面对重重技术难题,研发团队接连实现三大核心技术突破,保障训练任务平稳落地。其一为显存拼图技术,团队针对万亿级参数体量设计精密分布式承载方案,将海量模型参数合理分配至千卡集群的每一块计算卡,实现算力资源精细化调度。其二是负载均衡优化,专门针对MoE架构特点调整调度策略,均衡各个“专家模块”的工作负荷,有效解决跨卡通信拥堵问题。其三是搭建全流程可视化监控体系,对训练状态实时监测、动态管控,保障整个训练周期稳定运行。据介绍,本次训练历时1500多步,全程未发生一次中断或报错,稳定性表现突出。

在数据层面,团队同步优化建模SFT数据飞轮体系,打造了从高质量问答样本生成、自动质检到样本沉淀迭代的完整闭环。该体系可生成结构规范、可校验的训练数据,覆盖多类题型与应用场景,依托3K数据蒸馏实验验证,模型多项评测指标表现亮眼,NL4OPT优秀率达95.9%,CodePass@1达到92.9%。同时这套数据方案支持规模化扩展,能够持续扩充优质训练样本,为大模型能力迭代提供坚实数据支撑。

从最终运行指标来看,本次训练成果达到工业级标准。目前该项目模型算力利用率(MFU)突破30%,关键训练算子效率提升14%,充分证明昇腾910C集群不仅能实现大模型基础推理,更可稳定支撑顶级万亿参数大模型的全参数训练,国产算力正式实现从“能用”到“能训、训稳、训优”的跨越。