
国产AI企业DeepSeek(深度求索)正式发布新一代旗舰大模型DeepSeek-V4系列(预览版),并同步官宣完成与华为昇腾950PR、寒武纪、海光信息等国产主流AI芯片的原生兼容适配,核心算力支撑实现全链路自主可控,为国产AI生态摆脱外部依赖、构建自主算力体系注入关键动能。
DeepSeek-V4采用创新MoE(混合专家)架构,基于33万亿Token预训练数据训练,全系开源(MIT协议,支持免费商用与二次开发),分为旗舰版V4-Pro与轻量版V4-Flash两大核心版本,精准覆盖不同场景需求。其中,V4-Pro总参数达1.6T,激活参数49B,主打高精度推理与复杂Agent任务,性能比肩国际顶级闭源模型;V4-Flash总参数284B,激活参数13B,聚焦低成本日常推理,适配大规模商业化落地。两大版本均标配1M Token超长上下文,支持384K Token最大输出,推理效率较前代提升1.8倍,内存占用减少40%,兼顾性能与落地成本。
此次适配的核心突破的是,DeepSeek-V4成为全球首个全面落地华为昇腾950PR芯片的顶尖MoE大模型,打破国产大模型依赖CUDA生态的惯例,实现从训练到推理全流程国产算力替代。华为昇腾950PR作为2026年一季度推出的国产高端推理芯片,搭载自研HiBL 1.0 HBM内存,FP4单卡算力达1.56P FLOPS,较英伟达H20提升2.87倍,单卡可直接加载70B参数大模型,高频推理场景性能优势显著。
DeepSeek团队历时16个月完成全栈迁移,针对昇腾950PR架构深度优化,实测显示,V4-Pro在8K输入场景下昇腾950超节点TPOT约20ms;V4-Flash单卡Decode吞吐最高达4700TPS,精度无损耗且速度提升60%。同时,模型同步完成对寒武纪、海光信息等8家国产主流AI芯片的原生适配,企业可灵活选择算力硬件。
此次适配是国产大模型与国产算力芯片深度协同的标志性事件,彻底改写国内AI产业依赖海外算力的格局,将国产算力从“备选”升级为“核心选项”。从产业价值来看,昇腾950PR已批量交付,2026年计划生产75万颗,充足产能可支撑DeepSeek-V4在智能制造、智能办公等领域规模化落地,大幅降低模型部署门槛与成本。
行业层面,此次联动形成“大模型+算力芯片”双向赋能闭环:DeepSeek-V4为国产芯片提供顶尖适配案例,提升其生态吸引力;国产芯片则为模型提供高性能、低成本算力支撑,推动国产AI生态从“单点突破”向“体系化成熟”跨越。








