奥数金牌级AI问世!DeepSeekMath-V2以自验证能力重构数学推理

🤖 由 文心大模型 生成的文章摘要

由深度求索(DeepSeek)研发的数学推理大模型DeepSeekMath-V2正式发布。这款具备革命性自验证能力的AI模型,不仅在国际数学奥林匹克竞赛(IMO)中斩获金牌,更彻底打破了传统AI”重答案轻过程”的局限,为人工智能在STEM(科学、技术、工程、数学)领域的深度应用开辟了新路径。

在全球顶尖数学竞赛的”试金石”检验中,DeepSeekMath-V2交出了一份震撼业界的成绩单。在IMO 2025竞赛中,模型成功破解6道难题中的5道,以83.3%的得分率远超80%的金牌线,达到全球顶尖选手水平。同期在CMO 2024(中国数学奥林匹克)中,其73.8%的得分率同样达标金牌水准,而在被誉为”北美最难数学竞赛”的Putnam 2024中,更是斩获118分(满分120分)的近满分成绩,大幅超越人类参赛者90分的历史最高分。

第三方基准测试数据同样亮眼。在IMO-ProofBench基础测试集上,DeepSeekMath-V2的表现已超越谷歌DeepMind的Gemini Deep Think等同类金牌模型;在自主构建的CNML测试集(难度对标中国高中数学联赛)中,其在代数、几何、数论等五大领域的成绩全面碾压GPT-5-Thinking-High和Gemini 2.5-Pro两大顶尖模型。在2025年全国高中数学联赛模拟题中,模型解题准确率更是高达96.3%,远超行业同类产品。

DeepSeekMath-V2的颠覆性在于其独创的”生成器-验证器-元验证器”三位一体自循环架构,彻底解决了传统AI数学推理中”逻辑幻觉”和”过程漏洞”的痛点。深度求索团队摒弃了仅以答案对错作为奖励标准的传统训练模式,转而构建一套让AI”自我反思、自我纠错”的强化学习体系。

作为”解题者”的生成器(Generator),不仅需输出完整解题过程,还需主动标注”不确定步骤”,诚实面对疑问反而能获得更高奖励;充当”阅卷老师”的验证器(Verifier)则专注审查推理逻辑,按0分(致命错误)、0.5分(细节瑕疵)、1分(严谨完整)三档打分并标注漏洞;而元验证器(Meta-Verifier)作为”督导员”,专门校验验证器的评判是否准确,将验证分析质量从0.85提升至0.96,大幅降低误判风险。

这种”左右互搏”的机制形成了良性闭环:验证器的评分引导生成器优化推理质量,生成器产出的高难度证明又成为验证器的训练样本,最终实现”无需人工干预的自我演进”。在处理”证明不存在正整数解满足某丢番图方程”这类难题时,模型能自主运用模运算分析、奇偶性判断等多种策略,给出逻辑严密的完整反证路径。

「93913原创内容,转载请注明出处」