OpenAI发布GPT-5.2：专业能力碾压竞品，三分钟完成商业PPT

🤖 由文心大模型生成的文章摘要

OpenAI宣布正式推出新一代大型语言模型GPT-5.2，其内部代号为“Garli”。这款被官方定位为“迄今最先进智能模型”的产品，不仅创新性地划分出多版本梯队，更在专业级编码、数学推理等核心领域实现跨越式提升，基准测试中以70.9%的胜率击败谷歌Gemini 3 Pro等主流竞品，引发全球科技界震动。

与前代产品不同，GPT-5.2采用清晰的场景化细分策略，构建了Instant（极速版）、Thinking（思考版）和Pro（专业版）三大版本梯队，精准匹配不同用户需求。其中，Instant版主打高效响应，适用于信息查询、文案创作等日常场景；Thinking版聚焦结构化难题解决，在编码开发、长文档分析等领域表现突出，成为开发者和重度企业用户的核心选择；Pro版则面向高难度专业场景，以输出结果的稳健性和可靠性为核心优势，服务于金融建模、科学研究等高端需求。OpenAI表示，新模型将率先向ChatGPT付费计划用户开放，包括Plus、Pro及企业版用户，而上一代GPT-5.1将为付费用户保留三个月后停止服务。

基准测试数据成为GPT-5.2实力的最佳佐证。在OpenAI首创的GDPval评估基准中——该基准涵盖美国GDP贡献最大的9个行业、44种职业的真实知识工作任务——GPT-5.2 Thinking版表现尤为亮眼，在70.9%的任务比拼中击败或打平人类顶尖专家，成为历史上首个表现超越人类专家水平的AI模型。与谷歌Gemini 3 Pro的直接对决中，其优势同样显著：在SWE-Bench Pro（现实世界软件工程基准）测试中，GPT-5.2 Thinking版以55.6%的得分远超Gemini 3 Pro的43.3%；ARC-AGI-2（抽象推理基准）中更是以52.9%的成绩登顶全球第一，全面实现性能碾压。

专业级编码能力的突破是本次升级的核心亮点之一。据OpenAI披露，GPT-5.2的代码错误率较前代降低42%，在SWE-Bench Verified测试中更是拿下80%的高分。与仅测试Python的传统基准不同，SWE-Bench Pro涵盖四种编程语言，且具有更强的抗数据污染能力，更贴近工业场景需求。测试中，模型能自主接收代码库信息，生成补丁解决真实软件工程问题，在调试生产环境代码、重构大型代码库等任务中可大幅减少人工干预。创业团队Windsurf反馈，借助GPT-5.2，团队的多步骤开发效率实现“可衡量的显著提升”，尤其在涉及3D元素的复杂UI开发中表现突出。

「93913原创内容，转载请注明出处」

OpenAI发布GPT-5.2：专业能力碾压竞品，三分钟完成商业PPT

相关文章

Meta打造AI版扎克伯格：7.9万员工可随时对话CEO数字分身

腾讯微信内嵌AI智能体进入落地关键期，最快本月启动合规审批

可灵AI敲定30亿美元融资，投后估值180亿美元，腾讯入局，12个月内拟赴港上市

ChatGPT新增“购物研究”功能：AI重塑电商搜索新生态

阿里巴巴将推出人工智能助手，促进B2B采购

蚂蚁集团发布百灵系列开源MoE模型，计算成本显著降低

推荐

国家电影局发布6月VR电影备案：25部作品集中落地，红色文化与数字技术深度融合

江苏AI眼镜赋能远程执法应用正式上线，安全生产监管迈入智能化新阶段

Headwolf面向欧洲推出隐私优先AI眼镜，应对高退货率痛点

Retro3D应用发布：将Quest 3变为复古3D眼镜

AI应用推荐

热门

国家电影局发布6月VR电影备案：25部作品集中落地，红色文化与数字技术深度融合

江苏AI眼镜赋能远程执法应用正式上线，安全生产监管迈入智能化新阶段

友情链接

推荐

国家电影局发布6月VR电影备案：25部作品集中落地，红色文化与数字技术深度融合

江苏AI眼镜赋能远程执法应用正式上线，安全生产监管迈入智能化新阶段

Headwolf面向欧洲推出隐私优先AI眼镜，应对高退货率痛点

Retro3D应用发布：将Quest 3变为复古3D眼镜