OpenAI发布GPT-5.2:专业能力碾压竞品,三分钟完成商业PPT

🤖 由 文心大模型 生成的文章摘要

OpenAI宣布正式推出新一代大型语言模型GPT-5.2,其内部代号为“Garli”。这款被官方定位为“迄今最先进智能模型”的产品,不仅创新性地划分出多版本梯队,更在专业级编码、数学推理等核心领域实现跨越式提升,基准测试中以70.9%的胜率击败谷歌Gemini 3 Pro等主流竞品,引发全球科技界震动。

与前代产品不同,GPT-5.2采用清晰的场景化细分策略,构建了Instant(极速版)、Thinking(思考版)和Pro(专业版)三大版本梯队,精准匹配不同用户需求。其中,Instant版主打高效响应,适用于信息查询、文案创作等日常场景;Thinking版聚焦结构化难题解决,在编码开发、长文档分析等领域表现突出,成为开发者和重度企业用户的核心选择;Pro版则面向高难度专业场景,以输出结果的稳健性和可靠性为核心优势,服务于金融建模、科学研究等高端需求。OpenAI表示,新模型将率先向ChatGPT付费计划用户开放,包括Plus、Pro及企业版用户,而上一代GPT-5.1将为付费用户保留三个月后停止服务。

基准测试数据成为GPT-5.2实力的最佳佐证。在OpenAI首创的GDPval评估基准中——该基准涵盖美国GDP贡献最大的9个行业、44种职业的真实知识工作任务——GPT-5.2 Thinking版表现尤为亮眼,在70.9%的任务比拼中击败或打平人类顶尖专家,成为历史上首个表现超越人类专家水平的AI模型。与谷歌Gemini 3 Pro的直接对决中,其优势同样显著:在SWE-Bench Pro(现实世界软件工程基准)测试中,GPT-5.2 Thinking版以55.6%的得分远超Gemini 3 Pro的43.3%;ARC-AGI-2(抽象推理基准)中更是以52.9%的成绩登顶全球第一,全面实现性能碾压。

专业级编码能力的突破是本次升级的核心亮点之一。据OpenAI披露,GPT-5.2的代码错误率较前代降低42%,在SWE-Bench Verified测试中更是拿下80%的高分。与仅测试Python的传统基准不同,SWE-Bench Pro涵盖四种编程语言,且具有更强的抗数据污染能力,更贴近工业场景需求。测试中,模型能自主接收代码库信息,生成补丁解决真实软件工程问题,在调试生产环境代码、重构大型代码库等任务中可大幅减少人工干预。创业团队Windsurf反馈,借助GPT-5.2,团队的多步骤开发效率实现“可衡量的显著提升”,尤其在涉及3D元素的复杂UI开发中表现突出。

「93913原创内容,转载请注明出处」