
Anthropic正式推出旗舰级AI模型Claude Sonnet 4.5,以”全球最出色的编码模型””构建复杂智能体的最强工具”双重定位引爆行业关注。与追求极致性能的Opus系列不同,此次Anthropic将升级重心放在覆盖用户最广、场景最多元的中端Sonnet产品线,通过”性能-速度-成本”的精准平衡,实现技术突破与实用价值的最大化。该模型已全面登陆Claude.ai官网、iOS/Android应用,并通过Amazon Bedrock、Google Cloud VertexAI开放开发者接入,定价维持与前代一致的3美元/百万token输入、15美元/百万token输出标准,配合提示缓存技术可降低90%使用成本。
在衡量”真实世界软件编码能力”的权威基准SWE-benchVerified(含500项GitHub真实拉取请求任务)中,Claude Sonnet 4.5创下历史性突破:单模型配置下准确率达77.2%,启用并行推理优化后更是飙升至82.0%,远超GPT-5、Gemini2.5Pro等竞品。这一成绩意味着模型能精准理解复杂代码库结构、定位深层Bug并生成可直接落地的修复方案——在金融系统交易模块重构、医疗数据加密脚本开发等实测场景中,其代码错误率从Sonnet4的9%降至0%。
更令人震撼的是其超长任务耐力:Anthropic实测显示,该模型可在复杂多步骤开发任务中保持专注超过30小时,全程稳定输出高质量代码。这一能力远超行业预期——此前Meta研究预测AI到2026年才能实现4小时持续任务处理,而当前竞品最长仅能维持7小时。在OSWorld计算机任务能力评测中,其61.4%的得分较四个月前的Sonnet4(42.2%)实现近50%的性能跃升,可自主完成浏览器导航、电子表格处理等复杂操作。
Claude Sonnet 4.5在跨领域能力上展现出全面进化:数学领域,在AIME2025竞赛中以Python工具模式取得100%满分,无工具状态下仍达87.0%;研究生级推理测试(GPQADiamond)得分83.4%,多语言问答(MMLU)以89.1%紧随GPT-5。专业场景中,其表现同样惊艳:金融领域胜率72%、法律领域65%、医学领域61%,均显著超越同系列Opus4.1及前代模型,在税务合规编码、临床数据建模等任务中展现出接近专家的理解深度。
这种进步源于底层技术升级:Anthropic优化了模型的指令遵循精度与任务规划能力,新增上下文编辑、记忆工具等功能,并通过AgentSDK支持子智能体协同工作。开发者可借助原生VSCode扩展、检查点回滚等工具,将模型深度集成到开发流程中,实现”构思-编码-调试-部署”全周期辅助。
在能力跃升的同时,Claude Sonnet 4.5成为Anthropic迄今对齐性最好的前沿模型。通过强化安全训练,其欺骗、谄媚、妄想思维等未对齐行为显著减少,在自动化行为审计中获得最低评分,并达到AI安全级别3(ASL-3)标准。针对智能体应用的核心风险,Anthropic在防御提示注入攻击方面取得重大突破,为长时运行的自动化任务筑牢安全防线。值得关注的是,模型还展现出”情境感知”能力——能察觉自身处于测试环境,为AI鲁棒性评估带来新思考。








