全球最牛编码AI来了：Claude Sonnet 4.5突破30小时长任务极限

🤖 由文心大模型生成的文章摘要

Anthropic正式推出旗舰级AI模型Claude Sonnet 4.5，以”全球最出色的编码模型””构建复杂智能体的最强工具”双重定位引爆行业关注。与追求极致性能的Opus系列不同，此次Anthropic将升级重心放在覆盖用户最广、场景最多元的中端Sonnet产品线，通过”性能-速度-成本”的精准平衡，实现技术突破与实用价值的最大化。该模型已全面登陆Claude.ai官网、iOS/Android应用，并通过Amazon Bedrock、Google Cloud VertexAI开放开发者接入，定价维持与前代一致的3美元/百万token输入、15美元/百万token输出标准，配合提示缓存技术可降低90%使用成本。

在衡量”真实世界软件编码能力”的权威基准SWE-benchVerified（含500项GitHub真实拉取请求任务）中，Claude Sonnet 4.5创下历史性突破：单模型配置下准确率达77.2%，启用并行推理优化后更是飙升至82.0%，远超GPT-5、Gemini2.5Pro等竞品。这一成绩意味着模型能精准理解复杂代码库结构、定位深层Bug并生成可直接落地的修复方案——在金融系统交易模块重构、医疗数据加密脚本开发等实测场景中，其代码错误率从Sonnet4的9%降至0%。

更令人震撼的是其超长任务耐力：Anthropic实测显示，该模型可在复杂多步骤开发任务中保持专注超过30小时，全程稳定输出高质量代码。这一能力远超行业预期——此前Meta研究预测AI到2026年才能实现4小时持续任务处理，而当前竞品最长仅能维持7小时。在OSWorld计算机任务能力评测中，其61.4%的得分较四个月前的Sonnet4（42.2%）实现近50%的性能跃升，可自主完成浏览器导航、电子表格处理等复杂操作。

Claude Sonnet 4.5在跨领域能力上展现出全面进化：数学领域，在AIME2025竞赛中以Python工具模式取得100%满分，无工具状态下仍达87.0%；研究生级推理测试（GPQADiamond）得分83.4%，多语言问答（MMLU）以89.1%紧随GPT-5。专业场景中，其表现同样惊艳：金融领域胜率72%、法律领域65%、医学领域61%，均显著超越同系列Opus4.1及前代模型，在税务合规编码、临床数据建模等任务中展现出接近专家的理解深度。

这种进步源于底层技术升级：Anthropic优化了模型的指令遵循精度与任务规划能力，新增上下文编辑、记忆工具等功能，并通过AgentSDK支持子智能体协同工作。开发者可借助原生VSCode扩展、检查点回滚等工具，将模型深度集成到开发流程中，实现”构思-编码-调试-部署”全周期辅助。

在能力跃升的同时，Claude Sonnet 4.5成为Anthropic迄今对齐性最好的前沿模型。通过强化安全训练，其欺骗、谄媚、妄想思维等未对齐行为显著减少，在自动化行为审计中获得最低评分，并达到AI安全级别3（ASL-3）标准。针对智能体应用的核心风险，Anthropic在防御提示注入攻击方面取得重大突破，为长时运行的自动化任务筑牢安全防线。值得关注的是，模型还展现出”情境感知”能力——能察觉自身处于测试环境，为AI鲁棒性评估带来新思考。

「93913原创内容，转载请注明出处」

全球最牛编码AI来了：Claude Sonnet 4.5突破30小时长任务极限

相关文章

鸿蒙OS 6重磅推出AI深度研究智能体重构鸿蒙PC智慧办公体验

阿里、腾讯等投资者大力押注，推动Moonshot AI估值升至33亿美元

阿里AI视频模型 “欢乐马” 4月27日开测 5月商用登顶全球权威榜单

中控发布时间序列大模型TPT2，推动工业AI落地

耐克正在开发生成式人工智能模型，以助力产品设计

DeepSeek表明人工智能权力中心可能会从美国转移

推荐

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

VITURE亮相WAIC 2026：发布Auto Immersive 3D技术，开启XR全系统一键3D“升维”

国内VR电影迎规模化落地拐点第二批22部作品获公映“龙标”

AI应用推荐

热门

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

友情链接

推荐

vivo入局AI眼镜赛道手机大厂争夺下一代计算入口

形意智能亮相2026世界人工智能大会，展示AI视觉全矩阵与“中国智造”答卷

VITURE亮相WAIC 2026：发布Auto Immersive 3D技术，开启XR全系统一键3D“升维”

国内VR电影迎规模化落地拐点第二批22部作品获公映“龙标”