Anthropic发布Claude Opus 4.5：编程能力超越人类，工具生态全面升级

🤖 由文心大模型生成的文章摘要

当地时间11月24日，人工智能领域迎来重磅突破——Anthropic正式推出旗舰AI模型Claude Opus 4.5，该模型不仅在权威编程测试中力压谷歌Gemini 3 Pro、OpenAI GPT-5.1等竞品，更在企业内部高难度工程选拔测试中历史性超越所有人类候选者，同步升级的跨平台工具生态则让其成为知识型工作者的高效助手。这一系列突破标志着AI在专业领域的应用能力迈入全新阶段。

在衡量AI编程能力的核心基准测试SWE-bench Verified中，Claude Opus 4.5取得80.9%的惊人成绩，这一表现不仅将OpenAI GPT-5.1-Codex-Max（77.9%）和谷歌Gemini 3 Pro（76.2%）甩在身后，更成为该测试中首个得分突破80%的模型。更具里程碑意义的是，在Anthropic用于选拔顶级性能工程师的内部测试中，该模型在2小时限时考核内的得分，超过了历年所有人类候选人。

这项内部测试专门评估技术人员在时间压力下的问题解决能力与专业判断力，涵盖复杂代码调试、系统优化等实战场景。Anthropic虽谨慎指出，测试未涉及协作沟通、经验直觉等人类独有的职业素养，但这一结果已引发业界对”AI重塑工程行业”的深度讨论。Anthropic”社会影响与经济未来”研究团队表示，将持续追踪相关行业变革并发布研究成果。

在多语言编程能力上，Claude Opus 4.5同样表现亮眼。在涵盖8种编程语言的SWE-bench Multilingual测试中，其在7种语言的考核中均位列第一，展现出强大的跨语言编码适配能力。日本电商巨头乐天的测试更显示，基于该模型的AI代理仅需4次迭代即可达到峰值性能，而同类模型往往需要10次以上迭代仍难企及。

伴随模型发布，Anthropic同步推出一系列工具更新，让Claude Opus 4.5深度融入专业工作流。其中，Claude for Chrome插件已向所有Max用户开放，支持在浏览器多标签页间无缝执行任务，无论是网页内容分析、代码片段提取还是跨页面信息整合，都能实现高效处理。

针对金融分析师、数据专员等群体重点推出的Claude for Excel，已将测试权限扩展至Max、Team及Enterprise用户，新增对数据透视表、动态图表分析和多格式文件上传的支持。金融建模公司Fundamental Research Labs反馈，该工具使团队数据分析准确率提升20%，效率提高15%，原本需要数小时的报表处理工作现在可压缩至几十分钟。

开发者专属的Claude Code工具迎来两项核心升级：Plan Mode功能会先通过澄清式提问明确需求，生成可编辑的plan.md执行方案后再启动任务，大幅降低需求偏差；桌面端Claude Code现已支持多会话并行运行，开发者可同时部署多个智能体分别处理代码调试、GitHub资料检索、项目文档更新等任务，实现开发流程并行化。

针对普通用户的体验优化同样值得关注，Claude应用现已支持”无限对话”功能，系统会自动总结早期对话内容，确保长周期交流不中断，彻底解决此前上下文窗口受限的问题。

「93913原创内容，转载请注明出处」

Anthropic发布Claude Opus 4.5：编程能力超越人类，工具生态全面升级

相关文章

调查显示，中国在生成式人工智能应用方面领先世界

英伟达发布Llama Nemotron系列开放推理AI模型

OpenAI紧急提前发布GPT-5.2：弃炫技重实用，硬刚谷歌Gemini3

京东JoyGlance登陆Rokid乐奇AI眼镜，重构线下消费新体验

阿里大幅降低大型语言模型价格，以抢占市场份额

SenseNova 5.0：AI模型性能超越OpenAI GPT-4

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆

AI应用推荐

热门

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

友情链接

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆