
当地时间11月24日,人工智能领域迎来重磅突破——Anthropic正式推出旗舰AI模型Claude Opus 4.5,该模型不仅在权威编程测试中力压谷歌Gemini 3 Pro、OpenAI GPT-5.1等竞品,更在企业内部高难度工程选拔测试中历史性超越所有人类候选者,同步升级的跨平台工具生态则让其成为知识型工作者的高效助手。这一系列突破标志着AI在专业领域的应用能力迈入全新阶段。
在衡量AI编程能力的核心基准测试SWE-bench Verified中,Claude Opus 4.5取得80.9%的惊人成绩,这一表现不仅将OpenAI GPT-5.1-Codex-Max(77.9%)和谷歌Gemini 3 Pro(76.2%)甩在身后,更成为该测试中首个得分突破80%的模型。更具里程碑意义的是,在Anthropic用于选拔顶级性能工程师的内部测试中,该模型在2小时限时考核内的得分,超过了历年所有人类候选人。
这项内部测试专门评估技术人员在时间压力下的问题解决能力与专业判断力,涵盖复杂代码调试、系统优化等实战场景。Anthropic虽谨慎指出,测试未涉及协作沟通、经验直觉等人类独有的职业素养,但这一结果已引发业界对”AI重塑工程行业”的深度讨论。Anthropic”社会影响与经济未来”研究团队表示,将持续追踪相关行业变革并发布研究成果。
在多语言编程能力上,Claude Opus 4.5同样表现亮眼。在涵盖8种编程语言的SWE-bench Multilingual测试中,其在7种语言的考核中均位列第一,展现出强大的跨语言编码适配能力。日本电商巨头乐天的测试更显示,基于该模型的AI代理仅需4次迭代即可达到峰值性能,而同类模型往往需要10次以上迭代仍难企及。
伴随模型发布,Anthropic同步推出一系列工具更新,让Claude Opus 4.5深度融入专业工作流。其中,Claude for Chrome插件已向所有Max用户开放,支持在浏览器多标签页间无缝执行任务,无论是网页内容分析、代码片段提取还是跨页面信息整合,都能实现高效处理。
针对金融分析师、数据专员等群体重点推出的Claude for Excel,已将测试权限扩展至Max、Team及Enterprise用户,新增对数据透视表、动态图表分析和多格式文件上传的支持。金融建模公司Fundamental Research Labs反馈,该工具使团队数据分析准确率提升20%,效率提高15%,原本需要数小时的报表处理工作现在可压缩至几十分钟。
开发者专属的Claude Code工具迎来两项核心升级:Plan Mode功能会先通过澄清式提问明确需求,生成可编辑的plan.md执行方案后再启动任务,大幅降低需求偏差;桌面端Claude Code现已支持多会话并行运行,开发者可同时部署多个智能体分别处理代码调试、GitHub资料检索、项目文档更新等任务,实现开发流程并行化。
针对普通用户的体验优化同样值得关注,Claude应用现已支持”无限对话”功能,系统会自动总结早期对话内容,确保长周期交流不中断,彻底解决此前上下文窗口受限的问题。










