Kimi K2 Thinking重磅发布:开源 AI 迈入自主思考新纪元

🤖 由 文心大模型 生成的文章摘要

2025年11月6日,月之暗面(Moonshot AI)正式推出新一代开源思考模型Kimi K2 Thinking,这款被定义为“Kimi 迄今能力最强”的智能体模型,以“模型即Agent”为核心训练理念,首次实现原生“边思考,边使用工具”的核心能力,在多项国际权威基准测试中刷新纪录,标志着开源AI在复杂任务处理领域正式跻身全球技术最前沿。

Kimi K2 Thinking的革命性升级,核心在于对“模型即Agent”理念的深度落地。与传统依赖人类拆解任务、频繁引导的AI不同,该模型具备完整的自主任务处理闭环,无需人工干预即可完成从需求分析、子任务拆解到工具调用、结果验证的全流程操作。其原生集成的 “思考-工具-再思考” 动态循环机制,支持高达300轮的连续工具调用,能够像人类研究员一样“刨根问底”,持续优化解决方案。

在技术实现上,模型采用Test-Time Scaling(测试时扩展)技术,通过同步扩展思考 Token 长度与工具调用轮次,显著提升复杂场景下的推理深度;同时创新应用 INT4 量化感知训练(QAT)方案,在保持顶尖性能的前提下,将推理速度提升约2倍,对国产加速芯片及中低端硬件更友好,大幅降低落地门槛。而1TB总参数量、32B激活参数的 MoE(混合专家)架构,让模型能灵活调度不同领域“专家模块”,高效应对跨场景复杂需求。

在国际权威基准测试中,Kimi K2 Thinking展现出压倒性优势,全面打破开源模型与闭源模型的性能壁垒。在涵盖100多个专业领域的“人类最后的考试(Humanity’s Last Exam)” 中,模型在允许使用搜索、Python编程等工具的场景下,以44.9%的成绩斩获 SOTA,超越 GPT-5、Claude Sonnet 4.5等顶级闭源模型。

在OpenAI 推出的BrowseComp网络浏览能力测试中,该模型以60.2%的得分大幅超越 29.2% 的人类平均水平,充分验证了其在信息过载环境中的信息筛选、深度挖掘能力。此外,在复杂信息收集推理(SEAL-0)、多语言软件工程(SWE-Multilingual)等测试中,模型均表现突出,尤其在Agentic搜索、编程开发、综合推理等核心场景实现全面能力跃升。

Kimi K2 Thinking的强大能力已在多领域形成规模化应用价值,为科研、编程、商业分析、创意写作等场景带来颠覆性效率提升。在科研领域,它能自主阅读数千篇学术论文,对比分析研究成果,设计实验方案并撰写专业报告,有开发者实测用其研读技术论文时,模型可自动关联相关文献解析复杂概念;在编程场景,从React组件开发、五子棋游戏制作到完整Word 编辑器复刻,模型将传统需数天甚至数周的开发任务压缩至分钟级,效率最高提升1000倍。

「93913原创内容,转载请注明出处」