快手Kwaipilot团队宣布开源KwaiCoder-AutoThink-preview自动思考大模型,针对当前深度思考大模型普遍存在的“过度思考”问题,提出了创新性解决方案。该模型不仅融合了“思考”与“非思考”能力,还通过全新训练范式与强化学习方法,在多个评测榜单上实现显著性能提升。
解决“过度思考”:全新训练范式与强化学习方法
随着深度学习模型在各领域的广泛应用,深度思考大模型的“过度思考”问题逐渐凸显。当面对简单任务时,这类模型仍会生成冗长、冗余的推理过程,降低效率。快手Kwaipilot团队深入研究此问题,提出了全新的自动思考模型训练范式。该范式让模型能够根据问题的复杂程度,智能选择是否进行深度思考,避免了不必要的资源浪费。
同时,基于传统强化学习算法(GRPO),团队创新性地开发了带有过程监督的强化学习方法Step-SRPO。这一方法通过对模型推理过程的实时监督,进一步优化了模型在复杂任务中的表现,确保模型在面对各类问题时都能给出高效、准确的回答。
“思考”与“非思考”融合:根据问题难度自动切换
KwaiCoder-AutoThink-preview模型最大的亮点在于其独特的设计理念——融合“思考”和“非思考”能力。团队将其形容为“DeepSeek-V3&R1合体”,意味着模型能够像人类一样,根据问题的难度自动切换思考模式。
在面对简单问题时,模型迅速给出答案,无需复杂的推理过程,提升处理效率;而遇到复杂问题,模型则进入深度思考模式,通过多轮推理和验证,得出准确结论。这种根据问题难度自动调节思考深度的能力,使模型在多个“思考”和“非思考”评测榜单上均取得了优异成绩。特别是在代码和数学类任务中,开启自动思考模式后,模型得分提升高达20分左右,展现出强大的问题解决能力。
性能提升显著:多榜单验证,潜力巨大
通过在多个权威评测榜单上的测试,KwaiCoder-AutoThink-preview模型的性能提升得到了充分验证。即使在未开启思考模式的情况下,凭借更优的推理形态,模型性能也有小幅上涨,显示出其良好的通用性和适应性。
快手技术团队透露,未来将基于当前的preview版本模型,进一步强化推理能力,并支持更完善的思考中工具使用能力。此外,团队还计划开源全部技术细节和训练方法,为AI领域的研究人员和开发者提供宝贵资源,推动整个行业的发展。