深度求索(DeepSeek)与清华大学合作,成功推出一项创新性AI对齐技术 ——SPCT(自我原则点评调优)。这一技术的诞生,打破了传统模式对海量训练数据的依赖,通过在推理阶段对输出质量进行动态优化,为AI模型性能提升开辟了新路径。
根据研究团队发表的论文,SPCT技术依托 “原则合成-响应生成-批判过滤-原则优化”的递归架构,赋予模型在推理过程中动态修正输出的能力。具体而言,SPCT方法分为两个关键阶段。首先是拒绝式微调作为冷启动环节,此阶段使GRM模型适应不同类的输入,并以正确格式生成原则与点评内容。随后进入基于规则的在线强化学习阶段,该阶段采用基于规则的结果奖励机制,激励GRM模型生成更优质的原则与点评内容,有效提升了推理阶段的可扩展性。
在实际测试中,搭载SPCT技术的270亿参数DeepSeek – GRM模型表现卓越。通过每查询进行32次采样的推理计算,该模型成功达到了6710亿参数规模模型的性能水平。这一成果得益于其硬件感知设计,采用混合专家系统(MoE),不仅支持128k token的上下文窗口,还将单查询延迟控制在仅1.4秒。
值得一提的是,SPCT技术显著降低了高性能模型的部署门槛。以DeepSeek – GRM模型为例,其训练成本约为1.2万美元,却在MT – Bench测试中获得了8.35的高分。与之对比,3400亿参数Nemotron – 4模型获得8.41分需耗费120万美元,而OpenAI拥有1.8万亿参数的GPT – 4o模型虽取得8.72分,但成本高达630万美元,DeepSeek – GRM的成本仅为GPT – 4o的五百二十五分之一。此外,SPCT 技术减少了90%的人工标注需求,能耗相较于DPO降低73%,为实时机器人控制等动态场景的应用提供了新的可能。