🤖 由 文心大模型 生成的文章摘要

OpenAI核心研究员翁家翌提出启发式学习(Heuristic Learning,HL)强化学习新范式,该方法无需神经网络训练与梯度更新,仅靠GPT-5.4驱动的Codex自主迭代程序代码,即可实现智能决策,在Atari游戏Breakout中斩获864分理论满分,性能超越传统深度强化学习算法PPO。
与依赖神经网络参数的传统深度强化学习(DRL)不同,HL将决策逻辑迁移至离散程序空间,以代码编辑替代梯度下降,通过显式符号规则完成状态-动作映射,从根源上规避传统DRL的三大瓶颈。
无灾难性遗忘:知识以代码模块形式封装,新能力不会覆盖旧技能,支持多任务持续学习;
决策可解释:策略为可读程序代码,可追溯决策依据、人工干预逻辑;
样本效率高:无需海量交互数据,收敛更快、算力成本更低。
HL框架中,AI维护包含状态检测器、规则逻辑、测试用例、失败记录、版本历史的完整软件系统,每次迭代通过分析表现、回放失败案例、调整代码实现优化,仅在MPC等组件中用梯度做局部实时决策搜索,不用于网络参数更新。
实验验证,HL在Atari57全游戏基准测试中,整体中位表现与PPO持平,多款游戏成绩超越人类玩家基准;在MuJoCo机器人连续控制任务中,四足机器人Ant评分突破6000分,HalfCheetah猎豹仿真平均得分达11836,展现复杂场景适配能力。
翁家翌表示,HL暂无法替代神经网络处理ImageNet这类像素级特征抽象任务,未来核心方向是融合神经网络与HL,用HL沉淀在线经验生成高质量数据,迭代优化神经网络,攻克在线学习与持续学习难题。






