无需更新参数即可强化学习！OpenAI翁家翌提出启发式学习新范式，AI手搓.py文件打破游戏纪录

🤖 由文心大模型生成的文章摘要

OpenAI核心研究员翁家翌提出启发式学习（Heuristic Learning,HL）强化学习新范式，该方法无需神经网络训练与梯度更新，仅靠GPT-5.4驱动的Codex自主迭代程序代码，即可实现智能决策，在Atari游戏Breakout中斩获864分理论满分，性能超越传统深度强化学习算法PPO。

与依赖神经网络参数的传统深度强化学习（DRL）不同，HL将决策逻辑迁移至离散程序空间，以代码编辑替代梯度下降，通过显式符号规则完成状态-动作映射，从根源上规避传统DRL的三大瓶颈。

无灾难性遗忘：知识以代码模块形式封装，新能力不会覆盖旧技能，支持多任务持续学习；
决策可解释：策略为可读程序代码，可追溯决策依据、人工干预逻辑；

样本效率高：无需海量交互数据，收敛更快、算力成本更低。

HL框架中，AI维护包含状态检测器、规则逻辑、测试用例、失败记录、版本历史的完整软件系统，每次迭代通过分析表现、回放失败案例、调整代码实现优化，仅在MPC等组件中用梯度做局部实时决策搜索，不用于网络参数更新。

实验验证，HL在Atari57全游戏基准测试中，整体中位表现与PPO持平，多款游戏成绩超越人类玩家基准；在MuJoCo机器人连续控制任务中，四足机器人Ant评分突破6000分，HalfCheetah猎豹仿真平均得分达11836，展现复杂场景适配能力。

翁家翌表示，HL暂无法替代神经网络处理ImageNet这类像素级特征抽象任务，未来核心方向是融合神经网络与HL，用HL沉淀在线经验生成高质量数据，迭代优化神经网络，攻克在线学习与持续学习难题。

无需更新参数即可强化学习！OpenAI翁家翌提出启发式学习新范式，AI手搓.py文件打破游戏纪录

相关文章

美团测试万亿级大模型全国产算力训练对标GPT-4

景旺电子掷50亿加码珠海金湾基地，2025-2027年扩产聚焦AI算力与汽车智驾等高增长领域

OpenAI、NVIDIA、微软与美国国家实验室合作开展人工智能研究

苹果SF-LLaVA-1.5横空出世：128帧搞定长视频分析，多参数版本刷新基准测试纪录

Frame AI智能眼镜改进，优化多模态生成式人工智能系统、引入图像和矢量引擎

詹姆斯・卡梅隆谈AI：富有创造力但难具独特生活体验

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆

AI应用推荐

热门

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

友情链接

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆