OpenAI推出PaperBench并公布ChatGPT付费用户增长情况

🤖 由文心大模型生成的文章摘要

OpenAI正式宣布推出一项旨在评估AI智能体复现前沿AI研究能力的全新基准——PaperBench。这一基准的发布，为衡量AI智能体在科研领域的能力提供了重要标准，在AI领域引发广泛关注。

PaperBench的任务挑战极具难度，它要求智能体从零开始，完整复现20篇在ICML 2024（国际机器学习大会2024）上荣获Spotlight和Oral荣誉的论文。这不仅考验智能体对论文核心贡献和思想的理解深度，更要求它们具备独立开发代码库，并成功执行实验的实操能力。

为了保证评估的科学性与公正性，OpenAI与每篇论文的原作者合作，共同制定了详细的评估标准。整个PaperBench涵盖了多达8316个可单独评分的任务，将复现任务细化为层次分明、标准明确的子任务。在测试过程中，多个前沿模型在PaperBench上接受了严格检验。其中，表现最为突出的智能体Claude 3.5 Sonnet（新版）巧妙结合开源框架，最终取得了平均复现得分21.0%的成绩。然而，即便如此，这一成绩仍未超越人类基线水平。为了进一步验证，OpenAI 特意招募了顶尖的机器学习博士参与部分测试集挑战，结果再次表明，当前 AI 智能体在复现前沿 AI 研究方面，与人类专家仍存在差距。

与此同时，另一则有关OpenAI的消息也备受瞩目。据外媒报道，OpenAI 旗下现象级AI应用ChatGPT的付费订阅用户数量实现了重大突破，已成功跨越2000万大关。回顾2024年底，这一数字为1550万，短短数月间，增长了450万，增幅高达约 30%。强劲的增长势头表明，ChatGPT目前每月的收入至少达到4.15亿美元（年化收入为50亿美元），相比 2024 年底至少3.33亿美元的月收入（年化收入40亿美元）增长了30%。这一增长不仅反映了 ChatGPT在市场中的强大吸引力，也体现出用户对于高质量AI服务的持续青睐。

「93913原创内容，转载请注明出处」

相关文章

教育部深化职教教学改革：动态调整专业设置，AI赋能精准对接产业需求

MediaTek与NVIDIA合作设计新的NVIDIA GB10超级芯片

“人机交互”推动新加坡科技设计大学斥资5000万美元打造设计与人工智能新专业

西门子和微软扩大工业人工智能

突破具身智能推理瓶颈：VLA-R1模型实现机器人“先思考再行动”

科学家呼吁全球携手创建AI虚拟细胞

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆

AI应用推荐

热门

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

友情链接

推荐

剑指AR眼镜！JBD合肥Micro-LED二期提前62天开工，加码全彩微显示研发

尼卡光学完成近亿元A轮融资全球首条百万片级体全息光波导产线投产

AI眼镜行业爆发前夜：业绩与资本双热，产业链步入“快车道”

三星Galaxy Glasses重磅来袭：联手谷歌打造AI穿戴新标杆