OpenAI推出PaperBench并公布ChatGPT付费用户增长情况

🤖 由 文心大模型 生成的文章摘要

OpenAI正式宣布推出一项旨在评估AI智能体复现前沿AI研究能力的全新基准——PaperBench。这一基准的发布,为衡量AI智能体在科研领域的能力提供了重要标准,在AI领域引发广泛关注。​

PaperBench的任务挑战极具难度,它要求智能体从零开始,完整复现20篇在ICML 2024(国际机器学习大会2024)上荣获Spotlight和Oral荣誉的论文。这不仅考验智能体对论文核心贡献和思想的理解深度,更要求它们具备独立开发代码库,并成功执行实验的实操能力。​

为了保证评估的科学性与公正性,OpenAI与每篇论文的原作者合作,共同制定了详细的评估标准。整个PaperBench涵盖了多达8316个可单独评分的任务,将复现任务细化为层次分明、标准明确的子任务。在测试过程中,多个前沿模型在PaperBench上接受了严格检验。其中,表现最为突出的智能体Claude 3.5 Sonnet(新版)巧妙结合开源框架,最终取得了平均复现得分21.0%的成绩。然而,即便如此,这一成绩仍未超越人类基线水平。为了进一步验证,OpenAI 特意招募了顶尖的机器学习博士参与部分测试集挑战,结果再次表明,当前 AI 智能体在复现前沿 AI 研究方面,与人类专家仍存在差距。​

与此同时,另一则有关OpenAI的消息也备受瞩目。据外媒报道,OpenAI 旗下现象级AI应用ChatGPT的付费订阅用户数量实现了重大突破,已成功跨越2000万大关。回顾2024年底,这一数字为1550万,短短数月间,增长了450万,增幅高达约 30%。强劲的增长势头表明,ChatGPT目前每月的收入至少达到4.15亿美元(年化收入为50亿美元),相比 2024 年底至少3.33亿美元的月收入(年化收入40亿美元)增长了30%。这一增长不仅反映了 ChatGPT在市场中的强大吸引力,也体现出用户对于高质量AI服务的持续青睐。

「93913原创内容,转载请注明出处」