阿里巴巴开源创新大模型搜索引擎ZeroSearch,性能超越谷歌搜索且成本大幅降低

🤖 由 文心大模型 生成的文章摘要

5月8日,阿里巴巴在技术领域又迈出重要一步,于Github等平台开源了创新大模型搜索引擎ZeroSearch。这一突破性成果不仅展现了阿里巴巴在人工智能领域的深厚技术积累,更有望重塑搜索引擎的未来格局。​

ZeroSearch本质上是一种强化学习框架,其最大亮点在于无需与真实搜索引擎进行交互,就能充分激发大模型的搜索能力。在大模型的大规模预训练进程中,积累了海量丰富的知识,ZeroSearch巧妙将这些知识转化为一个功能强大的检索模块。当用户输入搜索查询时,该检索模块能够精准生成与之相关的内容。与传统搜索引擎相比,ZeroSearch还拥有一项独特功能——可以动态控制生成内容的质量,这是传统搜索引擎所望尘莫及的。​

为了全面评估ZeroSearch的性能,研究人员精心挑选了NQ、TriviaQA、PopQA、HotpotQA等7大具有代表性的问答数据集展开综合评测。评测结果令人瞩目:一个参数为70亿的监督微调模型,在运用ZeroSearch后,其搜索能力飙升至33.06;而140亿参数的模型,搜索能力更是达到了33.97,与之对比,谷歌搜索的这一数值仅为32.47,ZeroSearch的性能优势显而易见。​

在成本方面,ZeroSearch同样表现卓越。研究人员借助 SerpAPI 使用谷歌搜索进行了约 64,000次搜索查询训练,这一过程耗费了约586.70美元(按当前汇率,约合4238元人民币);与之形成鲜明对比的是,在四个A100 GPU上使用140亿参数的大模型进行模拟训练时,成本仅仅70.80美元(现汇率约合511元人民币),成本降低幅度超过 87.93%,极大地降低了使用门槛和运行成本。​

在当下,为了解决大模型普遍存在的幻觉问题以及拓宽外部知识范围,检索增强生成(RAG)技术已成为行业标配。早期RAG主要依赖基于提示的策略,通过引导大模型开展查询生成、查询分解以及多轮信息检索,以此整合外部知识。然而,这种方式对提示的要求极为苛刻,并且严重依赖模型自身的推理能力。后续也有研究尝试通过监督微调、蒙特卡洛树搜索等方法来增强搜索能力,虽然取得了一定成果,但在算力消耗方面过大,在实际部署应用中遭遇诸多阻碍。​

随着DeepSeek – R1、o1等新型模型的问世,强化学习逐渐成为改变模型逻辑推理能力的核心关键技术。这些模型完全依靠奖励驱动的学习模式,无需明确的逐步监督。于是,不少研究将强化学习引入大模型搜索领域,像 Search – R1通过强化学习自主生成多个搜索查询,ReSearch 则通过强化学习教会模型借助搜索进行推理,且无需对中间推理步骤进行监督。但这些方法存在一个显著弊端,即需要与谷歌等商业搜索引擎配合使用才能发挥最佳效果,这无疑带来了高昂的成本。

「93913原创内容,转载请注明出处」