在人工智能领域持续掀起创新浪潮的Meta,于近日重磅推出最新人工智能模型V-JEPA 2。Meta官方宣称,该模型“在物理世界中实现了最先进的视觉理解和预测,从而极大提高了AI智能体的物理推理能力”。与此同时,Meta还发布了三个全新的基准,旨在为评估现有模型从视频推断物理世界的能力,提供更为精准、科学的标准。
作为去年V-JEPA模型的扩展版本,V-JEPA 2的诞生标志着人工智能在理解现实世界方面迈出了关键一步。该模型能够让人工智能深度理解3D环境,精准推理物理世界的运作规律。对于机器人和其他人工智能主体而言,V-JEPA 2就像是赋予了它们“智慧之眼”与“思考之脑”,使其不仅能够理解物理世界的现状,还能凭借强大的算法和训练数据,预测物理世界将如何对自身行动做出反应。
Meta透露,V-JEPA 2是一个拥有12亿参数的庞大模型,其经过了超过100万小时视频素材的高强度训练。如此海量的数据输入,使得V-JEPA 2在物理世界中实现了领先的视觉理解和预测性能。举例来说,当一个球从桌子上滚落时,V-JEPA 2能够迅速识别出球会因重力作用而掉落;即便物体暂时隐藏在视野之外,该模型也不会认为物体就此消失,而是基于物理规律持续追踪其存在状态。这种对物理现象的准确认知和预测能力,远超以往同类模型。
在实际应用层面,V-JEPA 2展现出了巨大的潜力。Meta认为,在自动驾驶汽车、送货机器人等领域,V-JEPA 2具备显著优势。这些应用场景往往环境复杂多变,充满了不确定性和突发状况,而V-JEPA 2能够帮助设备在这样的环境中安全、高效地运行。与其他依赖大量标记数据或视频片段来学习的模型不同,V-JEPA 2另辟蹊径,通过简化后的“潜在空间”进行推理。它能快速分析物体的移动轨迹、相互作用方式以及对不同刺激的响应模式,从而为智能体的决策提供有力支持。
值得一提的是,与同样致力于发展物理世界相关人工智能的英伟达Cosmos模型相比,Meta声称V-JEPA 2在运行速度上实现了巨大突破,比Cosmos模型快30倍。这一优势意味着V-JEPA 2在处理海量数据和复杂任务时,能够更加迅速地给出结果,极大提升了AI智能体的响应效率和工作效能。
Meta首席人工智能科学家Yann LeCun对V-JEPA 2及其代表的“世界模型”充满信心。他表示:“世界模型提供了一个虚拟的、简化版的现实世界,人工智能可以参考它来理解世界,预测其行为的后果,因此它将能够计划一个行动方案来完成给定的任务。”在YannLeCun看来,世界模型将为机器人技术开启一个全新的时代。未来,现实世界中的人工智能助手,借助V-JEPA 2这样的先进模型,无需依赖海量训练数据,就能帮助人们轻松完成日常家务和各类体力劳动。想象一下,家中的智能机器人能够自主判断如何打扫房间、整理物品;在工业场景中,机器人可以高效地完成搬运、装配等工作,这一切都将因为V-JEPA 2的出现而逐渐成为现实。