6月25日,人工智能领域迎来了一个重要的里程碑—— 谷歌DeepMind正式推出了Gemini Robotics On – Device,这是其首个能够直接部署在机器人硬件上的视觉-语言-动作(Vision – Language – Action,VLA)模型。这一创新成果将 Gemini 2.0强大的多模态推理能力与对现实世界的深刻理解融入到物理实体操作中,为机器人在复杂环境下的自主作业带来了质的飞跃。
今年3月,谷歌推出Gemini Robotics已然展示了其在VLA模型领域的领先地位。而此次发布的Gemini Robotics On – Device,则是在此基础上的进一步优化与突破。它专为本地机器人设备运行而设计,具备出色的通用灵活性和任务泛化能力,能够在各种复杂多变的场景中展现卓越性能。
Gemini Robotics On – Device的最大亮点之一,在于其无需持续联网即可工作。这一特性使其在应对延迟敏感型应用时游刃有余,即便是在网络连接不稳定甚至完全中断的环境下,机器人也能凭借该模型稳定、可靠地执行任务。例如在一些工业生产场景中,网络波动可能导致机器人作业停滞,而 Gemini Robotics On – Device 则可确保生产流程不受影响,大大提升了生产效率和稳定性。
从技术架构来看,Gemini Robotics On – Device是为双臂机器人量身打造的基础模型,在设计上对计算资源的需求进行了极致优化。它继承了Gemini Robotics强大的任务泛化和灵活操控能力,并在此基础上进行了针对性改进:一是专为灵巧操作的快速实验而设计,能够快速响应并执行各类精细动作指令;二是支持通过微调来适应新任务,开发者只需少量的样本演示,就能让模型在新的应用场景中实现性能提升;三是经过深度优化,可在本地实现低延迟推理,机器人能够迅速对感知到的信息做出反应,精准完成诸如拉开袋子拉链、折叠衣物等高难度灵巧操作任务,且所有操作均可直接在机器人本体上完成,无需依赖云端计算。
在谷歌的一系列评估测试中,Gemini Robotics On – Device展现出了强大的泛化性能。在视觉泛化、语义理解以及行为泛化等多个维度的测试场景中,该模型均取得了优异成绩。特别是在处理复杂的分布外任务和多步骤指令时,其表现远超其他同类设备端模型,甚至在部分指标上逼近云端运行的Gemini Robotics旗舰模型。这意味着机器人在面对现实世界中各种未曾预演的复杂情况时,能够更加智能、准确地理解任务要求,并做出恰当的行动决策。
值得一提的是,Gemini Robotics On – Device还是谷歌首个支持开发者进行微调的VLA模型。这一开放特性极大地拓展了模型的应用边界。虽然许多常见任务该模型已能开箱即用,但开发者可根据自身特定需求,通过50到100个演示样本对模型进行快速调整,使其在特定应用中发挥出更优性能。
谷歌团队通过实际测试展示了这一特性的强大之处,他们在七项不同难度的灵巧操作任务中对模型进行了验证,这些任务涵盖了从简单的拉开午餐盒拉链,到较为复杂的画卡片、倒沙拉酱等。实验结果表明,即使是面对最为复杂的任务,模型在经过不到100次的演示学习后,也能达到相当高的操作成功率。