“战略大脑+执行中枢”落地!Gemini Robotics 1.5系列重塑机器人智能范式

🤖 由 文心大模型 生成的文章摘要

谷歌DeepMind正式推出GeminiRobotics 1.5系列模型,以GeminiRobotics 1.5与GeminiRobotics-ER 1.5两款核心产品,构建起“高层决策+精准执行”的具身智能框架,标志着人工智能从数字世界向物理世界的跨越实现关键突破。这一系列专为机器人与具身智能场景设计,通过视觉-语言-行动(VLA)与具身推理(ER)的协同,首次实现机器人“理解-规划-操作-调整”的全链路自主能力。​

双雄并立:分工明确的智能体架构​

1.GeminiRobotics-ER 1.5:物理世界的“战略大脑”​

作为先进视觉-语言模型(VLM),这款被称为“高层大脑”的模型颠覆了传统机器人的指令执行模式。其核心优势在于物理世界推理与工具协同能力——能直接调用GoogleSearch等数字工具获取实时信息(如分类垃圾时查阅当地回收指南),并将抽象需求拆解为可执行的多步骤计划。在ERQA、Point-Bench等15项学术基准测试中,该模型均达到“最先进性能”,尤其在空间理解、物体状态估计等关键维度表现突出,为复杂任务提供了逻辑严密的行动蓝图。​

2.GeminiRobotics 1.5:精准行动的“执行中枢”​

作为当前最强大的VLA模型,其突破性创新在于**“思考式执行”与跨躯体迁移能力**。与传统机器人直接转化指令不同,该模型在行动前会生成自然语言推理序列:以“按颜色分类衣物”为例,它会先完成“目标分解(白衣/彩色分离)→策略制定(优先拾取大件衣物)→动作计算(调整夹爪力度)”的内部思考,再输出毫米级运动指令。更值得关注的是其跨躯体学习能力:在ALOHA2机器人上习得的技能,可零特化迁移至Apptronik人形机器人Apollo或Franka双臂机器人,彻底解决了机器人技能“一机一训”的行业痛点。​

协作机制:从指令到行动的闭环革命​

两款模型形成的分层协作体系,重新定义了机器人任务处理流程:​

需求解析:GeminiRobotics-ER 1.5接收自然语言指令(如“整理办公桌面并冲泡咖啡”),结合视觉输入分析环境状态;

计划生成:调用数字工具验证可行性(如确认咖啡机操作步骤),输出“清理文件→擦拭桌面→准备咖啡豆→启动机器”的分步计划;​

动作执行:GeminiRobotics 1.5将每步计划转化为机械臂运动轨迹,实时调整力度与角度;​

动态优化:执行中通过视觉反馈修正偏差(如咖啡粉洒落时自动暂停并清理)。​

这种架构使机器人首次具备处理“语义复杂+环境动态”任务的能力,泛化性与鲁棒性较前代提升40%以上。

「93913原创内容,转载请注明出处」