Hugging Face发布开源机器人AI模型SmolVLA,小身材蕴含大能量

🤖 由 文心大模型 生成的文章摘要

人工智能开发平台Hugging Face有了新动作,其发布了一款名为SmolVLA的开源机器人AI模型。别看这款模型只有4.5亿个参数,在模型“江湖”中属于规模较小的那一类,但其在虚拟和现实环境中的表现却十分惊艳,甚至超过了许多规模更大的机器人模型。​

Hugging Face在其博客文章中提到,SmolVLA致力于让视觉-语言-行动(VLA)模型的使用更为普及,同时加速通用机器人智能体的研究进程。它可不单单是一个轻量级且功能强大的模型,更是一种用于训练和评估通用机器人技术的新方法。​

从运行条件来看,SmolVLA的规模小到超乎想象,它能够在单个消费级GPU上运行,甚至在MacBook上也能顺畅运作。并且,它还可以在诸如该公司自身机器人系统等“经济实惠”的硬件上进行测试和部署。这对于广大科研人员以及机器人爱好者来说,大大降低了研究和实践的门槛,以往因为硬件条件限制而无法开展的相关研究,现在借助SmolVLA都有了实现的可能。​

值得一提的是,SmolVLA还支持“异步推理堆栈”这一独特功能。简单来说,这一功能能够使模型将机器人行动的处理与视觉和听觉的处理分离开来。正如Hugging Face在博客中所解释的:“由于这种分离,机器人能够在快速变化的环境中更快地做出响应。”举例来讲,在一些复杂且动态变化的场景中,如在混乱的仓库环境里执行货物搬运任务,或者在救援现场协助搜寻工作时,具备“异步推理堆栈”功能的机器人可以更迅速地对周围环境的变化做出反应,及时调整行动策略,从而高效完成任务。​

SmolVLA是基于Hugging Face AI开发平台上共享的LeRobot社区数据集进行训练的,这些数据集都是专门标记过的机器人数据集。它也是Hugging Face迅速拓展的低成本机器人软硬件生态系统的重要组成部分。回顾去年,该公司推出了LeRobot,这是一套专注于机器人的模型、数据集和工具,而SmolVLA的出现,进一步丰富和完善了这一生态系统。

「93913原创内容,转载请注明出处」