激光网
当前位置: 首页 > 人工智能 > 正文

谷歌人工智能公司宣布推出基于LLM的机器人控制器RT-2

2023-10-18 15:44:25  来源:激光网原创    

  谷歌人工智能公司最近宣布了机器人变压器2,这是一种用于控制机器人的视觉-语言-行动人工智能模型。RT-2使用微调的LLM来输出运动控制命令。它可以执行未明确包含在训练数据中的任务,并在紧急技能评估中将基线模型改进多达 3 倍。

  人工智能公司使用两种不同的底层视觉LLM基础模型训练了RT-2的两种变体:基于PaLM-E的12B参数版本和基于PaLI-X的55B参数版本。LLM在一般视觉语言数据集和机器人特定数据的混合上共同微调。该模型学习输出机器人运动命令的向量,该向量被视为简单的整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接受机器人工作空间的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,并从中生成运动命令来执行任务。根据人工智能公司的说法,

  RT-2不仅展示了人工智能的进步如何迅速级联到机器人技术中,还展示了对更多通用机器人的巨大前景。虽然在以人为中心的环境中启用有用的机器人仍有大量工作要做,但RT-2向我们展示了机器人技术令人振奋的未来。

  Google Robotics和人工智能公司已经发布了几个使用LLM进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及代码即政策,它使用 LLM 生成用于执行机器人控制的 Python 代码。两者都使用纯文本LLM来处理用户输入,视觉组件由单独的机器人模块处理。今年早些时候,InfoQ报道了谷歌的PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级动作步骤。

  RT-2 建立在以前的实现 RT-1 之上。RT系列的关键思想是训练模型直接输出机器人命令,这与以前输出更高层次的运动抽象的努力相反。RT-2 和 RT-1 都接受任务的图像和文本描述作为输入。然而,虽然RT-1使用不同视觉模块的管道来生成视觉令牌以输入LLM,但RT-2使用单一视觉语言模型,如PaLM-E。

  人工智能公司在6000多次试验中评估了RT-2。特别是,研究人员对其紧急能力感兴趣:即执行机器人特定训练数据中不存在的任务,但从其视觉语言预训练中出现的任务。该团队在三个任务类别上测试了RT-2:符号理解,推理和人类识别。与基线相比,RT-2实现了最佳基线的“超过3倍的平均成功率”。但是,该模型没有获得机器人训练数据中未包含的任何物理技能。

  在Hacker News关于这项工作的讨论中,一位用户评论道:

  看起来这项工作仍然停留在位置/速度控制而不是阻抗控制上。这本质上是输出去哪里,要么是带有控制器的闭环,要么是带有运动规划器的开环。这似乎大大降低了数据需求,但它感觉像是我们可以完成的任务的基本限制。机器人操纵之所以困难,是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑我们的互动如何改变它以及我们需要如何对此做出反应。

  虽然RT-2还没有开源,但RT-1的代码和数据已经开源。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com