谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2)

谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2)

Robotic Transformer 2 (RT-2) is a novel vision-language-action (VLA) model that learns from both web and robotics data, and translates this knowledge into generalised instructions for robotic control.

2023年7月28日,Google DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2)。这是一个全新的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

高容量的视觉-语言模型(VLMs)是在大规模网络数据集上训练的,使得这些系统在识别视觉或语言模式以及跨不同语言进行操作方面非常出色。但是,要使机器人达到类似的能力水平,它们需要首次收集机器人数据,覆盖每一个物体、环境、任务和情境。

在DeepMind论文中,介绍了机器人变形器2(RT-2),这是一种新颖的视觉-语言-动作(VLA)模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留了大规模网络能力。

图片[1] - 谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2) - AIBetas

这项工作基于机器人变形器1(RT-1),这是一个在多任务演示上训练的模型,可以学习机器人数据中所见的任务和物体的组合。

RT-2展示了改进的泛化能力和超越所接触到的机器人数据的语义和视觉理解能力。这包括解释新的命令并通过进行基本的推理来响应用户命令,例如推理对象类别或高层次描述。展示了将思维链推理纳入RT-2中,使其能够进行多阶段的语义推理,例如决定哪种物体可以用作临时锤子(石头),或者哪种类型的饮料最适合疲倦的人(能量饮料)。

采用VMLs进行机器人控制

RT-2基于接受一个或多个图像作为输入,并生成代表自然语言文字的令牌序列的视觉-语言模型(VLMs)。这样的VLMs已经成功地在大规模网络数据上进行训练,用于执行诸如视觉问答、图像描述或物体识别等任务。DeepMind将Pathways语言和图像模型(PaLI-X)和Pathways语言模型Emobodied(PaLM-E)调整为RT-2的核心。

为了控制机器人,通过在模型的输出中将动作表示为令牌来解决这个挑战 – 类似于语言令牌 – 并将动作描述为可以由标准自然语言分词器处理的字符串,如下所示:

图片[2] - 谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2) - AIBetas

该字符串以一个标志开始,该标志指示是否继续或终止当前的任务,而不执行后续的命令,然后跟随着改变末端执行器的位置和旋转以及机器人夹爪的期望开度的命令。

使用与RT-1相同的机器人行为的离散化版本,并且表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型-因为这种模型的输入和输出空间不需要进行更改。

图片[3] - 谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2) - AIBetas

对RT-2模型进行了一系列的定性和定量实验,涵盖了超过6,000次机器人试验。首先寻找需要组合来自大规模网络数据和机器人经验的知识的任务,然后定义了三类技能:符号理解、推理和人类识别。

每个任务都需要理解视觉-语义概念,并具备进行机器人控制以操作这些概念的能力。例如,“捡起即将从桌子上掉下来的袋子”或“将香蕉移动到两加一的和上”- 在这些命令中,机器人被要求对从未在机器人数据中见过的物体或场景执行操纵任务,这就需要从基于网络数据翻译出来的知识来操作。

图片[4] - 谷歌DeepMind发布新的机器人模型Robotics Transformer 2(RT-2) - AIBetas

RT-2表明,视觉语言模型(VLM)可以转化为强大的视觉语言行动(VLA)模型,通过将VLM预训练与机器人数据相结合,可以直接控制机器人。

基于PaLM-E和PaLI-X的两个VLA实例化,RT-2导致了高度改进的机器人策略,更重要的是,它获得了来自大规模视觉语言预训练的显着更好的泛化性能和新兴能力。

RT-2不仅是对现有VLM模型的简单有效修改,而且显示了构建一个能够在现实世界中执行各种任务的通用物理机器人的潜力,它可以进行推理、问题求解和信息解读。

机器人模型Robotics Transformer 2(RT-2)论文https://robotics-transformer2.github.io/assets/rt2.pdf

Blog原文https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action

© 版权声明
THE END
喜欢就支持一下吧
点赞27 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容