本文介绍了一项由全球21个研究机构合作完成的研究,题为《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》。该研究旨在通过构建一个大规模的、开放的机器人学习数据集,推动机器人领域的通用化学习模型的发展。研究的主要成果包括一个包含22种不同机器人平台、527种技能(160,266个任务)的数据集,以及基于该数据集训练的RT-X模型。该研究展示了通过多机器人平台数据的联合训练,能够显著提升机器人策略的泛化能力和性能。
近年来,大规模、高容量的模型在自然语言处理(NLP)和计算机视觉(CV)领域取得了显著成功,尤其是在通过大规模多样化数据集进行预训练后,这些模型能够高效地处理下游任务。然而,机器人学习领域尚未实现类似的突破。传统的机器人学习方法通常为每个应用、每个机器人甚至每个环境训练单独的模型,导致资源浪费且难以泛化。因此,研究者提出了一个问题:是否可以通过训练一个“通用”的机器人策略模型,使其能够高效地适应新的机器人、任务和环境?
为了探索这一可能性,研究者们构建了一个名为Open X-Embodiment(OXE)的数据集,并通过实验展示了基于该数据集训练的RT-X模型能够实现正向迁移(positive transfer),即通过利用其他机器人平台的经验,提升单个机器人的性能。
Open X-Embodiment数据集由来自22种不同机器人平台的60个现有数据集整合而成,涵盖了超过100万条机器人轨迹。数据集中的机器人平台包括单臂机器人、双臂机器人以及四足机器人等,任务类型涵盖了抓取、推动、放置、导航等多种技能。为了便于使用,数据集采用了RLDS(Robot Learning Datasets)格式,支持高效的数据加载和处理。
基于该数据集,研究者们训练了两个模型:RT-1-X和RT-2-X。RT-1-X是基于RT-1模型的改进版本,专为机器人控制设计,采用了Transformer架构和EfficientNet视觉编码器。RT-2-X则是一个基于大规模视觉-语言模型(VLM)的模型,将机器人动作表示为自然语言标记,从而能够利用预训练的视觉-语言模型的泛化能力。
研究通过大量实验验证了RT-X模型的有效性。实验主要回答了三个问题: 1. 正向迁移效果:通过多机器人平台数据的联合训练,RT-X模型在单个机器人任务上的表现是否优于仅使用该机器人数据的模型?实验结果表明,RT-1-X在多个小规模数据集上的表现显著优于仅使用单个数据集训练的模型,平均成功率提高了50%。 2. 泛化能力:RT-X模型是否能够更好地泛化到新的、未见过的任务?实验表明,RT-2-X在未见过的任务上表现出更强的泛化能力,尤其是在处理复杂指令和未见过的物体时,表现优于仅使用单个机器人数据训练的模型。 3. 模型设计的影响:模型容量、架构和数据集组成对性能和泛化能力的影响如何?实验发现,较大的模型容量(如55B参数的RT-2-X)能够更好地吸收大规模多样化数据,从而在复杂任务上表现更优。
该研究展示了通过多机器人平台数据的联合训练,能够显著提升机器人策略的泛化能力和性能。RT-X模型的成功表明,机器人学习领域有望通过大规模、多样化的数据集实现类似于NLP和CV领域的模型通用化。此外,研究者们还提供了Open X-Embodiment数据集、预训练模型和开源工具,为机器人学习社区提供了宝贵的研究资源。
尽管RT-X模型在多个任务上表现出色,但仍有许多未解决的问题。例如,如何将模型应用于具有不同传感和执行方式的机器人?如何在新机器人上实现泛化?这些问题将是未来研究的重要方向。该研究不仅展示了跨机器人学习的可行性,还为未来的研究提供了工具和资源。