Loading...

谷歌Deepmind|RoboCat:一个自我改进的机器人代理

大模型8个月前发布 智源社区
306 0 0

?智源社区日报关注订阅?

新的基金会代理学习操作不同的机器人手臂,从只需100个演示中解决任务,并从自生成的数据中改进。

机器人正在迅速成为我们日常生活的一部分,但它们通常只被编程为很好地执行特定任务。虽然利用人工智能的最新进展可能导致机器人在更多方面提供帮助,但构建通用机器人的进展较慢,部分原因是收集现实世界训练数据所需的时间。

我们的最新论文介绍了机器人学自我改进的人工智能代理RoboCat,该代理学习在不同手臂上执行各种任务,然后自行生成新的训练数据以改进其技术。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理

之前的研究已经探索了如何开发能够大规模学习多任务的机器人,并将对语言模型的理解与辅助机器人的现实世界能力相结合。RoboCat是第一个解决和适应多个任务的代理,并在不同的真实机器人中做到这一点。

RoboCat的学习速度比其他最先进的型号快得多。它只需100个演示即可完成一项新任务,因为它从庞大而多样化的数据集中汲取。这种能力将有助于加速机器人研究,因为它减少了对人类监督培训的需求,并且是创建通用机器人的重要一步。

RoboCat如何改进自己

RoboCat基于我们的多模态模型Gato(西班牙语为“猫”),它可以在模拟和物理环境中处理语言、图像和操作。我们将Gato的架构与各种机器人手臂的图像和动作序列的大型训练数据集相结合,解决了数百个不同的任务。

在第一轮培训之后,我们推出了RoboCat进入“自我完善”培训周期,其中包含一系列以前从未见过的任务。学习每项新任务都遵循五个步骤:

使用由人类控制的机器人手臂,收集100-1000个新任务或机器人的演示。
在这个新的任务/手臂上微调RoboCat,创建一个专门的分拆代理。
衍生代理对这项新任务/手臂的实践平均10,000次,生成更多的训练数据。
将演示数据和自生成数据整合到RoboCat的现有训练数据集中。
在新的训练数据集上训练新版本的RoboCat。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理
RoboCat的训练周期,由其自主生成额外训练数据的能力增强。

所有这些训练的组合意味着最新的RoboCat基于数百万个轨迹的数据集,来自真实和模拟机器人手臂,包括自生成的数据。我们使用四种不同类型的机器人和许多机器人手臂来收集基于视觉的数据,这些数据代表了RoboCat将接受训练执行的任务。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理

RoboCat从各种训练数据类型和任务中学习:真正的机器人手臂捡起齿轮、模拟手臂堆叠块和RoboCat使用机器人手臂捡起黄瓜的视频。

学习操作新的机器人手臂并解决更复杂的任务

通过RoboCat的多样化培训,它学会了在几个小时内操作不同的机器人手臂。虽然它用双管夹持器训练手臂,但它能够适应更复杂的手臂,用三指夹具和两倍的可控输入。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理

左:一个新的机器人手臂RoboCat学会了控制

右:RoboCat用手臂捡起齿轮的视频

在观察了在短短几个小时内收集的1000次人类控制的演示后,RoboCat可以灵巧地指挥这只新手臂,在86%的时间里成功拿起齿轮。通过相同水平的演示,它可以适应解决结合精度和理解性的任务,例如从碗中取出正确的水果并解决形状匹配谜题,这是更复杂控制所必需的。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理
RoboCat可以在500-1000演示后适应解决的任务示例。

自我改进的通才

RoboCat有一个良性的训练周期:它学到的新任务越多,学习额外的新任务就越好。在从每个任务的500个演示中学习后,RoboCat的初始版本在以前从未见过的任务上成功了36%。但最新的RoboCat在任务的多样性方面进行了培训,在相同任务上的成功率翻了一番多。

谷歌Deepmind|RoboCat:一个自我改进的机器人代理

在对之前看不到的任务的500个演示进行微调后,最初的RoboCat(一轮培训)与最终版本(广泛而多样化的培训,包括自我改进)相比,性能的巨大差异很大。

这些改进是由于RoboCat不断扩大的经验,类似于人们在特定领域深化学习时如何发展更多样化的技能。RoboCat独立学习技能和快速自我改进的能力,特别是当应用于不同的机器人设备时,将有助于为新一代更有用的通用机器人代理铺平道路。

© 版权声明

相关文章

暂无评论

暂无评论...