忘掉会画图的人工智能吧,谷歌最新的人工智能模型可以控制机器人。
上周五,谷歌推出了机器人变形金刚2(RT2),这是一种视觉-语言-动作(VLA)模型,可以获取文本和图像,并将它们输出为机器人动作。
谷歌DeepMind的机器人学负责人文森特·范豪克在一篇博客文章中解释说:“就像语言模型在网络文本上被训练来学习一般的想法和概念一样,RT-2从网络数据中转移知识来告知机器人的行为。”
Vanhoucke说,虽然聊天机器人可以通过向它们提供关于某个主题的信息来进行训练,但机器人需要更进一步,在现实世界中获得“扎根”。他举的例子是一个红苹果。虽然你可以简单地向聊天机器人解释苹果是什么,但机器人需要知道它的一切,以及如何将它与类似的东西区分开来–例如一个红色的球–它们还必须学习如何捡起那个苹果。
RT-2比谷歌的RT-1更进一步
有了RT-2,机器人能够学习和掌握所学的知识,并将其应用于未来的情况。尽管如此,谷歌指出,在目前的形式下,限制意味着RT-2只能帮助机器人在它已经知道如何做的物理任务中变得更好,而不是从头开始学习。
尽管如此,这是向前迈出的一大步,向我们展示了未来可能发生的事情。欲了解更多,谷歌在其DeepMind博客上详细介绍了RT-2的工作原理
上一篇:推特X更名引发微软安全警报
有话要说...