机器人是否即将迎来自己的ChatGPT时刻?
2024 年 4 月 11 日

机器人即将迎来自己的ChatGPT时刻吗?

沉默。呆板。笨拙。

亨利和简·埃文斯习惯了尴尬的客人。这对夫妇住在加利福尼亚州洛斯阿尔托斯希尔斯,他们家里已经有十多年的时间里接待了一大批机器人。

2002年,亨利40岁时中风,导致四肢瘫痪和失语。自那以后,他学会了通过眼睛在字母板上移动来交流,但高度依赖护理人员和妻子简。

亨利在2010年看到查理·肯普(Charlie Kemp)在CNN上的时候,对另一种生活产生了一丝希望。肯普是佐治亚理工学院的机器人教授,当时在电视上谈到由Willow Garage公司开发的PR2机器人。PR2是一台庞大的两臂机器人,装在轮子上,看起来像一个粗糙的金属管家。肯普展示了[机器人的工作原理],并谈到了他在健康护理机器人领域的研究。他展示了PR2机器人如何将药品递给电视节目主持人。

“突然之间,亨利转过头对我说,‘为什么这个机器人不能成为我的身体延伸?’我说,‘为什么不呢?’”简说。

然而,有一个很好的理由。虽然工程师们在让机器人在实验室和工厂等受控环境中工作方面取得了巨大进展,但家庭的设计却证明是困难的。在现实中,家具和房屋平面图差别很大;儿童和宠物可能会挡住机器人的去路;需要折叠的衣服有不同的形状、颜色和大小。管理这种不可预测的环境和多样化的条件甚至超出了最先进机器人原型的能力范围。

然而,这似乎终于在很大程度上得到改善,这主要要归功于人工智能。几十年来,机器人学家或多或少地专注于通过目的驱动的软件来控制机器人的“身体”——它们的手臂、腿、杆、轮子等等。但一代新的科学家和发明家认为以前缺失的人工智能成分可以使机器人比以往更快地学习新技能并适应新环境。这种新方法也许可以最终将机器人从工厂带入我们的家中。

然而,进步不会一蹴而就,正如埃文斯夫妇多年使用各种机器人原型所知。PR2是他们引进的第一个机器人,为亨利开辟了全新的技能。它可以拿起一个刮胡刀,亨利可以把脸贴上去,让他自己第一次十年后可以剃须和挠痒。但约450磅(200公斤)的体重和40万美元的价格使这个机器人难以接受。简说:“它很容易撞倒你家的墙壁。我不是很喜欢。”

最近,埃文斯夫妇一直在测试一个叫做Stretch的更小型机器人,肯普通过他的初创公司Hello Robot开发了这个机器人。第一版在疫情期间推出,价格约为18000美元。

Stretch重约50磅。它有一个小型移动底座,一个挂着摄像头的杆,以及一个可调节的手臂,手臂的末端有吸盘的夹子。它可以用控制器来控制。亨利使用笔记本电脑来控制Stretch,使用跟踪他头部动作的工具来移动光标。他可以移动他的大拇指和食指来点击计算机鼠标。去年夏天,Stretch与这对夫妇在一起超过一个月,亨利说这使他获得了全新的自主能力。他说:“这是实用的,我可以看到每天都会用它。”

亨利埃文斯用Stretch机器人梳头,吃饭,甚至和他的孙女玩。通过笔记本电脑,他可以让机器人给他梳头,让它拿着水果串供他吃。这也打开了亨利和他的孙女泰迪之间的关系。之前,她们几乎没有互动。简说:“她再也没有拥抱他说再见。没有任何这样的互动。”但“Papa Wheelie” 和泰迪用Stretch玩游戏,参加接力赛、保龄球和磁钓。

Stretch并没有太多智能:它带有一些预安装的软件,例如亨利用来控制它的Web界面,以及其他功能如AI导航。Stretch的主要优势在于人们可以插入自己的AI模型并用它们进行实验。但它展示了一个有用的家庭机器人世界可能看起来是什么样子。自从1950年代机器人研究领域的诞生以来,机器人能够在家中做许多人类做的事情——折叠衣物、做饭、清洁——一直是机器人学研究的梦想。长期以来,这只是“机器人充满梦想者,”肯普说。

但加利福尼亚大学伯克利分校的机器人学教授肯·戈德堡说,该领域正处在一个关键转折点。他说,以前构建有用的家用机器人的努力明显未能达到流行文化设定的期望——想象一下《杰森一家》中的机器女佣。现在情况大不相同。由于像Stretch这样的廉价硬件,以及数据收集和共享的努力以及生成式人工智能的进步,机器人比以往更快地变得更有能力和更有帮助。戈德堡说:“我们正在接近一个真正有用的能力的时刻。”

折叠衣物、烹饪虾、擦拭表面、卸载购物篮——如今的AI驱动机器人正在学习进行对于它们的前辈而言极具挑战性的任务。

缺失的部分 #

在机器人领域有一个众所周知的观察:对人类来说困难的事情对机器来说容易,而对人类来说容易的事情对机器来说困难。这被称为Moravec悖论,1980年代由当时卡内基梅隆大学机器人研究所的机器人学家汉斯·Moravec第一次提出。机器人可以下棋或者保持物体不动数小时而毫无问题。系鞋带、接住球或进行对话则是另一回事。

戈德堡说,这有三个原因。首先,机器人缺乏精确的控制和协调。其次,他们对周围世界的理解有限,因为它们依赖摄像头和传感器来感知。第三,它们缺乏固有的实际物理感。戈德堡说:“拿起一个锤子,它可能会从你的夹子中掉出来,除非你靠近重部分拿住它。但如果你只是看它,你是不会知道的,除非你知道锤子是如何工作的。”

除了这些基本考虑之外,还有很多其他技术上的事情需要做到恰到好处,从电机到摄像头到Wi-Fi连接,而硬件可能价格昂贵。

从机械上讲,我们已经能够做一些相当复杂的事情一段时间了。在1957年的一个视频 (opens new window)中,两只大型机器手足够灵巧地夹住一根香烟,把它放在一个打字机上的妇女嘴里,然后重新涂口红。但那个机器人的智能和空间意识是来自操作它的人。

“缺失的部分是:我们如何让软件自动地[做这些事情]?” 深达克·帕塔克说。 Deepak Pathak是卡内基梅隆大学计算机科学助理教授。

研究人员传统上通过详细规划机器人的一举一动来训练机器人。机器人巨头波士顿动力公司在开发跳舞和攀岩人形机器人Atlas时采用了这种方法。摄像头和计算机视觉用于识别物体和场景。然后,研究人员使用这些数据制作模型,可以用来极其精确地预测如果机器人以某种方式移动会发生什么。使用这些模型,机器人学家通过为它们编写非常具体的行动清单来规划他们机器人的动作。然后工程师在实验室中测试这些动作很多次,并将它们调整到完美。

这种方法有其局限性。像这样训练的机器人严格按照一种特定环境中的工作流程编排。将它们从实验室带到一个陌生的地方,它们很可能会倒下。

Pathak表示,与计算机视觉等其他领域相比,机器人技术一直处于黑暗时代。但这种情况可能不会持续太久,因为该领域正在发生巨大变革。他表示,由于人工智能的繁荣,焦点现在正在从体能技巧转向构建“通用机器人大脑”,即神经网络形式。就像人脑适应性强,可以控制人体的不同方面一样,这些网络可以被调整以适应不同的机器人和不同的情况。这项工作的早期迹象显示出有希望的结果。

机器人,遇见人工智能 #

很长一段时间以来,机器人研究一直是一个进展缓慢的领域。Pathak所在的卡内基梅隆大学机器人研究所,他说:“过去有句话说,如果你碰到了一个机器人,你的博士学位就会增加一年。”现在,他说,学生们可以在几周内接触到许多机器人,并看到结果。

区别于这批新一代机器人的是它们的软件。机器人学家开始使用深度学习和神经网络来创建系统,这些系统可以在环境中学习并相应地调整行为,而不是传统的耗时规划和训练。与此同时,新的、价格更便宜的硬件,例如现成组件和像Stretch这样的机器人,使这种实验更加容易。

广义上讲,研究人员使用人工智能来训练机器人有两种流行方法。Pathak一直在使用强化学习,这是一种允许系统通过试错来改进的人工智能技术,以使机器人在新环境中适应其运动的技术。这是波士顿动力公司也开始在其名为Spot的机器人“狗”上使用的技术。

Deepak Pathak在卡内基梅隆大学的团队使用了一种名为强化学习的人工智能技术,创建了一个可以进行极限攀岩的机器狗,几乎没有预先编程。

在2022年,Pathak的团队使用这种方法创建了能够爬上楼梯并穿越复杂地形的四足机器人“狗”。这些机器人首先在模拟环境中进行了一般性移动训练。然后它们在现实世界中被释放,只有一个内置摄像头和计算机视觉软件来指导它们。其他类似的机器人依赖于严格规定的世界内部地图,无法超越这些地图进行导航。

Pathak表示,团队的方法受到了人类导航的启发。人类通过眼睛收到周围世界的信息,这有助于他们本能地适当地迈步前行。人类在行走时通常不会低头看脚下的地面,而是朝前几步,看向他们想要去的地方。Pathak的团队训练其机器人以类似的方式行走:每个机器人使用摄像头向前看。然后机器人能够记忆前方的环境足够长的时间以指导它的腿部位置。这些机器人即时学习世界知识,无需内部地图,并相应调整其行为。当时,专家告诉《麻省理工技术评论》杂志,这种技术是“机器人学习和自主性方面的突破”,并可能让研究人员构建能够在野外部署的四足机器人。

Pathak的机器狗已经取得了进展。团队最新的算法允许四足机器人进行极限攀岩。该机器人再次在模拟环境中进行了一般性移动训练。但是,通过强化学习,它能够自行学习新技能,例如如何跳跃长距离、用前腿行走以及攀登两倍高的箱子。这些行为不是研究人员编程的。相反,机器人通过试错学习和来自前置摄像头的视觉输入。Pathak表示:“三年前我不相信这是可能的。”

在另一种流行技术中,称为模仿学习,模型通过例如模仿人类远程操控机器人或使用VR头盔收集机器人数据的动作来学习执行任务。这是一个几十年来时起时落的技术,但最近在执行操控任务的机器人中变得更加流行,Toyota研究所的机器人研究副总裁、麻省理工学院教授Russ Tedrake表示。

通过将这种技术与生成式人工智能相结合,Toyota研究所、哥伦比亚大学和麻省理工学院的研究人员已经能够快速教会机器人执行许多新任务。他们相信他们已经找到了一种方法,将推动生成式人工智能技术从文本、图像和视频领域扩展到机器人运动领域。

这个想法是从一个人开始,手动控制机器人演示打蛋或拿盘子这样的行为。然后,机器人能够利用输入的数据学习技能。研究人员已经教会机器人超过200项技能,例如削皮蔬菜和倒液体,并表示他们正在努力在年底前教授1000项技能。

许多其他人也利用了生成式人工智能。从OpenAI的已关闭机器人研究部门分拆出来的机器人初创公司Covariant已经建立了一个名为RFM-1的多模型,它可以接受文本、图像、视频、机器人指令或测量作为提示。

Toyota研究所团队希望,这将有一天导致“大行为模型”,这类似于大语言模型,Tedrake表示。“许多人认为行为克隆将使我们达到机器人的ChatGPT时刻,”他说。

类似地,今年早些时候,斯坦福大学的一个团队成功使用一台价格为32000美元的相对廉价的现成机器人来做复杂的操控任务,例如烹饪虾和清洁污渍。他们学到了很多新的东西。 用AI快速学习新技能。

被称为Mobile ALOHA(“低成本开源硬件远程操作系统”的松散首字母缩略词)的机器人仅通过20次人类演示和其他任务的数据(例如撕纸巾或胶带)就学会了烹饪虾。斯坦福的研究人员发现,AI可以帮助机器人获得可转移的技能:在一个任务上训练可以提高其在其他任务中的表现。

丰田研究所

丰田研究所

丰田研究所

丰田研究所

虽然当前的生成式AI代际与图片和语言一起工作,但丰田研究所、哥伦比亚大学和麻省理工学院的研究人员认为这种方法可以延伸到机器人运动领域。

所有这些工作都是为了让机器人在家中有用。人类的需求随着时间而改变,教导机器人可靠地完成各种任务非常重要,这将帮助它们适应我们。这对于商业化也至关重要——第一代家用机器人将带有昂贵的价格标签,而机器人需要具备足够的有用技能,使普通消费者愿意投资购买。

很长一段时间以来,许多机器人社区对这些方法持怀疑态度,斯坦福大学计算机科学和电子工程助理教授、Mobile ALOHA项目顾问切尔西·芬恩说。芬恩表示,近十年前,在机器人会议上很少见到基于学习的方法,并且在机器人社区中备受诟病。“自然语言处理的繁荣使更多的社区成员相信这种方法非常强大,”她说。

然而,有一个要注意的地方。为了模仿新行为,AI模型需要大量数据。

更多即是更好 #

与可以通过从互联网获取数十亿数据点来训练的聊天机器人不同,机器人需要专门为机器人创建的数据。纽约大学计算机科学助理教授勒雷尔·平托表示,他们需要展示如何打开洗衣机和冰箱、拿起盘子或折叠衣物的物理演示。目前这样的数据非常稀缺,人类收集起来需要很长时间。

“ON BRINGING ROBOTS HOME”,NUR MUHAMMAD(MAHI)沙菲乌拉等人。

一些研究人员正在尝试使用现有的人类视频来训练机器人,希望机器能够复制这些操作而无需物理演示。

平托的实验室还开发了一个巧妙、廉价的数据收集方法,将机器人的动作与所需的操作相连接。研究人员拿了一个类似于用来捡垃圾的伸手器的棍子,将iPhone固定在上面。人类志愿者可以使用这个系统拍摄自己做家务,模仿机器人手臂末端的视野。使用这个用于Stretch机器人的替代品和一个名为DOBB-E的开源系统,平托的团队仅用20分钟的iPhone数据就让Stretch机器人学会了倒水和打开淋浴帘等任务。

但对于更复杂的任务,机器人需要更多的数据和演示。

平托表示,要达到DOBB-E所需的规模是很困难的,因为基本上需要说服地球上的每个人都购买这种伸手器系统,收集数据并上传到互联网。

由Google DeepMind发起的一个名为Open X-Embodiment Collaboration的新计划旨在改变这种状况。去年,该公司与34个研究实验室合作,约150名研究人员从22种不同的机器人中收集数据,其中包括Hello Robot的Stretch。2023年10月发布的数据集包含机器人展示的527项技能,例如拿取、推动和移动。

参与该项目的加州大学伯克利分校计算机科学家谢尔盖·莱文表示,目标是通过收集来自世界各地实验室的数据创建一个“机器人互联网”。这将使研究人员能够获得更大、更可扩展和更多样化的数据集。导致今天生成式AI的深度学习革命始于2012年,随着ImageNet的崛起。Open X-Embodiment Collaboration是机器人社区为机器人数据做类似事情的一种尝试。

初步迹象表明,更多的数据正在带来更智能的机器人。研究人员构建了两个名为RT-X的机器人模型版本,它们可以在各个实验室的个人计算机上本地运行,也可以通过网络访问。较大的、可通过网络访问的模型使用互联网数据预训练,以开发“视觉常识”,即对世界的基本理解,从大语言和图像模型中。当研究人员在许多不同的机器人上运行RT-X模型时,他们发现机器人能够比每个实验室正在开发的系统更成功地学习技能50%。

“我认为没有人预料到这一点,”Google DeepMind的头部机器人技术主管文森特·范霍克说。 “突然之间,出现了一条路径,可以利用所有这些其他数据来源,以实现机器人中非常智能的行为。”

许多机器人专家认为,大型视觉语言模型,能够分析图像和语言数据,可能会为机器人提供关于周围世界如何运作的重要线索,范霍克说。它们提供了关于世界的语义线索,并且可以帮助机器人进行推理、推断和通过解释图像进行学习。为了测试这一点,研究人员拿了一个在较大模型上训练的机器人,并要求它指向泰勒·斯威夫特的图片。研究人员没有向机器人展示过斯威夫特的照片,但它仍然能够辨认这位流行歌手,因为它在数据集中有一个网络规模的了解她的认识,没有她的照片,范霍克说。

RT-2是一个最新的用于机器人控制的模型,它是通过在线文本和图像以及与现实世界的互动训练的。

范霍克表示,Google DeepMind越来越多地使用类似于机器翻译的技术来从英语转换为机器人语言。去年夏天,Google推出了名为RT-2的视觉语言-动作模型。该模型从它所接受的在线文本和图像中获得对世界的一般理解,以及它在现实世界中的互动。他补充说,每个机器人在将英语转换为动作时都有略微不同的方式。

“我们越来越感觉机器人本质上就是说机器人语言的聊天机器人,”范霍克说。

初步措施 #

尽管发展速度很快,但机器人在释放到现实世界之前仍面临许多挑战。 他们对普通消费者来说仍然太笨重,无法让人们花费数万美元来购买。机器人还缺乏一种常识,使它们能够多任务处理。Goldberg说,他们需要从仅仅拿起东西并将其放置到另一个地方转变为组装东西,例如,将一副牌或一款棋盘游戏放回盒子,然后放入游戏橱柜。

但从将人工智能整合到机器人的早期结果来看,机器人学家们并没有浪费时间,Pinto说。

“我相当有信心,我们将看到某种普适家用机器人。现在,它是否可以接触到普通公众?我认为不会,”他说。“但从原始智能的角度来看,我们现在已经看到了一些迹象。”

构建下一代机器人可能不仅仅是帮助人类处理日常琐事或帮助像Henry Evans这样的人过上更独立的生活。对于像Pinto这样的研究人员,有一个更大的目标正映入眼帘。

他说,家庭机器人技术提供了一个最佳基准来衡量人类级别的机器智能。他补充说,在家庭环境中,人类能够智能地操作的事实意味着我们知道这是可以达到的智能水平。

“这是我们潜在可能解决的问题。我们只是不知道如何解决它,”他说。

亨利·埃文斯通过Stretch,首次在20年中能够自己拿着扑克牌。

对于亨利和简·埃文斯来说,一个重大胜利就是获得一个可靠运作的机器人。埃文斯夫妇试验过的Stretch机器人仍然存在太多错误,无法在没有研究人员在场排除故障的情况下使用,而且他们的家中并不总是有亨利需要的可靠Wi-Fi连接,以便通过笔记本与Stretch进行通信。

尽管如此,亨利说,他与机器人的实验带来的最大好处之一是独立:“我只是躺在床上,现在我可以自己做一些涉及操作物理环境的事情。”

多亏了Stretch,亨利第一次在20年间能够在比赛中拿着自己的扑克牌。

“我几次踢了每个人的屁股,”他说。

“好吧,我们不要说得太大了,”简说着笑了起来。