用 ChatGPT 和视频游戏资产重建《星际迷航》的全息甲板
2024 年 4 月 14 日

在《星际迷航:下一代》中,皮卡德船长和美国宇宙星舰企业号的船员利用“全息甲板”,一个可以生成3D环境的空房间,来为任务做准备和娱乐自己,模拟从郁郁葱葱的丛林到福尔摩斯的伦敦的一切。全息甲板所创造的环境具有极高的沉浸感和完全互动性,可以通过语言无限自定义:机组人员只需要求计算机生成一个环境,该空间就会出现在全息甲板中。

如今,虚拟互动环境也被用于在“Sim2Real”过程中训练机器人,然后再部署到现实世界中。然而,虚拟互动环境的供应却惊人地短缺。信息科学(CIS)助理和副教授Mark Yatskar和Chris Callison-Burch的实验室的博士生Yue Yang表示,“艺术家们手动创建这些环境。”“这些艺术家可能花费一周的时间来构建一个环境,”Yang补充道,指出从空间布局到物体摆放再到渲染中使用的颜色等所涉及的所有决定。

如果您想训练机器人以应对现实世界的所有复杂性,那么虚拟互动环境的短缺就是一个问题。推动当今人工智能革命的神经网络需要大量的数据,也就是物理世界的模拟。Callison-Burch表示:“ChatGPT等生成式AI系统接受了数万亿字的训练,Midjourney和DALLE等图像生成器接受了数十亿张图片的训练。”“对于训练所谓的‘具体化人工智能’,我们只有一小部分3D环境可供训练。如果我们想要利用生成式AI技术开发能够安全导航现实环境的机器人,那么我们将需要创建数以百万计甚至数十亿的模拟环境。”

Holodeck,是由Callison-Burch、Yatskar、Yang和Lingjie Liu以及斯坦福大学、华盛顿大学和人工智能艾伦研究所(AI2)的合作者共同创造的用于生成交互式3D环境的系统。以《星际迷航》的前辈命名,Holodeck利用人工智能来解释用户的请求,生成几乎无限范围的室内环境。Yang表示:“我们可以使用语言来控制它。”“您可以轻松描述您想要的任何环境并训练具体化人工智能代理。”

Holodeck利用大型语言模型(LLMs)中的知识,这些模型是ChatGPT和其他聊天机器人的基础系统。Yang说:“语言是对整个世界非常简洁的表达。”事实上,由于在训练过程中摄入了大量文本,LLMs对空间设计有出乎意料的高度了解。实际上,Holodeck通过与LLM对话,使用一系列精心设计的隐藏查询来将用户请求分解为具体参数。

就像皮卡德船长可能会要求《星际迷航》的全息甲板模拟一家秘密酒吧一样,研究人员可以要求Penn的Holodeck创建“一个拥有猫的研究人员的1b1b公寓。”该系统通过将查询分解为多个步骤来执行此查询:首先创建地板和墙壁,然后是门口和窗户。接下来,Holodeck搜索Objaverse,一个大型预制数字对象库,以获取您在这样的空间中所期望的家具:咖啡桌,猫爬架等。最后,Holodeck查询布局模块,研究人员设计该模块以限制物体的放置位置,以免您最终会看到卫生间从墙壁水平延伸出来。

为了评估Holodeck在现实感和准确性方面的能力,研究人员使用Holodeck和AI2早期工具ProcTHOR生成了120个场景,并要求数百名宾夕法尼亚工程学院的学生指出他们更喜欢哪个版本,而不知道哪些场景是由哪些工具创建的。对于每一个标准—资产选择、布局连贯性和整体偏好—学生们一致地更喜欢Holodeck生成的环境。

研究人员还测试了Holodeck生成那些在机器人研究中不太典型且比公寓内部更难以手动创建的场景,如商店、公共空间和办公室。将Holodeck的输出与使用人类创建规则而不是AI生成文本生成的ProcTHOR的输出进行比较后,研究人员再次发现人类评估者更喜欢Holodeck创建的场景。这种偏好横跨各种室内环境,从科学实验室到艺术工作室,更衣室到酒窖。

最后,研究人员使用Holodeck生成的场景来“微调”具体化人工智能代理。Yatskar表示:“Holodeck的最终测试是利用它帮助机器人以更安全的方式与环境互动,为它们准备好到过的地方。”

在包括办公室、托儿所、健身房和游戏厅在内的多种虚拟空间中,Holodeck对代理的导航能力产生了显著且积极的影响。

例如,当使用ProcTHOR进行预训练时(机器人大约会走400百万个虚拟步骤),代理在音乐室中成功找到钢琴的概率仅为6%左右,而当使用Holodeck生成的100个音乐室进行微调时,代理成功率达到了30%以上。

Yang表示:“这个领域长期以来一直在研究住宅空间。”“但是那里有很多多样的环境—高效地生成大量环境来训练机器人一直是一个大挑战,但Holodeck提供了这种功能。”