Covariant正在为机器人构建ChatGPT | TechCrunch
2024 年 5 月 15 日

Covariant (opens new window) 本周宣布推出 RFM-1(Robotics Foundation Model 1)。加州大学伯克利分校人工智能公司的联合创始人兼首席执行官 Peter Chen 告诉 TechCrunch,这个平台“基本上是一个大型语言模型(LLM),但用于机器人语言。”

RFM-1 的成果之一是从 Covariant 的 Brain AI 平台部署 (opens new window) 中收集的大量数据。在获得客户同意的情况下,这家初创公司一直在构建机器人版本的 LLM 数据库。

Chen 表示:“RFM-1 的愿景是为即将出现的数十亿台机器人提供动力。我们在 Covariant 已经成功部署了大量机器人在仓库中。但这并不是我们想要达到的极限。我们真的希望为制造业、食品加工、回收、农业、服务业甚至人们的家庭提供机器人动力。”

随着更多的机器人公司讨论“通用”系统的未来,像 Agility、Figure、1X 和 Apptronik 等突然涌现的类人机器人公司在这场讨论中扮演了关键角色。这种形态与人类的适应性特别相仿,尽管机载 AI/软件系统的稳健性是另一个完全不同的问题。

目前,Covariant 的软件主要部署在执行各种熟悉的仓库任务的工业机械臂上,包括类似于拾取垃圾桶之类的工作。目前尚未在类人机器人上部署,尽管该公司承诺在一定程度上硬件无关。

Chen 表示:“我们喜欢更通用机器人硬件领域正在发生的许多工作。将智能拐点与硬件拐点结合起来是我们将看到更多机器人应用爆炸的地方。但很多这些领域尚未完全到位,尤其是在硬件方面。很难超越 舞台视频 (opens new window)。有多少人与类人机器人亲自互动过?这告诉你成熟程度。”

Covariant 在描述 RFM-1 在机器人决策过程中扮演角色时,并不回避与人类的比较。根据其新闻材料,该平台“赋予机器人类似人类的推理能力,代表生成式 AI 首次成功为商业机器人赋予了对语言和物理世界的更深刻理解。”

这是一个领域,我们在其中必须小心声明,无论是与抽象的 — 或哲学的 — 概念进行比较,还是在实际效用上随着时间的推移。 “类人的推理能力” 是一个广义概念,对不同的人有很多不同的含义。这里的概念适用于系统处理现实世界数据的能力,并确定执行手头任务的最佳行动方案。

这与传统机器人系统不同,这些系统被程序化为重复执行一个任务,直至永远。这种单一用途的机器人在高度结构化的环境中蓬勃发展,从汽车装配线开始。只要手头任务的变化最小,机器人臂就可以一遍又一遍地无阻碍地完成工作,直到下班时间并收集金色怀表以表彰其多年的忠诚服务。

然而,即使是最小的偏差也会迅速导致问题。比如物体没有准确放置在传送带上,或者光照调整对机载摄像头产生影响。这些差异可能对机器人的执行能力产生巨大影响。现在想象一下让那个机器人使用新零件、新材料甚至执行完全不同的任务。那就更难了。

这是程序员传统介入的时候。机器人必须重新编程。往往不是来自工厂车间内部的人。这是资源和时间的巨大浪费。如果想要避免这种情况,需要发生两种事情之一:1)在工作场所工作的人需要学习编程,或者 2)您需要一种新的,更自然的与机器人互动的方法。

虽然希望实现前者是很好的,但似乎不太可能公司愿意投资这笔钱并等待必要的时间。后者正是 Covariant 正试图通过 RFM-1 实现的目标。“ChatGPT for robots” 不是一个完美的类比,但在 OpenAI 创始人的联系中,这是一个合理的简称。

从客户的角度来看,该平台呈现为一个文本字段,类似于当前面向消费者的生成式 AI 的当前版本。通过键入或语音输入一个文本命令,比如“拿起苹果”,系统会使用其训练数据(形状、颜色、大小等)来识别最接近该描述的面前物体。

然后,RFM-1 生成视频结果 — 本质上是模拟 — 通过过去的训练确定最佳行动方案。这最后一部分类似于我们的大脑在执行前评估行动潜在结果的方式。

在现场演示期间,系统对输入如“拿起红色物体”甚至更语义复杂的“在你穿鞋之前穿在脚上的东西拿起来”,导致机器人正确地分别拿起了苹果和一双袜子。

讨论系统前景时,涉及到许多大想法。至少,Covariant 在其创始人中拥有令人印象深刻的背景。Chen 在 Pieter Abbeel 领导的伯克利学习人工智能,他是 Covariant 的联合创始人和首席科学家。2016 年,Abbeel 也成为早期的 OpenAI 员工,比 Chen 加入 ChatGPT 公司早一个月。Covariant 是在随后的一年成立的。

Chen 表示,公司预计新的 RFM-1 平台将与已部署 Covariant 软件的“大多数”硬件兼容。