聊天GPT-3.5，克劳德3在街头霸王III比赛中踢了像素化的屁股

2024 年 4 月 11 日

大型语言模型（LLMs）现在可以在复古街机视频游戏《街头霸王III》中接受考验，迄今似乎有些模型优于其他模型。

《街头霸王III》基准测试，名为LLM Colosseum (opens new window)，是由Phospho和Quivr的四名AI开发人员在上个月在旧金山举行的Mistral黑客马拉松期间创建的。该基准测试通过让两个LLMs在《街头霸王III》的实际游戏中互相对抗来运作，让每个模型了解胜利的接近程度，对手模型的位置以及采取的动作。然后询问其希望做什么，之后将执行动作。

根据LLM Colosseum的官方排行榜显示，基于8个不同LLMs之间342场比赛，ChatGPT-3.5 Turbo迄今为止是赢家，Elo评分为1,776.11。这远远超过了ChatGPT-4的几个版本，后者的评分在1400至1500之间。

LLM Colosseum开发人员之一Nicolas Oulianov表示，使LLM擅长《街头霸王III》的关键特征之一是速度和智力的平衡。他说：“GPT-3.5 Turbo在速度和智力之间取得了良好的平衡。GPT-4是一个更大的模型，因此更聪明，但速度要慢得多。”

Oulianov表示，ChatGPT-3.5和4在LLM Colosseum中的差异显示了最新LLMs中哪些特征受到优先考虑。他说：“现有的基准测试过于专注于性能，而忽视了速度。如果您是AI开发人员，您需要定制评估来确定GPT-4是否是最适合您用户的模型。”在格斗游戏中，哪怕多出一点时间也可能导致快速失利。

亚马逊网络服务开发人员Banjo Obayomi记录了LLM Colosseum的另一个实验 (opens new window)，在Amazon Bedrock上运行模型。此次比赛涉及十几个不同的模型，尽管Claude明显占据优势，获得第一至第四名，其中Claude 3 Haiku获得第一名。

Obayomi还跟踪了测试的LLMs不时展示的古怪行为，包括尝试进行无效动作，例如毁灭性的“全部最强连击”。

有时，LLMs甚至拒绝继续游戏。创建AI模型的公司往往会注入反对暴力的观点，通常会拒绝回答任何它认为过于暴力的提示。Claude 2.1尤其是和平主义者，表示它甚至无法容忍虚构的斗争。

尽管与实际人类玩家相比，这些聊天机器人并不是专业水平。Oulianov表示：“我和LLMs打了几场《街头霸王III》比赛。”“到目前为止，我认为LLMs只有对抗70岁或五岁孩子才有机会在《街头霸王III》中获胜。”

为什么要在复古格斗游戏中测试LLMs？ #

在一款老式视频游戏中对LLMs进行基准测试的想法很有趣，也许这就是LLM Colosseum存在的所有原因，但可能不仅仅如此。Oulianov表示：“与您在新闻发布中看到的其他基准测试不同，每个人都玩过视频游戏，可以体会为什么对于LLM来说会是个挑战。”“大型AI公司正在操纵基准测试来获得漂亮的分数并炫耀。”

但他指出，“《街头霸王》基准测试有点类似，但更加有趣。”

除此之外，Oulianov表示LLM Colosseum展示了通用智能LLMs的智能程度。“这个项目展示了LLMs变得如此聪明、快速和多功能化的潜力，以至于我们可以将它们用作‘即插即用的推理机器’，几乎可以用于任何地方。目标是创建能够不仅与文本进行推理，还能够对环境做出反应并与其他思维机器进行互动的机器。”

Oulianov还指出，已经有AI模型可以以专业水平玩现代游戏。DeepMind的AlphaStar在2018年和2019年击败了《星际争霸II》职业选手，而OpenAI的OpenAI Five模型证明能够击败世界冠军并与人类队友有效合作。

今天的面向聊天的LLMs还远远不及专门设计的模型（试着与ChatGPT下国际象棋比赛吧），但也许这种情况不会持续太久。Oulianov表示：“通过这类项目，我们展示了这个愿景距离现实并非像科幻小说那样遥远。”