大型语言模型(LLMs)现在可以在复古街机视频游戏《街头霸王III》中接受考验,迄今似乎有些模型优于其他模型。
《街头霸王III》基准测试,名为LLM Colosseum (opens new window),是由Phospho和Quivr的四名AI开发人员在上个月在旧金山举行的Mistral黑客马拉松期间创建的。该基准测试通过让两个LLMs在《街头霸王III》的实际游戏中互相对抗来运作,让每个模型了解胜利的接近程度,对手模型的位置以及采取的动作。然后询问其希望做什么,之后将执行动作。
根据LLM Colosseum的官方排行榜显示,基于8个不同LLMs之间342场比赛,ChatGPT-3.5 Turbo迄今为止是赢家,Elo评分为1,776.11。这远远超过了ChatGPT-4的几个版本,后者的评分在1400至1500之间。
LLM Colosseum开发人员之一Nicolas Oulianov表示,使LLM擅长《街头霸王III》的关键特征之一是速度和智力的平衡。他说:“GPT-3.5 Turbo在速度和智力之间取得了良好的平衡。GPT-4是一个更大的模型,因此更聪明,但速度要慢得多。”
Oulianov表示,ChatGPT-3.5和4在LLM Colosseum中的差异显示了最新LLMs中哪些特征受到优先考虑。他说:“现有的基准测试过于专注于性能,而忽视了速度。如果您是AI开发人员,您需要定制评估来确定GPT-4是否是最适合您用户的模型。”在格斗游戏中,哪怕多出一点时间也可能导致快速失利。
亚马逊网络服务开发人员Banjo Obayomi记录了LLM Colosseum的另一个实验 (opens new window),在Amazon Bedrock上运行模型。此次比赛涉及十几个不同的模型,尽管Claude明显占据优势,获得第一至第四名,其中Claude 3 Haiku获得第一名。
Obayomi还跟踪了测试的LLMs不时展示的古怪行为,包括尝试进行无效动作,例如毁灭性的“全部最强连击”。
有时,LLMs甚至拒绝继续游戏。创建AI模型的公司往往会注入反对暴力的观点,通常会拒绝回答任何它认为过于暴力的提示。Claude 2.1尤其是和平主义者,表示它甚至无法容忍虚构的斗争。
尽管与实际人类玩家相比,这些聊天机器人并不是专业水平。Oulianov表示:“我和LLMs打了几场《街头霸王III》比赛。”“到目前为止,我认为LLMs只有对抗70岁或五岁孩子才有机会在《街头霸王III》中获胜。”
为什么要在复古格斗游戏中测试LLMs? #
在一款老式视频游戏中对LLMs进行基准测试的想法很有趣,也许这就是LLM Colosseum存在的所有原因,但可能不仅仅如此。Oulianov表示:“与您在新闻发布中看到的其他基准测试不同,每个人都玩过视频游戏,可以体会为什么对于LLM来说会是个挑战。”“大型AI公司正在操纵基准测试来获得漂亮的分数并炫耀。”
但他指出,“《街头霸王》基准测试有点类似,但更加有趣。”
除此之外,Oulianov表示LLM Colosseum展示了通用智能LLMs的智能程度。“这个项目展示了LLMs变得如此聪明、快速和多功能化的潜力,以至于我们可以将它们用作‘即插即用的推理机器’,几乎可以用于任何地方。目标是创建能够不仅与文本进行推理,还能够对环境做出反应并与其他思维机器进行互动的机器。”
Oulianov还指出,已经有AI模型可以以专业水平玩现代游戏。DeepMind的AlphaStar在2018年和2019年击败了《星际争霸II》职业选手,而OpenAI的OpenAI Five模型证明能够击败世界冠军并与人类队友有效合作。
今天的面向聊天的LLMs还远远不及专门设计的模型(试着与ChatGPT下国际象棋比赛吧),但也许这种情况不会持续太久。Oulianov表示:“通过这类项目,我们展示了这个愿景距离现实并非像科幻小说那样遥远。”