人类论的克劳德AI在聊天机器人竞技场排行榜上击败了ChatGPT
2024 年 4 月 26 日

Anthropic's Claude AI在Chatbot Arena排行榜上击败了ChatGPT #

虽然来自Open AI的ChatGPT在所有生成式AI工具中享有最大的主流知名度,但其首位地位已被长期竞争者Anthropic的顶级产品Claude 3 Opus在一家受AI研究人员广泛使用的众包排行榜上夺取。

Claude在Chatbot Arena排名的上升标志着自去年5月首次出现在排行榜上以来,OpenAI的GPT-4(为ChatGPT Plus提供动力)首次被推翻。

Chatbot Arena由Large Model Systems Organization(LMSYS ORG)运营,这是一个致力于支持加州大学伯克利分校、加州大学圣迭戈分校和卡内基梅隆大学的学生和教职员工合作的开放模型的研究机构。该平台向用户提供两个未标记的语言模型,并要求他们根据自己认为合适的任何标准对其进行评分。

在聚合成千上万的主观比较之后,Chatbot Arena计算出排行榜上的“最佳”模型,并随着时间的推移进行更新。

这种基于参与者不同个人口味的主观方法是Chatbot Arena与其他AI基准的不同之处。模型训练者无法通过调整模型以击败算法来“作弊”,就像他们可能会在定量基准中那样。通过衡量人们简单偏爱的东西,Chatbot Arena对AI研究人员是一个有价值的定性资源。

该平台收集用户的反馈并将其通过Bradley-Terry统计模型 (opens new window)运行,以预测特定模型在直接竞争中胜出的可能性。这种方法 (opens new window)使得能够生成全面的统计数据,包括Elo评级估计的置信区间范围——这是用于衡量国际象棋选手技能的相同技术。

Claude 3 Opus登顶并不是排行榜上唯一的重大进展。Anthropic开发的免费中等大小模型Claude 3 Sonnet和较小、更快的模型Claude 3 Haiku分别排名第4和第6。

排行榜包括GPT-4的不同版本,如GPT-4-0314(来自2023年3月的“原始”版本)、GPT-4-0613、GPT-4-1106-preview和GPT-4-0125-preview(来自2024年1月的最新GPT-4 Turbo模型可通过API使用)。根据排名,Sonnet和Haiku都优于原始的GPT-4,而Sonnet还超过了OpenAI于2023年6月推出的调整版本。

这也意味着,遗憾的是,目前排行榜上只有一种开源LLM进入前10名:Qwen,而Starling 7b和Mixtral 8x7B是前20名中唯一的其他开放模型之选。

Claude相对于GPT-4的优势之一是其标记上下文容量和检索能力。Claude 3 Opus的公共版本处理超过200K标记,并且该组织声称拥有一个能够处理100万标记几乎具有完美检索率的限制版本。这意味着Claude能够更有效地理解更长的提示并保留信息,而GPT-4 Turbo (opens new window)处理128K标记并且在长提示下丢失其检索能力。

Google的Gemini Advanced (opens new window)在AI助手领域也越来越受欢迎。该公司提供一个计划,包括2TB的存储空间和AI功能,价格与Chat GPT Plus订阅相同(每月20美元)。

免费的Gemini Pro目前排名第4,在GPT-4 Turbo和Claude 3 Sonnet之间。最顶级的Gemini Ultra模型尚未进行测试,也没有出现在排行榜中。

编辑:Ryan Ozawa (opens new window)

保持对加密货币新闻的关注,每天在您的收件箱中获取更新。 #