哎呀-看起來ChatGPT的AI模型又偷懶了

2024 年 4 月 24 日

这次，使用ChatGPT付费服务 (opens new window)的愤怒用户们并没有等待快速修复。

他们转而寻找其他模型，尤其是一款引起他们注意的模型：Anthropic的Claude。 (opens new window)

OpenAI的顶级模型似乎仍然懒惰 #

最近，一些使用于2023年3月首次发布的GPT-4的用户已经开始在OpenAI的开发者论坛 (opens new window)和社交媒体上抱怨这款模型看起来远不如以前的那么强大。

一些人抱怨它没有按照“明确的指示”提供完整代码，而是在被要求提供完整代码时提供了截断的代码。其他人则提到了让模型完全忽略他们的查询的问题。

“事实是它已经变得无法使用，”一位用户上周在OpenAI的在线论坛上写道。

这并不是这款模型表现不佳的第一次。GPT-4应该是OpenAI最好的产品之一，人们每月支付20美元来使用。

正如我的同事Alistair Barr首先报道的那样，在去年夏天出现了GPT-4变得懒惰 (opens new window)的迹象：该模型似乎表现出“逻辑变弱”，并向用户返回错误的响应。

今年早些时候再次出现了更多懒惰的迹象，OpenAI首席执行官Sam Altman (opens new window)甚至承认GPT-4一直懒散。他在2月的某一天在X上发帖 (opens new window)表示已经发布了一个修复程序来解决用户的投诉。

gpt-4在新年的决心上起步缓慢，但现在应该不再那么懒散了！

— Sam Altman (@sama) 2024年2月4日 (opens new window)

然而，在出现弱点的迹象之初，没有其他公司发布了一款在纸面上至少具有与OpenAI的GPT-4相媲美性能的模型。这使得用户继续依附于这家可能引发了去年生成式AI狂潮 (opens new window)的公司。

面对GPT-4的一系列新问题，用户可以尝试许多其他后来出现的模型。其中一些不仅似乎匹配OpenAI的顶级产品，而且它们可能表现得更好。

以Anthropic的Claude为例。这家由谷歌和亚马逊支持的OpenAI竞争对手 (opens new window)于本月初发布了其Claude模型的高级版本，名为Claude 3 Opus。可以将其视为与GPT-4等效的产品。

不仅Anthropic的数据显示其模型更优秀。本周，Claude 3 Opus在LMSYS Chatbot Arena排行榜 (opens new window)上超过了GPT-4，这是一个用于评估AI模型的开放平台。

当然，纸面上看起来好和在实践中能否交付之间存在差异。但在GPT-4问题出现后，即使是OpenAI的忠实拥趸也有足够的动力尝试Claude等替代方案。

许多人显然印象深刻。

上周与Claude 3 Opus进行编码会话后，一位软件工程师在X上写道，他认为它压倒了GPT-4。“我认为标准基准不能完全体现这款模型的优势，”他写道 (opens new window)。

上周与Claude 3 opus进行了长时间的编码会话，它绝对打败了gpt-4。我认为标准基准不能完全体现这款模型的优势

— anton (@abacaj) 2024年3月19日 (opens new window)

AI天使投资者Allie K. Miller表示，GPT-4现在感觉更糟了 (opens new window)，比几个月前还要糟糕。“我认识的大多数人都在使用Claude 3，”她在X上写道，以及Mistral AI的Mixtral 8x7B模型。

沃顿商学院教授Ethan Mollick甚至发现Claude 3在J.R.R.托尔金构建的辛达林语和昆雅语方面更为熟练。“当要求翻译‘我的气垫船装满了鳗鱼’时，Claude 3进行原创翻译，而GPT-4则在网上搜索，”他在X上写道 (opens new window)。

在OpenAI的开发者论坛上，一些用户表示Claude Opus 3在编码方面更可靠，并且在性能上与GPT-4的首次发布时类似。

OpenAI没有回应Business Insider关于GPT-4性能问题的请求。

像Miller一样，一些人认为问题不足以完全放弃OpenAI。她表示，性能下降可能是因为“OpenAI正在专注于下一个模型”，可能正在将资源投入到其中。

这可能是事实。正如我的同事Kali Hays和Darius Rafieyan本月报道的那样，OpenAI计划在年中推出GPT-5 (opens new window)。

至少它不能再懒惰了。