ChatGPT 3.5 评论: 第一并不意味着最好
2024 年 4 月 7 日

ChatGPT 3.5 评论:首先并不意味着最好 #

ChatGPT 3.5 #

优点 #

  • 快速
  • 准确度尚可

缺点 #

  • 在处理更复杂的查询时容易产生幻觉
  • 引用来源的工作欠缺
  • 将交叉参考谷歌的任务留给用户

基本信息

  • 价格:免费
  • 可用性:网络或移动应用
  • 功能:语音识别
  • 图像生成:无

ChatGPT (opens new window) 令人惊叹,但并非没有缺陷。当OpenAI的聊天机器人在2022年底席卷互联网时,它以其独特的回答能力令人眼花 (opens new window)

这种权力,即能够提出开放性问题并以独特答案回应,并不是传统互联网搜索的工作方式。在谷歌中输入问题会返回各种文章和Reddit主题的链接,其中人们提供他们的研究和观点。这一切由您作为最终用户来吸收所有信息并在头脑中综合出结论。

ChatGPT为您完成了这种综合。它确实感觉像一个计算器,但不是用于数字,而是用于在线找到的丰富人类知识。

ChatGPT有不同层级。免费提供的3.5版本使用了1750亿个参数。将参数视为信息片段的数量。模型的参数越多,它就能更好地理解语言并产生细致的句子。虽然这当然是很多,但与ChatGPT 4.0相比相形见绌,据说后者有1万亿参数 (opens new window),但根据输入和输出的数量收费。在这篇评论中,我测试了免费版本。

CNET如何测试AI聊天机器人 #

CNET对审查AI聊天机器人采取实用方法。我们的目标是确定它相对于竞争对手的表现如何以及它最适合哪些用途。为此,我们给AI提供基于实际用例的提示,例如查找和修改食谱、研究旅行或写电子邮件。我们根据一个10分制的评分标准对聊天机器人进行评分,考虑因素包括准确性、回答的创造性、幻觉数量和响应速度。欲了解更多信息,请查看我们有关AI测试的页面 (opens new window)

在使用ChatGPT时,请记住该服务会自动收集您输入到其系统中的信息,因此请谨慎提供个人信息。欲了解更多信息,请查看OpenAI的隐私政策 (opens new window)

购物 #

很难将ChatGPT 3.5作为购物助手推荐。因为它的训练数据仅截至2021年9月 (opens new window),所以它缺乏有关新发布产品的信息。如果ChatGPT 3.5没有任何信息可供参考,很难要求它对最新的电视和汽车进行比较。

Google Gemini和Perplexity都连接到开放互联网,这意味着新产品的信息是存在的。Microsoft Copilot (opens new window)最近更新,集成了来自OpenAI的GPT-4 Turbo,这是一个更先进的AI模型,其训练数据截至2023年4月 (opens new window)。与Gemini和Perplexity一样,它也与开放互联网连接以获取链接和其他更近期的信息。Anthropic的Claude没有连接到开放互联网,但其训练数据延续到2023年8月,因此至少稍微更新一些。

食谱 #

在谷歌上搜索食谱可能很烦人。有时找到一个好的食谱意味着不得不滚动浏览一大段无关的背景故事才能找到食谱本身。

ChatGPT去除了所有这些无关的内容,立即为您提供食谱,同时还允许您添加特定于您的饮食需求的附加变量。这些类型的食谱可能不容易通过谷歌搜索获得。

例如,我询问ChatGPT关于鸡肉tikka腌料食谱,它在几秒钟内生成了一个食谱,无需提及在伦敦Curry Mile第一次访问印度餐厅的背景故事。当我要求制作素食版本时,ChatGPT立即进行了重新混合,用印度干酪paneer代替鸡肉。

与此同时,ChatGPT 3.5的食谱生成缺乏背景信息。尽管ChatGPT确实直截了当,但我在找到的另一份食谱的作者 (opens new window)指出了使用Kashmiri辣椒粉、kasuri甘蓝(干芫荽)、chaat masala、amchur(干芒果粉)和黑盐的重要性。相比之下,ChatGPT的这个食谱版本明显简单。

当我向Gemini提出同样的问题时,它能够包含Kashmiri辣椒粉和amchur等成分。我猜谷歌正在使用某些秘方使其在食谱生成中获得更多文化。在我们的测试中,Gemini表现最佳,排在Microsoft Copilot(创意模式)之后,然后是ChatGPT 3.5,Perplexity和Claude并列。然而,没有一个AI聊天机器人在这项测试中表现出色。

研究和准确性 #

研究可能需要在谷歌搜索、研究论文和公共图书馆之间跳来跳去。生成式AI可以压缩所有这些艰苦的工作,吸收在线发布的丰富知识,并帮助综合信息并给出具体问题的具体答案。

如果生成式AI能够提供引用的来源,那也很方便。然而,ChatGPT 3.5并没有提供太多引用来源。

ChatGPT在您的屏幕上显示的所有信息都需要您去谷歌查找并链接,这对ChatGPT来说是具有挑战性的。通常,当询问ChatGPT一个确切的来源时,它会说作为AI语言模型,它无法直接访问实时数据或浏览互联网。很难轻松地交叉参考来源使ChatGPT的实际世界用途变得值得怀疑。当然,在朋友中间,您可能会引用ChatGPT并且逃脱。但是在学校或工作中,您将不得不在谷歌上匆忙搜索,可能是在徒劳的追逐中寻找可能甚至不存在的来源。

看起来OpenAI已经调整了ChatGPT,使其经常不会在被询问时指向具体的论文或来源。这可能是因为在过去它会编造不存在的论文。据Reddit上一个用户关于10个月前 (opens new window)的帖子说,当询问“给我一些关于家庭教育和神经可塑性关系的论文”时,ChatGPT会指向一篇不存在的论文。现在询问这个问题时,ChatGPT会说作为AI模型,它无法浏览互联网或访问特定论文。然而,在询问有关COVID-19对健康神经影响的问题时,ChatGPT立即指向了四个来源,这些来源都很容易在谷歌上找到。

ChatGPT 3.5有时会产生幻觉并不总是正确。幻觉 (opens new window)是指AI聊天机器人产生不正确的答案但却表现出自信。在我意识到ChatGPT 3.5在编造事实之前,通常需要在谷歌上进行额外的搜索。

这种不一致令人恼火,因为很难确定为什么ChatGPT 3.5不允许引用一些片段。 与其他聊天机器人相比,Claude在综合不同研究内容和链接来源方面表现最佳。创意模式下的Copilot与Claude表现类似,发现复杂主题中的细微差别。Google Gemini通过开放互联网获得的信息比ChatGPT 3.5做得更好,但在某些奇怪的方式下产生了幻觉,编造了不存在的研究名称。而Perplexity虽然做得不错,但引用的来源并不可靠。

总结 #

ChatGPT 3.5在总结文章时显然表现出了局限性。我让它总结我本月早些时候关于ChatGPT在CES 2024科技领域影响的文章 (opens new window)。我将整篇文章粘贴到3.5中,但它生成的摘要缺乏内容。它掌握了背景信息并提到了主要论点,但未能得出结论。它也突然停止了总结,中途结束了一句话。当我询问它为什么停止总结时,ChatGPT 3.5道歉并给出另一个摘要,但在同一位置突然停止。

根据Android Authority (opens new window)的说法,ChatGPT有4096字符限制,无法总结一篇940字的文章。基本上,不要指望它帮助您解释大量的法律文件或服务条款。

相比之下,Gemini有能力根据链接总结文章,但它基于链接的摘要很简单,并且没有什么用。然而,当我将整篇文章粘贴到Gemini中时,它实际上比ChatGPT 3.5更好地总结了我的文章。

Perplexity和Claude未能完全理解我的文章。

旅行 #

查找洛杉矶或东京等主要城市的旅行想法并不困难。互联网充斥着展示世界上人口最多城市的网站、TikToks、推特和其他选项。但哥伦布,俄亥俄呢?这就是AI聊天机器人可以派上用场的地方,通过过滤TripAdvisor、Reddit等帖子,为您制定一个可行的行程。

当我询问ChatGPT 3.5在哥伦布制定三天旅行计划时,它出人意料地做得很好,提供了充实的活动安排。它推荐了一些值得参观的地方和餐厅。与Google Gemini不同的是,它推荐的所有餐厅都是真实存在的。为什么Gemini在这个测试中比ChatGPT更容易产生幻觉并不清楚。但这确实表明OpenAI为确保信息的准确性所做的努力。根据CNET的Bella Czajkowski的说法,她来自哥伦布,唯一的潜在缺点是ChatGPT 3.5建议第一天和第三天都去Short North Arts District。一般来说,人们喜欢不重复地点的旅行计划。

Perplexity做出了模糊的推荐,而Claude表现出色,但有一个错误。Gemini产生了最多的幻觉,编造了不存在的餐厅名称。

在聊天机器人中,Copilot表现最佳,列出了整洁有序的活动清单,所有内容都是以项目符号、图片和表情呈现。

写电子邮件 #

ChatGPT在撰写基本电子邮件方面表现不错。无论是找借口为未按时交作业道歉,还是因错过活动而道歉,ChatGPT返回的结果看起来是可信的,尽管不总是真诚的。当要求它撰写一封向老板请假的电子邮件时,ChatGPT 3.5默认使用过于正式的措辞,但要求它放轻松一点的语言确实会产生更易接受的结果。不过,要使其听起来更真实,仍需要一些调整。即使要求减少一些形式化,它仍可能显得呆板。因此,ChatGPT肯定会提供一个坚实的模板,但需要一些编辑才能使其听起来真实。

相比之下,Gemini撰写电子邮件得当,很容易调整使其听起来更随意和贴近人类。Perplexity在撰写基本电子邮件方面表现良好,但在更复杂的主题上表现不佳,通常显得呆板。Claude表现最佳,构建出具有很大细微差别和可信度的句子。Copilot在撰写基本电子邮件方面毫无问题,但拒绝回答有关更具争议性主题的提示。

ChatGPT 3.5适用于大多数人,但有更好的选择 #

对于大多数基本问题,甚至一些更复杂的问题,ChatGPT 3.5对大多数人来说都能胜任。它产生的答案可用,通常稍作调整,比自己写东西要省事得多。

这并不是说ChatGPT 3.5应该被视为终极解决方案。它是一个工具,当与Google和其他资源结合使用时,可以帮助节省研究和发现时间。不过,要充分利用它,问题必须以能最准确获取AI聊天机器人回应的方式书写。这被称为提示工程,这可能会成为AI聊天机器人渗透到我们使用的技术中所需的技能。

虽然ChatGPT 3.5足够用户友好,以至于大多数人仍然可以从中找到价值,但最好保持警惕,不要将ChatGPT的答案视为绝对。最好还是要做一些事实核查,这意味着Google仍将是您网络浏览器的主页。

这引发了一个问题:为什么要使用ChatGPT 3.5,而不是免费使用使用GPT-4 Turbo的Microsoft Copilot?考虑到GPT-4 Turbo据称使用了超过1万亿个参数,这些数值使AI模型更准确,并且与互联网连接,实际上没有任何理由下载ChatGPT应用。

鉴于其缺点,很难推荐ChatGPT 3.5而不是Copilot、Gemini、Perplexity或Claude,尽管它在2022年11月曾是一项革命性技术。

编辑说明:CNET正在使用AI引擎帮助创建一些故事。像这样的AI产品评论,就像CNET的其他实地评论一样,都是由我们的内部专家团队撰写的。更多信息,请参阅CNET的AI政策和我们如何测试AI。