Perplexity AI 评测:想象一下 ChatGPT 能够连接互联网 #
Perplexity AI #
优点 #
- 在线连接
- 从 Reddit 获取信息
缺点 #
- 可能产生幻觉并提供错误信息
- 对于复杂查询的信息综合能力不足
基本信息:
- 价格:免费
- 可用性:网络或移动应用
- 特点:语音识别,Reddit 数据集
- 图像生成:仅限付费版本
想象一下如果 ChatGPT (opens new window) 能够从 Reddit (opens new window) 获取答案。这是描述 Perplexity AI 的最佳方式,它是一种对话生成人工智能,由 Aravind Srinivas (opens new window) 创立,他曾是 OpenAI 的前研究科学家,也是 ChatGPT 的创造者。Perplexity 看起来和感觉很像 ChatGPT 3.5,这是这款流行 AI 聊天机器人的免费版本,只是它连接到开放的互联网。这意味着它不仅可以从网站如 Reddit 和 X(之前被称为 Twitter)获取信息,还可以链接到它们。另一方面,ChatGPT 3.5 仅限于截止到 2021 年 9 月收集的数据,无法链接到来源。目前尚不清楚 ChatGPT 是否使用 Reddit 或 X 作为其训练数据的一部分。
在购物建议或一般研究方面,能够看到信息来源是无价的。在 Perplexity 内点击 Reddit 链接,可以看到用户之间的完整对话线程,有助于获得更多上下文。类似于 Google Gemini,另一款免费提供的生成式 AI 引擎,Perplexity 感觉像是 AI 聊天机器人和搜索引擎的结合。在某些情况下,Perplexity 在研究和综合信息方面表现不佳,难以与 Anthropic 的 Claude 相提并论。
CNET 如何测试 AI 聊天机器人 #
CNET 对评估 AI 聊天机器人采取实用方法。我们的目标是确定一个 AI 相对于竞争对手的表现如何以及它最擅长的用途是什么。为此,我们根据现实世界的用例给 AI 提供提示,例如查找和修改食谱,研究旅行或撰写电子邮件。我们根据一个考虑到准确性、响应的创造力、出现幻觉的次数和响应速度等因素的 10 分制评分。查看更多信息,请参阅 我们如何测试 AI (opens new window)。
Perplexity 默认会收集数据以改进 AI,但您可以通过在 Perplexity 设置中关闭 AI 数据使用 开关来选择退出。有关更多信息,请参阅 Perplexity 的 隐私政策 (opens new window) 和 数据收集常见问题 (opens new window)。
购物 #
一般来说,在决定购买两种非常相似产品之间,获取一些观点有助于明确主要区别,从而更容易做出最终选择。这就是人们求助于评论员或论坛帖子来综合各种意见的原因。
AI 聊天机器人应该擅长总结所有这些讨论,以便您不必阅读大段的文字。
虽然 Perplexity 在询问要在 LG OLED C3 和 G3 之间购买哪个电视时查看了像 Rtings、Tom's Guide 和 WhatHiFi 这样的来源,但它在解析更细节的内容以提供更好的上下文方面做得并不出色。
例如,当我询问 Perplexity 选择 LG 顶级 OLED 时,它建议如果您的预算允许的话购买更昂贵的 G3。这是一个完全公平的结论,但它未能提出令人信服的论点。它认为支付近一千美元更多购买 G3 是合理的,因为它比较旧的 OLED 电视亮度提高了 70%。但 Perplexity 并未指明它正在将 G3 与哪些旧的 OLED 电视进行比较。虽然 G3 确实具有更亮的面板,CNET 的电视专家 David Katzmaier 在他的 LG OLED C3 评测 (opens new window) 中指出,G3 并没有远远超越它。这就是为什么 C3 和 G3 都在我们的 2024 年最佳电视 (opens new window) 列表上。一个更具微妙的看法可能是,总体而言,G3 在画质和亮度方面都更好,但对于大多数人来说,尤其是第一次接触 OLED 电视的人来说,很难为其支付将近 1000 美元的价格。
在 LG OLED 的 subreddit 上,许多电视购物者询问购买 65 英寸 LG OLED G3 还是花同等金额购买 77 英寸 LG OLED C3 更好。普遍的共识是越大越好。当问及同样的问题时,Perplexity 也从 Reddit 获取灵感,并得出相同的结论。Katzmaier 认为这总是更好的选择。
奇怪的是,当询问比较 2019 年 LG C9 OLED 和 2023 年 LG OLED C3(这很令人困惑,我知道)时,Perplexity 开始产生幻觉。起初,它只比较了 C3 和 G3。当要求具体比较 C3 和 C9 时,它开始提供错误信息,例如 C3 包含了用于提高亮度的 MLA 技术。实际上,目前 MLA 只能在高端的 G3 和 M3 型号中使用。
总的来说,Copilot(创意模式)和 Claude 表现最佳,提供了精确的信息和可靠的购买建议。Perplexity 的表现与 Google Gemini 相当。由于 ChatGPT 3.5 的训练数据仅包含到 2021 年 9 月,因此无法用于此特定的购物比较。
食谱 #
人工智能很可能会颠覆在线食谱世界。许多在线食谱都包含了长篇关于吃周日晚餐的论述,这通常是为了取悦谷歌的搜索引擎优化(SEO)。这就是为什么许多在线文章中都有带有问号的小标题,重申常见的搜索查询。
所有这些额外的文字是为了让谷歌“爬行”这些食谱网站,并找出哪些应该排在前列。但对于读者来说,这可能意味着大量不必要的文字。
人工智能无需为谷歌编写。它旨在对几乎任何问题生成简明的答案。此外,Perplexity AI 实际上无法回忆起吃过奶奶的苹果派。
当询问 Perplexity 如何制作鸡肉提卡马萨拉的腌料时,总体上它创造了一份一般的食谱。它包括姜蒜酱、孜然粉和姜黄粉等配料,但缺少了辣椒粉。当再次询问时,Perplexity 生成了一份包括红辣椒粉和红辣椒酱的食谱。这与 ChatGPT 3.5 产生的结果相似。只有 Google Gemini 提供了包括更多像卡苏里梅西(干芫荽)、查特玛萨拉和阿姆楚尔(干芒果粉)这样的异国情调配料的食谱。
研究和准确性 #
Perplexity AI 相对于 ChatGPT 3.5 的最大优势在于其能够链接到实际信息来源。ChatGPT 可能只建议在线搜索内容,而 Perplexity 不需要那种来回摆弄。
当询问有关家庭教育如何影响神经可塑性的研究时,Perplexity 在链接到一些可能有用的论文方面做得相当不错。虽然所引用的研究没有直接指出家庭教育如何影响年轻人的思维,但它确实查看了关于家庭基础的运动学习和其他一般信息的论文。
奇怪的是,Perplexity 引用了一个看起来是家庭教育倡导团体的非学术来源。 在这个网站上,显然,这里的信息并不是客观分析,而更偏向于从宗教角度讨论为什么在家教孩子可能更好。
与Claude和Copilot不同,Perplexity未能综合来自各种来源的信息。指出信息片段就像搜索引擎一样是一回事,但开始连接两组研究就是另一回事。Perplexity还声称引用的研究明确证明了家庭教育对儿童大脑发育的好处,事实并非如此。至少Perplexity没有像ChatGPT 3.5或Google Gemini那样产生幻觉。
在这里,Claude稍微领先,紧随其后是Copilot。
总结 #
不要指望Perplexity总结文章。虽然这个AI引擎可以得出文章的基本要点,但却无法抓住中心要义或论点。
我让Perplexity总结了我今年早些时候在CES期间写的一篇特稿。就像Google Gemini一样,只需粘贴文章链接,Perplexity就会生成一个简明扼要的总结。它比Gemini生成了更多的细节,但也不多。
在Gemini中,当复制粘贴整篇文章的文本时,它在总结方面做得更好。当尝试在Perplexity中进行相同的测试时,奇怪的是,它生成的响应与我输入网站链接时的响应完全相同。不过,至少它没有像ChatGPT 3.5那样有字符限制。这使其更实用,但没有提到关键观点或从我交谈的专家那里摘录引语,Perplexity并没有足够为用户提供全面理解。
Claude和Copilot表现最佳,生成了一个合适的摘要,但仍然略过了文章的主要要点。
旅行 #
世界各大城市都有专门展示最佳景点和美食的指南书、影响者和网站。中西部的小城市并没有同样的特权。例如,转向AI寻求哥伦布,俄亥俄州的旅行建议可能会很有用。与Google Gemini和ChatGPT 3.5相比,Perplexity在这方面表现不错。
对于去哥伦布的三天旅行行程,Perplexity给出了不错的建议,例如参观弗兰克林公园植物园或哥伦布动物园和水族馆。奇怪的是,Google Gemini和ChatGPT 3.5都没有推荐哥伦布动物园,这可是美国最大的动物园之一。
Perplexity在食物建议方面出现了问题。除了第一天,它没有建议尝试任何特定地方,而是模糊地说要在“当地的民族餐馆之一”用餐。与之相比,ChatGPT 3.5提供了强烈的餐厅建议。至少Perplexity没有像Gemini那样虚构不存在的餐厅。
Copilot表现最佳,紧随其后是Claude。Copilot清晰地列出了一份列表,附有图片和表情符号,便于理解。
写邮件 #
给老板或同事写例行邮件是使用AI的好方法。在起草请假邮件时,Perplexity的表现要好于ChatGPT,与Google Gemini差不多。Perplexity的正式和非正式邮件显得真诚且非常像人类。
与之相比,Gemini的正式邮件并不完全可用,因为它要求您插入公司的浮动假期政策。我怀疑大多数人在请假时并不会复制粘贴员工手册的文本块。
当涉及撰写更复杂的邮件,涉及道德、资本主义和同意角色的敏感话题时,Perplexity做了一个不错的概述,但无法编写出像人类撰写的邮件那样的内容。语言呆板,缺乏创造性的语言运用,无法帮助读者理解所传达的形象或论点。它还倾向于陈词滥调的语言,充其量只能通过高中英语课程。
虽然Perplexity使用了一些多音节词,但最终显得空洞。不要让Perplexity为您的电影剧本写推荐。它肯定会在电影制片人面前失败。
在这项任务中,Claude表现最佳,能够以一种人类的方式处理复杂性或其他道德问题。ChatGPT和Gemini表现不错,但语言有点太机械,可能不会通过编辑审核。
奇怪的是,Copilot拒绝回答有关敏感话题的问题。
Perplexity在ChatGPT失败的地方成功 #
我对Perplexity AI表示赞赏。它提供了一种引人入胜的生成式AI体验,可以与谷歌和微软等科技巨头一较高下。Perplexity利用开放网络并能够从Reddit等社交媒体网站获取信息和话题,这是ChatGPT所缺少的(OpenAI尚未确认ChatGPT使用的数据来源,但我怀疑它并不依赖Reddit或其他社交媒体)。
Perplexity是否应该成为您的默认免费生成式AI平台?也许吧。我肯定会推荐它,而不是Google Gemini和ChatGPT 3.5。但是,我认为它可能难以与Claude竞争。虽然Perplexity和Claude都使用了GPT 3.5,但Claude更适合提供更细致的、具有更多信息综合的答案。尽管如此,Perplexity团队的努力值得赞扬。
尽管Perplexity很不错,但我很难推荐它超过Claude或Copilot。后两者更适合提供更丰富的、具有更多信息综合的答案。
编辑注:CNET正在使用AI引擎帮助创建一些故事。像这样对AI产品的评论,就像 CNET的其他实地评论_一样,都是由我们的内部专家团队撰写的。有关更多信息,请参阅_ CNET的AI政策_ 和_我们如何测试AI。_