ChatGPT和其他LLMs可以被欺骗提供危险建议

2024 年 5 月 20 日

ChatGPT和其他大型语言模型可以被骗以提供危险建议

一些亚马逊 AWS AI 实验室的 AI 研究人员发现，许多大型语言模型（LLMs）很容易被操纵，它们可能会向用户提供一些有害信息。在研究过程中，研究人员发现像 ChatGPT 这样的 LLM 可能很容易被引诱提供开发人员不允许的信息。它们可能会被欺骗，提供如杀人、制造炸弹等信息。一些用户还使用这些 LLM 来撰写仇恨性文本，然后在互联网上用于骚扰他人。

当 AI 的这些行为投诉达到开发人员那里时，他们尝试添加一些规则，以防止 LLM 回答危险、非法或有害问题。但这项研究发现，这些预防措施和规则并没有帮助使 AI 对所有人都安全。许多用户开始使用音频提示来操纵 LLM。亚马逊的研究人员还尝试使用音频对 LLM 进行提问，他们发现音频并没有对开发人员对 AI 实施的规则产生帮助。

研究人员通过向许多 LLM 提供关于某些原始查询的音频提示来对其进行检查 (opens new window)，他们发现这些 LLM 忽略了问题中的所有负面因素，仍然给出了答案。研究人员得出结论，AI 开发人员应该开始向发送给 LLM 的音频添加随机噪音，以便这些 AI 模型停止忽视开发人员的规则和保护方案。

(opens new window)

图像：DIW-Aigen

阅读下一篇：2024 年全球自由职业者顶级付款应用，一份必读清单 (opens new window)