ChatGPT和其他LLMs可以被欺骗提供危险建议
2024 年 5 月 20 日
ChatGPT和其他大型语言模型可以被骗以提供危险建议
一些亚马逊 AWS AI 实验室的 AI 研究人员发现,许多大型语言模型(LLMs)很容易被操纵,它们可能会向用户提供一些有害信息。在研究过程中,研究人员发现像 ChatGPT 这样的 LLM 可能很容易被引诱提供开发人员不允许的信息。它们可能会被欺骗,提供如杀人、制造炸弹等信息。一些用户还使用这些 LLM 来撰写仇恨性文本,然后在互联网上用于骚扰他人。
当 AI 的这些行为投诉达到开发人员那里时,他们尝试添加一些规则,以防止 LLM 回答危险、非法或有害问题。但这项研究发现,这些预防措施和规则并没有帮助使 AI 对所有人都安全。许多用户开始使用音频提示来操纵 LLM。亚马逊的研究人员还尝试使用音频对 LLM 进行提问,他们发现音频并没有对开发人员对 AI 实施的规则产生帮助。
研究人员通过向许多 LLM 提供关于某些原始查询的音频提示来对其进行检查 (opens new window),他们发现这些 LLM 忽略了问题中的所有负面因素,仍然给出了答案。研究人员得出结论,AI 开发人员应该开始向发送给 LLM 的音频添加随机噪音,以便这些 AI 模型停止忽视开发人员的规则和保护方案。
图像:DIW-Aigen