研究人员表示,根据人们的说话方式,ChatGPT可能有种族歧视倾向
2024 年 5 月 15 日

一项新研究发现,OpenAI、Meta 和 Google 的大型语言模型,包括多个版本的 ChatGPT,在分析人们言谈方式时可能存在潜在的对非洲裔美国人的种族歧视。

根据这项早期三月 (opens new window)发布的论文,研究人员研究了大型语言模型(LLMs)如何执行任务,比如将人们与特定工作配对,基于分析的文本是否是African American English (opens new window)还是标准美式英语 — 而不透露种族。他们发现,LLMs更不可能将说非洲裔美国英语的人与各种工作联系起来,而更可能将他们与不需要大学学位的工作联系起来,比如厨师、士兵或警卫。

研究人员还进行了假设性实验,询问 AI 模型是否会定罪或无罪一个被控犯有未指明罪行的人。他们发现,所有 AI 模型对说非洲裔美国英语的人的定罪率比标准美式英语的人更高。

也许这篇论文最令人震惊的发现来自于与犯罪相关的第二个实验。研究人员询问这些模型是否会判处说非洲裔美国英语的人犯有一级谋杀罪的人死刑还是终身监禁。在实验中,这些模型只提供了个人的方言信息。

他们发现,LLMs更倾向于将说非洲裔美国英语的人判处死刑,而不是说标准美式英语的人。

在他们的研究中,研究人员涵盖了 OpenAI 的 ChatGPT 模型,包括 GPT-2、GPT-3.5 和 GPT-4,以及 Meta 的 RoBERTa 和 Google 的 T5 模型,并分析了每个模型的一个或多个版本。总共,他们检查了 12 个模型。Gizmodo 在周四就这项研究联系了 OpenAI、Meta 和 Google,但没有立即收到回复。

有趣的是,研究人员发现这些 LLMs 并非公开的种族主义。当被询问时,他们会将非洲裔美国人与极其正面的属性联系在一起,比如"聪明"。然而,他们会根据是否说非洲裔美国英语,将非洲裔美国人与“懒惰”等负面属性秘密联系在一起。正如研究人员解释的那样,"这些语言模型已经学会隐藏他们的种族主义。”

他们还发现,受过人类反馈训练的 LLMs 中潜在偏见更高。具体来说,他们指出明显和隐蔽种族歧视之间的差异在 OpenAI 的 GPT-3.5 和 GPT-4 模型中最为显著。

“[T]这一发现再次表明,语言模型中明显和隐蔽刻板印象之间存在根本差异 — 缓解明显刻板印象并不自动转化为缓解隐蔽刻板印象,”作者写道。

总的来说,作者得出结论,关于明显种族偏见的这一矛盾发现反映了美国人对种族问题态度的不一致。他们指出,在吉姆·克劳时代,公开传播关于非洲裔美国人的种族刻板印象是被接受的。民权运动后,这种情况发生了改变,这使得表达这种观点“不合法”,使得种族主义更加隐秘和微妙。

作者表示,他们的研究结果表明,非洲裔美国人在未来在 LLMs 中遭受方言偏见的可能性更大。

“虽然我们的任务细节是构造的,但研究结果揭示了商业和司法领域对于涉及语言模型的 AI 系统当前正在被开发或部署的真实和紧急关切,”作者说。

本文的一个版本最初出现在 Gizmodo 上 (opens new window)