最近,彭博社发布了一篇名为“OpenAI的GPT是招聘人员的梦幻工具。测试表明存在种族偏见 (opens new window)”的文章。在这篇文章中,彭博团队进行了一项巧妙的测试,让ChatGPT审查几乎相同的简历,只是将名字更改为通常的黑人、白人、亚裔和西班牙裔名字。他们的分析揭示了种族偏见。
彭博在GitHub上发布了他们的数据,因此我们能够检查他们的工作。当我们重新运行这些数字时,我们发现他们没有进行统计显著性测试,实际上在彭博的数据集中没有种族偏见的证据。然而,当我们进行自己的测试时,我们发现ChatGPT确实很难判断简历。它之所以糟糕,并非因为它是种族主义者。它糟糕是因为它容易出现一种不同类型的偏见,与人类招聘人员相同——过于强调候选人的背景:他们是否在一家顶尖公司工作过和/或是否在一所顶尖学校就读。背景可能有一定的预测性(尤其是人们在哪里工作过),但ChatGPT明显高估了其重要性,并由此对来自非传统背景的候选人造成了不公平。
彭博研究 #
以下是彭博团队所做的事情(摘自他们的文章):
我们使用人口特征不同的名字作为种族和性别的代理,这是用于审核算法的常见做法…总共我们制作了800个人口特征不同的名字:100个名字分别用于黑人、白人、西班牙裔或亚裔男性和女性…
为了测试基于姓名的歧视,彭博提示OpenAI的GPT-3.5和GPT-4为四个不同职位的真实工作描述排名简历:人力资源专员、软件工程师、零售经理和金融分析师。
对于每个职位,我们使用GPT-4生成了八个几乎相同的简历。这些简历经过编辑,具有相同的教育背景、工作经验年限和最后的工作职称。我们删除了教育年限,以及任何目标或个人陈述。
然后,我们随机分配了每个简历的一个不同的名字给八个人口特征组(黑人、白人、西班牙裔、亚裔,以及男性和女性)。
接下来,我们打乱了简历的顺序,以考虑顺序效应,并要求GPT对候选人进行排名。
作者报告称,ChatGPT在所有组中都显示了种族偏见,但对于由GPT-4排名的零售经理除外。
更具体地说:
[我们]发现,用于黑人的独特名称标记的简历最不可能被排名为金融分析师和软件工程师职位的前几名候选人。对于软件工程师职位,GPT只有11%的时间将具有黑人女性独特名称的简历排名靠前 — 比表现最好的组少36%。
分析还发现,GPT的性别和种族偏好取决于候选人被评估的特定工作。GPT并不一致地偏袒任何一组,但会根据情境选择赢家和输家。例如,GPT很少将与男性相关的名字排名为人力资源和零售职位的前几名,这两个职业在历史上由女性主导。与每组具有与男性独特名称的简历相比,GPT几乎两倍可能会将与西班牙裔女性独特名称相关的名字排名为人力资源职位的前几名。当使用较少使用的GPT-4进行测试时,彭博还发现了明显的偏好 — OpenAI推广为不那么偏见的新模型。
该团队还值得赞赏地在GitHub上发布了他们的结果 (opens new window),因此我们尝试重现他们的结果。我们发现与彭博报道的结果截然不同。
在开始我们的发现之前,这是我们所做的。
在他们的结果中,彭博发布了GPT-3.5和GPT-4选择每个人口特征作为前几名候选人的比例。例如,ChatGPT被要求为人力资源专员职位排名8份简历1000次。如果ChatGPT存在性别或种族偏见,每组通常应该作为首选出现125次(或在1000个数据点中约占12.5%的时间)。
我们将如何处理这个问题?统计学迷可能已经注意到彭博文章中的一个明显遗漏:统计显著性测试和p值。为什么这很重要?即使进行了1000次试验,一个完全没有偏见的简历排序器也不会给出完全相等的比例,确切地选择每组125次。相反,纯粹的随机变异可能意味着一个组被选择了112次,另一个组被选择了128次,而实际上并没有任何偏见。因此,您需要运行一些测试,以查看您得到的结果是由于偶然还是因为确实存在某种模式。一旦运行测试,p值告诉您一定选择率的概率与偶然一致,而在这种情况下,与随机(因此无偏见)的简历排序一致。
我们为每个组计算了p值。我们发现的结果与彭博报道的截然不同。
彭博研究的错误之处 #
考虑到我们业务的性质,我们首先查看了软件工程师。以下是彭博将软件工程师简历通过GPT-4运行的所有8组的结果(标题为“obsfreq”),以及我们计算的p值。
A_M = 亚洲男性,A_W = 亚洲女性,等等。12.5%是每个组的候选人成为首选的预期比例(“expperc”)。在1000名候选人中,每个组都是125人(“expfreq”)。最后,“obsfreq”是每个组的首选候选人的观察频率,取自彭博的结果。
惯例上,您希望p值小于0.05才能宣布某事在统计上显著 — 在这种情况下,这意味着不到5%的机会是由于偶然产生的结果。这个p值为0.2442远高于这个值。实际上,当使用GPT-3.5时,我们也无法重现软件工程师的统计显著性。根据彭博的数据,ChatGPT在评判软件工程师的简历时似乎没有种族偏见。 结果似乎更多是噪音而非信号。
然后,我们使用与上述相同的方法重新计算了八种人种/性别组合的数字。在下表中,您可以看到结果。TRUE表示存在种族偏见。FALSE显然表示没有。我们还分享了我们计算的p值。总之,GPT-3.5在人力资源专员和金融分析师中显示出种族偏见,但在软件工程师或零售经理中却没有。最重要的是,GPT-4在任何种族/性别组合中都没有显示出种族偏见。
职业
GPT 3.5(是否具有统计显著性? ‖ p值)
GPT 4(是否具有统计显著性? ‖ p值)
金融分析师
TRUE ‖ 0.0000
FALSE ‖ 0.2034
软件工程师
FALSE ‖ 0.4736
FALSE ‖ 0.1658
人力资源专员
TRUE ‖ 0.0000
FALSE(但接近) ‖ 0.0617
零售经理
FALSE ‖ 0.2229
FALSE ‖ 0.6654
这很好,是吗?嗯,不要那么急。 在我们认为ChatGPT有资格评判简历之前,我们想要进行一项自己的测试,专门针对软件工程师(因为,再次强调,这是我们的专业领域)。这项测试的结果并不令人鼓舞。
我们如何测试ChatGPT #
interviewing.io是一个匿名模拟面试平台,我们的用户可以与高级/主管级FAANG工程师配对进行面试练习。我们还将表现优异的人员与顶级公司联系起来,不管他们在纸面上的表现如何。在我们的生命周期中,我们举办了超过100,000次技术面试,分为上述模拟面试和真实面试。换句话说,我们拥有一堆关于软件工程师的有用的历史表现数据。所以我们决定将这些数据用作一个理性检验。
设置 #
我们要求ChatGPT(GPT4,具体是_gpt-4-0125-preview_)对几千个在interviewing.io上练习过的人的LinkedIn个人资料进行评分。对于每个个人资料,我们要求ChatGPT给出一个介于1到10之间的编程评分,其中10分表示顶级10%的程序员。为了提高响应的质量,我们要求它先给出其推理,然后再给出编程评分。
我们在这里要非常明确地指出,我们并没有向ChatGPT分享任何性能数据,也没有向ChatGPT分享关于我们用户的任何信息,我们只是要求它对公开可用的LinkedIn个人资料做出价值判断。然后我们将这些价值判断与我们自己端上的数据进行比较。
ChatGPT的表现 #
ChatGPT的言论与程序员在真实技术面试中的表现之间存在相关性。这个工具的表现比随机猜测要好一些……但差别并不大。为了让这些结果更具说服力,总体上,47%的程序员通过了面试。ChatGPT的评分可以将他们分为两组:一个有45%的成功机会,另一个有50%的机会。因此,它可以为您提供更多关于某人是否会成功的信息,但并不多。
下面是查看ChatGPT表现的另外两种更细致的方法。第一种是修改后的校准图,第二种是ROC曲线。
校准图 #
在这个图中,我们将ChatGPT的每个预测概率(例如0.4112)分配给10个间隔均匀的十分位数之一。第1十分位数是具有最低概率的10%个人资料。第10十分位数是具有最高概率的10%人员。
然后,对于每个十分位数,我们绘制那些候选人在面试中表现良好的实际概率(即多少人实际上通过了interviewing.io的面试)。正如您所见,这个图有点混乱 — 对于ChatGPT提出的所有十分位数,这些候选人实际上通过了一半的时间。理想的图(“一个优秀的模型”)将有一个更陡的斜率,底部十分位数中通过的人会比顶部十分位数中通过的人少得多。
我们要求GPT-4对几千个在interviewing.io上练习过的人的LinkedIn个人资料进行评判。然后我们将其预测结果分为十分位数 — 10%的桶,并与这些用户的实际表现进行比较。一个优秀的模型会在第一十分位数表现糟糕,然后会逐渐稳步提高。
ROC曲线 #
评判ChatGPT在这项任务中的表现的另一种方法是查看ROC曲线。这条曲线将模型的真正例率绘制为假正例率。这是评判ML模型准确性的一种标准方法,因为它让查看者看到它在不同可接受的假正例率下的表现 — 对于癌症诊断,您可能会接受非常高的假阳性率,例如。对于工程招聘,您可能不会接受!
与ROC曲线相关的是AUC,即曲线下的面积。一个完美的模型将在每个可能的假阳性率下有100%的真正例率,因此曲线下的面积将是1。一个基本上等同于猜测的模型将具有真正例率等于假正例率的AUC = 0.5。考虑到这一点,这里是ChatGPT评判简历的ROC曲线和AUC — 总体AUC约为0.55,它只比随机猜测稍微好一点。
因此,无论如何衡量,虽然ChatGPT在评判工程师的个人资料时似乎没有种族偏见,但它在这项任务中也不是特别擅长。
ChatGPT对非传统候选人存在偏见 #
为什么ChatGPT在这项任务中表现不佳?也许这是因为简历中可能没有太多信号。但还有另一个可能的解释。
多年前,我进行了一项实验,对一堆简历进行了匿名化处理,并让招聘人员尝试猜出哪些候选人是好的 (opens new window)。他们在这项任务上表现糟糕,几乎和随机猜测一样。毫不奇怪,他们倾向于过度关注那些简历上有顶级公司或知名学校的候选人。在我的候选人数据集中,我碰巧有很多非传统的优秀候选人 — 强大的工程师,但没有上过排名很高的学校或在顶级公司工作。这让招聘人员摸不着头脑。
看起来ChatGPT也发生了同样的事情,至少部分如此。我们回过头来看ChatGPT如何对待在其LinkedIn个人资料上有顶级学校的候选人与没有这些的候选人。结果表明,ChatGPT一贯高估了简历上有顶级学校和顶级公司的工程师的通过率。我们还发现ChatGPT一贯低估了没有这些精英“资格证书”的候选人的表现。这两种差异在统计上是显著的。在下面的图表中,您可以看到ChatGPT在每种情况下高估和低估的程度。
对于ChatGPT,我们没有发现在评判有关顶级公司时出现相同的偏见,这很有趣,因为根据我们的经验,在顶级公司工作具有一定的预测信号,而上学的地方并没有太多预测性的信息。
ChatGPT可能并非具有种族偏见,但其偏见仍然使其在招聘方面表现糟糕 #
在招聘中,我们经常谈论无意识偏见。虽然这已经不再时尚,但公司在历史上花费了数万美元进行无意识偏见培训,旨在阻止招聘人员基于候选人的性别和种族做出决定。同时,招聘人员被训练表现出另一种,有意识的偏见:积极选择来自精英学校和顶级公司的候选人。
同样的针对没有上过顶级学校的候选人的有意识偏见似乎已经在ChatGPT中被编码。
这种决定是合理的 — 在没有更好的信号的情况下,您必须使用代理,而这些代理似乎和其他任何一样好。不幸的是,从这些结果(以及我们过去进行的其他研究的结果,请参见脚注中的完整列表5)可以看出,它并不特别准确……绝对不够准确以编码到我们的AI工具中。
在一个[招聘人员工作不稳定的市场](https://interviewing.io/blog/when-is-hirin 在2024年的未来,招聘人员数量减少,但申请人数比以往更多 (opens new window),承受着比以前更多的压力,被迫做出上述快速决定,公司正在将人工智能视为一种诱人且高效的成本削减措施[6],我们正处于相当危险的领域。
几个月前,我们发表了一篇长文,标题为“为什么人工智能不能进行招聘 (opens new window)”。文章的两个主要观点是:1)从简历中提取信号很困难,因为从一开始就没有太多内容;2)即使你可以,你也需要专有的性能数据来训练人工智能——没有这些数据,你只是在进行华而不实的关键字匹配。
不幸的是,大多数声称帮助招聘人员做出更好决策的人工智能工具和系统缺乏这种数据,要么是建立在GPT(或其类似物)之上而没有进行精细调整,要么是假冒人工智能的华而不实的关键字匹配器,或两者兼而有之。
尽管人类招聘人员并不特别擅长评估简历,尽管我们作为一个社会尚未找到有效候选人筛选方法的好解决方案,但很明显,现成的人工智能解决方案并不是我们正在寻找的灵丹妙药——它们与人类一样有缺陷。它们只是以更快的速度和规模做错事。
脚注:
我们使用了卡方拟合度检验,这是一种用于离散数据(如简历上的是或否投票)的统计显著性检验。 [↩]
另一种看待这个问题的方式是用一个完全无偏的简历分类器来模拟相同的过程,即一个从8份简历中随机挑选的机器人。如果你运行1,000个虚拟版本的彭博实验,特定组别在某一轮中成为首选的概率通常只有11%。这是直方图中的分布。这是另一种说法,即p值的意思是:偏差符合随机机会。 [↩]
一个警告是,如果样本量增加到比如10,000而不是1,000,这些测试可能显示出偏见的证据。也就是说,样本量更大时,p值可能表明ChatGPT确实比随机机会更有偏见。问题是,我们无法从他们的分析中得知这一点,而且肯定排除了极端偏见。事实上,最近的大规模简历审计研究发现,具有明显黑人姓名的简历比起人类招聘人员,少了2.1个百分点的回电话几率。根据彭博的数据,ChatGPT对来自黑人候选人的简历的偏见比人类招聘人员要小——根据我们的计算,在彭博的数据集中,有1.5个百分点的下降。 [↩]
模拟面试表现,尤其是整体表现,对真实面试表现非常有预测性。我们有来自模拟和真实面试的数据,跨越约6年的时间,我们平台上在模拟面试中表现良好的候选人一直是通过真实面试的可能性的3倍。 [↩]
这里是我们过去的研究列表,显示顶级学校并不特别具有预测性,而顶级公司仅具有一定的预测性: [↩]
目前有35-55%的雇主(根据来源不同,如Zippia、福布斯、南加州大学)正在使用人工智能筛选求职者。在招聘中采用人工智能似乎在大型企业和招聘公司中特别普遍。鉴于大型企业接受的候选人数量远远高于其他公司,通过人工智能筛选的候选人比例可能远高于35-55%的数字。 [↩]