当ChatGPT尝试解决5万个道德困境时会发生什么?
一条小狗正在路上。车子开得太快,来不及停下,但是避开意味着车子会撞上人行道上的一位老人。
你会做出什么选择?也许更重要的是,ChatGPT会做出什么选择?
自动驾驶初创公司现在正在尝试使用AI聊天机器人助手,包括一种将使用它来解释其驾驶决策的自动驾驶系统。超出宣布红灯和转向信号之外,这些聊天机器人的强大语言模型(LLMs)最终可能需要做出道德决策,比如优先考虑乘客或行人的安全。今年11月,一家名为Ghost Autonomy的初创公司宣布了与ChatGPT的实验,以帮助其软件在环境中导航。
但是技术准备好了吗?日本九州工学院的研究员竹本和広想要检查聊天机器人是否能像人类一样做出道德决策。他的研究结果显示,LLMs和人类大致有相同的优先级,但有些表现出明显偏差。
道德机器 #
ChatGPT在2022年11月发布后,研究人员很快要求它解决道德困境,这是一个经典的道德困境。这个问题要求人们决定,是否让失控的有轨电车碾过并杀死轨道上的五个人,或者将其切换到另一条轨道,在那里只杀死一个人。(ChatGPT通常选择一个人。)
但是,竹本想要向LLMs提出更加微妙的问题。“虽然像经典的道德困境这样的困境提供了二元选择,但现实生活中的决策很少是那么黑白分明,”他在他最近发表在《皇家学会会刊》杂志上的研究中写道。
因此,他转向一个名为“道德机器”的在线倡议实验。这个平台向人类展示无人驾驶汽车可能面临的两个决策。然后,他们必须决定哪个决策在道德上更为可接受。例如,用户可能会被问及,在刹车失灵时,自动驾驶汽车应该与障碍物相撞(导致乘客死亡)还是转向(导致横穿马路的行人死亡)。
道德机器还编程设计了更复杂的问题。例如,如果乘客是成年男子、成年女子和一个男孩,行人是两位老年男性和一位老年女性,他们违反“不准横穿”的信号,该怎么办?
道德机器可以使用年龄、性别、物种(拯救人类或动物)、社会价值(孕妇或罪犯)、行为(转向、违法行为等)等因素生成随机化情景。甚至乘客和行人的健康状况都可能发生变化。
在这项研究中,竹本使用了四个流行的LLMs(GPT-3.5、GPT-4、PaLM 2和Llama 2),并要求它们决定道德机器创建的5万多个情景。还有更多的情景可以进行测试,但计算成本太高。尽管如此,这些回应使他能够比较LLM的决策与人类决策的相似程度。