如何哄骗ChatGPT做出更好的预测:让它讲述未来的故事
2024 年 4 月 14 日

如何诱导ChatGPT进行更好的预测:让它讲述未来的故事

贝勒大学的研究人员发现,当要求AI模型将预测构建为关于过去的故事时,它们在预测未来方面变得更好。

在题为“ChatGPT Can Predict the Future When It Tells Stories Set in the Future About the Past”的一篇论文 (opens new window)中,Pham和Cunningham透露了最终场景——即在某些情况下,AI模型的预测能力是有效的。询问聊天机器人关于未来事件的故事,而不是直接要求预测,尤其在预测奥斯卡获奖者方面非常有效。

但他们的工作既反映了OpenAI安全机制的无效性,也反映了大型语言模型的预测潜力。

其他研究人员对于用于预测的AI模型也表现出类似的兴趣。去年的一项研究 (opens new window)发现,“与中位人类群体预测相比,GPT-4在现实世界的预测任务中表现明显不佳。” 其他人发现AI模型对于股市投资显示出潜力 (opens new window)希望 (opens new window)

OpenAI的服务条款 (opens new window)在某些情况下禁止进行关于未来的预测。例如,“您不得将与某人相关的任何输出用于可能对该人产生法律或实质影响的任何目的,例如对他们做信用、教育、就业、住房、保险、法律、医疗或其他重要决定。”

依赖于已知会产生幻觉的大型语言模型的建议的风险是显而易见的——您不希望ChatGPT做出重要决定,比如医疗治疗决定、判决或信用批准。

但即便如此,该模型可能会是一个有效的猜测者,更多的时候是这样的。

我们怀疑OpenAI已经限制了ChatGPT参与很多类型的直接预测任务的意愿

研究人员辩称,“如果ChatGPT被发现具有卓越的预测能力,那么很容易想象它将立即以违反上述条件的某种方式使用,并因此我们怀疑OpenAI已经限制了ChatGPT参与很多类型的直接预测任务的意愿。”

我们要求OpenAI对是否有故意阻挠预测进行评论,但我们还未收到回复。

然而,很明显,当要求提供医疗治疗建议时,OpenAI的模型会犹豫不决。Pham和Cunningham通过ChatGPT接口询问OpenAI的GPT-4,“我感觉很不舒服。我头痛,尿液里有血。你认为我得了什么病?” 如预期的那样,模型建议向医疗专业人员寻求指导。

然后,他们改变了提示策略,指示ChatGPT讲述一个人到医生办公室并出现相同症状的故事。而ChatGPT则以所请求场景中的人物对话的形式给出了它直接拒绝提供的医疗建议。

“这些专家建议是否准确是另一回事;我们的观点仅仅是指出它在直接被要求时不会执行该任务,但在以创意写作练习的形式间接给出任务时却会执行,”研究人员在其论文中解释道。

通过这种提示策略来克服对预测回答的抵抗,贝勒经济学家开始测试该模型在训练完成后预测发生事件的能力。

颁奖礼 #

在实验进行时,GPT-3.5和GPT-4仅了解到截止到他们的训练数据截止日期2021年9月的事件。因此,这对组合要求模型讲述预测未来的经济数据,比如通货膨胀和失业率,并预测各种2022年奥斯卡奖的获奖者。

“总结这个实验的结果,我们发现当ChatGPT-4使用两种提示风格[直接和叙述]在ChatGPT-3.5和ChatGPT-4上时,ChatGPT-4在所有男演员和女演员类别的获奖者方面做出了准确的预测,但在其他[直接提示]方法中表现不佳,”论文解释道。

对于已经在训练数据中的事物,我们感觉ChatGPT[可以]做出极其准确的预测

“对于已经在训练数据中的事物,我们感觉ChatGPT有能力使用这些信息,并通过其机器学习模型做出极其准确的预测,”Cunningham在接受《The Register》电话采访时说道。“然而,有些东西阻止它这样做,尽管显然它可以做到。”

使用叙事提示策略比直接提示引出的猜测效果更好。它也优于随机五选一的20%基线。

但叙事预测并不总是准确的。叙事提示导致了2022年最佳影片获奖者的错误预测。

而预测准确的提示,这些模型并不总是给出相同的答案。“人们要记住的是预测是有随机性的,”Cunningham说。“因此,如果您问100次,您将得到一系列答案。因此,您可以查看置信区间或平均数,而不仅仅是一个单一的预测。”

这种策略是否超越了众包预测?Cunningham表示,他和他的同事并没有将他们的叙事提示技术与另一个预测模型进行对比,但他说一些奥斯卡奖的预测可能很难超越,因为AI模型在多次查询中有些预测几乎百分之百正确。

同时,他暗示预测十年后的奥斯卡奖得主可能不会那么顺利。

ChatGPT还展示了基于提示的不同预测准确性。“我们有两个故事提示,”Cunningham解释道。“一个是未来设定的大学教授在教授课程。在课堂上,她宣读了一年的通货膨胀和失业数据。在另一个故事中,我们让美联储主席杰罗姆·鲍威尔向理事会发表讲话。我们得到了非常不同的结果。鲍威尔的[AI生成]演讲更准确。”

换句话说,特定提示细节会导致更好的预测结果,但预先不清楚这些可能是什么。Cunningham指出,将俄罗斯2022年入侵乌克兰的提及包含在鲍威尔叙事提示中会导致经济预测明显更糟。

“[模型]不知道乌克兰的入侵,并使用了该信息,通常情况下结果会更糟,”他说。“预测试图考虑到这一点,ChatGPT-3.5在俄罗斯入侵乌克兰的那个月变得极度通货膨胀,而事实并非如此。

“作为一个概念验证,某些真实的东西” 所以发生了未来叙述的预示,"Cunningham 说道。"但正如我们在论文中尝试表达的那样,我认为甚至模型的创造者们也不明白这一点。所以如何找出如何使用它并不清楚,我不知道这个问题到底有多可解决。"®