AI生成虚假数据潜在风险及科学研究中的可靠性

2023 年 11 月 23 日

聊天机器人ChatGPT的技术被研究人员用来创建了一个虚假的临床试验数据集，以支持一个未经验证的科学论断。根据一份报道，在11月9日发表于JAMA眼科学的一篇论文中，作者使用了GPT-4，这是ChatGPT所运行的最新版本的大型语言模型，与Advanced Data Analysis（ADA）相结合。ADA是一个结合了编程语言Python的模型，可以进行统计分析和创建数据可视化。人工智能生成的数据比较了两种手术方法的结果，并错误地表明其中一种治疗方法更好。

我们的目的是强调，在短短几分钟内，你就可以创建一个没有真实原始数据支持的数据集，而且与真实数据相反或不一致。这个研究揭示了使用AI技术生成虚假数据的潜在风险，并强调了科学研究中对数据的重要性。

这项研究引发了关于AI在科学研究中的可靠性和数据验证的讨论。虚假数据可能会误导研究人员和决策者，导致错误的结论和不准确的假设。因此，在科学研究中，确保数据的真实性和可靠性至关重要。

此外，这项研究还提醒我们对于AI技术的使用需要审慎。虽然AI可以提供快速和便捷的数据生成和分析功能，但我们必须确保其在科学研究中的正确使用。这需要建立适当的验证和审查机制，以确保生成的数据是真实可信的。

总之，这项研究揭示了使用聊天机器人ChatGPT生成虚假数据的潜在风险，并强调了在科学研究中确保数据真实性和可靠性的重要性。我们必须审慎使用AI技术，并建立适当的验证机制，以避免误导和不准确的结论。根据意大利卡利亚里大学的眼科医生、研究合著者乔瑟皮·贾纳卡雷的说法，与现有证据相比，AI的能力使人担忧。AI制造令人信服的数据增加了研究人员和期刊编辑对研究诚信的担忧。"生成AI可以生成无法通过抄袭软件检测出来的文本是一回事，但能够创造出虚假但逼真的数据集是一种更高级别的担忧，"来自加利福尼亚州旧金山的微生物学家和独立研究诚信顾问伊丽莎白·比克表示。"这将使任何研究人员或一组研究人员非常容易地制造出不存在患者的虚假测量数据，虚假问卷答案，或者生成一个大型的动物实验数据集。"