为什么我让一个AI聊天机器人训练我的书

2023 年 10 月 28 日

为什么我让一个AI聊天机器人训练我的书

四年前，我出版了我的第一本书：《末日时刻：世界末日简明指南》。

这本书做得还可以吗？我获得了与您现在阅读的网站的问答，谢谢，Dylan！ (opens new window)——这本书最终帮助我得到了运营未来完美的工作。有一天，我从一个广播节目走到另一个广播节目，试图在五分钟的时间段内向从费城到凤凰城的早晨电台主持人解释为什么我们都应该更加担心人类灭绝的威胁，以及我们能做些什么来阻止它。

但它并不是畅销书。这么说吧——大约每六个月，我都会收到一封来自我的出版商的“无收入版税报告”，这有点像从父母那里收到一张圣诞卡片，只不过里面没有祝福，只有收入为零的报告。金钱，它只是一张纸条，告诉你他们为了抚养你花了多少钱。

所以我承认，几个月前我收到了一封来自aisafety.info (opens new window)的邮件，他们的目标是创建一个集中的中心来解答关于AI安全和AI对齐 (opens new window)的问题 - 如何使AI符合人类的目标 - 并向普通大众解释。为此，他们正在建立一个大型语言模型 - 取名为“Stampy (opens new window)” - 它可以作为一个聊天机器人，回答人们对这个主题可能有的问题。（网站刚刚软启动 (opens new window)，而Stampy仍处于原型阶段。）他们询问是否可以使用我写的书《末日》中的章节，该书包含了有关存在主义风险和人类灭绝的长篇章节。 AI风险的潜在风险是非常重要的，这些风险可能会成为数据Stampy训练的一部分。

我的第一个想法，就像任何作者一样：有人实际上阅读了（或者至少知道）我的书！但是我有了第二个想法：作为一个作家，允许一个聊天机器人以你自己的作品为基础进行训练意味着什么？（而且还是免费的。）我是在为一个可以帮助人们更好地理解像AI安全这样复杂而重要的主题的项目做贡献吗？还是我只是加速了自己过时的过程？

训练日 #

这些问题现在是实时的，在像ChatGPT这样的大型语言模型变得越来越普及和更有能力。正如我的同事Sara Morrison今年夏天报道的那样，已经有许多集体诉讼已经对大型科技公司提起了诉讼，其中一些已经对OpenAI提起了诉讼，指控其使用受版权保护的材料来训练ChatGPT。类似Google和OpenAI代表作家和艺术家声称他们的作品，包括整本书，被用来训练聊天机器人，而没有得到他们的许可和报酬。今年8月，一群知名小说家，包括《权力的游戏》作者乔治·R·R·马丁（他确实有其他应该处理的期限 (opens new window)），对ChatGPT制造商OpenAI提起诉讼，指控“大规模系统性盗窃”。

对此类担忧并不是全新的事情 - 科技公司长期以来一直因为利用人们的数据来改进和完善产品而受到批评，而这种做法通常对普通用户来说并不透明。但人工智能的情况似乎有所不同。正如律师瑞安·克拉克森所说，他所在的律师事务所是一些集体诉讼案背后的推手：“直到现在，科技公司从未像现在这样使用生成式人工智能，将每个人的信息输入产品，以致于导致人们的专业过时和隐私完全被损毁，这是以前难以想象的。”

值得注意的是，aisafety.info与Meta或Microsoft等公司的工作基本上不同。首先，他们在使用我的作品之前征得了我的许可。这非常有礼貌！

此外，aisafety.info是一个非营利性研究组织，这意味着没有人会从我作品提供的培训数据中获利。（我相信这个事实对我的出版商来说并不意外。）聊天机器人Stampy将成为一个教育工具，作为在Vox主管关注强大人工智能风险的部分负责人，我对我的作品能够在这方面有所贡献感到高兴。我参与了使这个机器人变得更智能的工作中的一小部分。

我们迫切需要更多可靠的关于人工智能风险的信息来源。aisafety.info的Robert Miles告诉我：“我认为人们对于人工智能的协调和安全的理解非常薄弱。我可以说人们比以前更关心这个问题，但他们并不了解更多。”

聊天机器人在正确的资料基础上训练，可以成为优秀的教育工具。人工智能导师可以根据学生的教育水平进行自我调节，并随时了解关于该主题的最新信息。此外，使用最新的语言模型突破来创建一个教育工具，帮助人们理解他们正在使用的技术可能带来的潜在危险，这本身就具有一种愉快的讽刺意味。

人工智能的“公平使用”是什么？ #

我认为，为非盈利、教育目的训练聊天机器人，并获得授权许可，是“公平使用”人工智能的一种方式。作品的作者们似乎没什么问题，因为他们对使用他们的作品进行训练的公司似乎还不错。但是，像乔治·R·R·马丁或约翰·格里沙姆这样的小说家对未经明确许可就使用他们的作品的盈利公司是否有案可提呢？

不幸的是，法律对这个问题远没有明确的规定。正如哈佛法学教授和第一修正案专家丽贝卡·塔什内特在哈佛公报上发表的一次采访中所解释的那样，数字公司通常能够运用公平使用的概念来捍卫已有的知识产权。“如果没有公平使用这些词汇用于非复制原作的输出，我们今天所熟知的互联网，包括谷歌、图像搜索和谷歌图书，将无法存在。”她说。

一个思考这个问题的方法是想象人类（比如我自己）是如何写作的。当我在研究和撰写《末日时刻》时，我是在借鉴和综合已有的作品。 nkimmediately replaced in my human-limited short-term memory by whatever I’m thinking about next. It can quickly access and analyze a vast amount of information, allowing it to generate responses and ideas that are beyond what any single human could produce.

But while AI models like ChatGPT can process massive amounts of data and generate coherent text, they do not possess true understanding or consciousness. They lack the ability to think critically, have subjective experiences, or form their own opinions. They are essentially tools that operate based on patterns and probabilities, using statistical techniques to generate text that is likely to be coherent and relevant.

As an AI language model, ChatGPT is trained on a diverse range of texts, including books, articles, and websites. It learns to predict what words are likely to come next in a given context by analyzing patterns in the training data. This allows it to generate text that is contextually relevant and grammatically correct.

However, this training process also means that ChatGPT can inherit biases present in the data it is trained on. If the training data contains biased or prejudiced information, the model may inadvertently generate biased or prejudiced responses. Efforts are being made to address these biases and improve the fairness and inclusivity of AI models, but it remains a complex and ongoing challenge.

In order to mitigate biases and improve the quality of generated text, OpenAI has implemented several measures. They use a two-step process where the model first generates multiple possible completions and then ranks them based on their quality. They also fine-tune the model using human reviewers who follow guidelines to ensure the generated responses meet certain standards.

OpenAI also recognizes the importance of user feedback in identifying and addressing issues with the model. They actively encourage users to provide feedback on problematic outputs and are continuously working to make updates and improvements based on this feedback.

Ultimately, the responsible use of AI language models like ChatGPT requires a combination of technical solutions, ethical considerations, and ongoing community engagement. OpenAI is committed to ensuring that AI benefits all of humanity and is actively working towards creating better, more reliable, and fairer AI systems. 下一代AI的国王。（如果我说真的，季后赛棒球 (opens new window)的话。）法学者可以借鉴几百年的版权法来确定在人类案例中应该怎么做，但是能够准确公正地管理甚至理解AI对同一材料所能做的事情的法律尚未成文。

正如Tushnet所争论的，我们应该更多地关注在当前法律下可能无法回答的法律问题，而是更多地塑造我们对语言模型的期望和不期望。训练用于传播AI安全福音的聊天机器人，是的。也许不太适合用AI编写《权力的游戏》系列的下一本书 (opens new window)。

_一个版本这份通讯的原文出现在《Future Perfect》通讯中。在这里注册！ (opens new window)

你会支持Vox的解释性新闻吗？ (opens new window)

大多数新闻媒体通过广告或订阅来赚钱。但是对于我们在Vox所做的事情，我们不能仅依靠广告和订阅来维持运营有几个原因。

首先，广告收入随着经济的起伏而波动。我们通常只能提前几个月知道我们的广告收入将会是多少，这使得我们很难提前规划。

其次，我们不在订阅业务中。Vox在这里的目的是帮助每个人理解塑造世界的复杂问题，而不仅仅是那些负担得起订阅费的人。我们认为这是构建一个更加公正和包容的社会的重要组成部分。平等的社会。如果我们有一个收费墙，我们就无法实现这一目标。

这就是为什么我们也向您，我们的读者，寻求帮助来保持 Vox 的免费。如果您也认为每个人都应该获得可信赖的高质量信息，请考虑今天向 Vox 捐赠吗？

每月 $5

每月 $10

每月 $25

每月 $50

其他

是的，我愿意每月捐赠 $5

我们接受信用卡、Apple Pay 和 Google Pay 的捐助。您还可以通过以下方式进行捐赠：

(opens new window)