OpenAI吞噬新闻内容，发行商想要ChatGPT之爱

2024 年 5 月 4 日

OpenAI正在吞食那些希望得到ChatGPT爱的出版商的新闻内容

《金融时报》在周一宣布与OpenAI达成协议，授权其世界一流的新闻内容用于训练和提供ChatGPT模型的知识。它加入了Axel Springer和美联社达成类似协议的行列，其中OpenAI据报道为使用内容支付了数百万美元。然而，ChatGPT还是在许多其他未经付费的网络抓取的内容上接受训练。那么，为什么OpenAI会为某些数据集支付费用而对其他数据集不予支付呢？

Wegovy和Ozempic：我们准备好使用减肥药物了吗？

Off
English

OpenAI的许可协议似乎传递了一个明确的信息：我们无论如何都会使用您的内容，所以与我们签订协议或被抛在后面。许可协议的主要好处似乎是在ChatGPT的回答中获得突出的位置。一些出版商可能还想在这个即将主导的信息发布渠道上巩固与之的关系。然而，OpenAI似乎已经在使用许多出版商的内容。

据首席技术官米拉·穆拉蒂透露，OpenAI已经部分地基于“公开可用数据”训练其AI模型，这似乎是故意含糊其辞的。公开可用数据到底是什么？这个短语假定互联网上任何免费阅读的东西也可以构建到ChatGPT中。例如，Gizmodo就是OpenAI“公开可用数据”的一部分。我们的网站在GPT-2的WebText数据集上被缓存了超过34,000次，这是OpenAI披露用来训练AI模型的最后一个数据集。

Gizmodo对读者免费，主要是因为网页上的广告。如果读者可以通过ChatGPT访问我们的内容，这将破坏我们的商业模式。纽约时报在GPT-2的WebText数据集中使用更多，因此就此事起诉了OpenAI侵犯版权。

与OpenAI的内容许可协议似乎是出版商在AI时代保持相关性的唯一途径。在一份新闻稿中，金融时报集团首席执行官约翰·里丁表示这笔交易“将扩大他们的影响范围”，同时提供“对内容如何通过AI被展示的早期见解”。

“关于AI的一件事是，它实际上并不是人工智能，”代表萨拉·西尔弗曼等书籍作者起诉OpenAI的律师马修·巴特里克在接受Gizmodo采访时表示。“这是从某处收集来的人类智慧，脱离了其创作者，然后这家大型科技公司给它贴上价格标签并卖给其他人。”

巴特里克是针对AI公司提起的六起版权诉讼的原告。他还是一名作家、程序员和设计师，因此他认为AI可能对这些行业构成威胁。一般来说，他的案件围绕AI同时使用创作者的作品并威胁其生计的主张展开。

OpenAI的许可协议引起了人们对ChatGPT免费使用内容的关注。科技公司主张生成式AI对受版权保护作品的使用属于“合理使用”，因为它将其转化为全新的东西。AI界还辩称，它使用的模式类似于谷歌搜索，后者缓存受版权保护的内容以创建一个有用的信息查找工具。与谷歌类似，AI聊天机器人最近开始包含超链接。最终，法院将不得不决定生成式AI是否属于“合理使用”。

OpenAI没有立即回应Gizmodo的置评请求。

图书作者和出版商并不是OpenAI似乎正在从中获取内容的唯一对象。纽约时报最近报道称，OpenAI已经在超过一百万小时的转录YouTube视频上训练了GPT-4。在这份报告出来的几天前，YouTube的首席执行官表示，使用其视频进行AI训练将是“明显违规”。

OpenAI的内容许可协议模糊了讨论的界限。该公司在不支付任何费用的情况下使用互联网内容，同时还支付他人的工作。其他科技公司，如苹果，据报道已更积极地支付其所有训练数据。据报道，Adobe支付每分钟3美元的费用来训练其AI视频生成器。

然而，即使一次性付款获取AI训练数据是否足够还不清楚。我们在谈论一个可能颠覆媒体行业的工具，包括作家、音频和视频制作者等。与OpenAI签订协议可能会确保您在ChatGPT的结果中获得一个良好的位置，但看起来AI聊天机器人可能无论如何都在使用您的内容。至少目前，AI公司热衷于使用互联网上的所有内容，并稍后再就其合法性提出问题。 本文的一个版本最初发布在Gizmodo (opens new window)。