OpenAI或许违反YouTube规则,用100万小时视频训练ChatGPT
2024 年 4 月 8 日

OpenAI可能已经违反YouTube规则,通过训练ChatGPT来使用100万小时的视频

据《纽约时报》周六报道,OpenAI据称转录了一百万小时的YouTube视频来训练GPT-4。这则报道发布后仅仅几天,YouTube首席执行官Neal Mohan在接受彭博采访时表示,为AI训练转录YouTube视频将是其政策的“明显违反”。

特斯拉最终会推出自动驾驶汽车吗?

  • 偏向
  • 英语

“当创作者将他们的辛勤工作上传到我们的平台时,他们有一定的期望。其中之一就是服务条款将会被遵守。” Mohan在上周接受彭博采访时说道。“但它不允许下载转录或视频片段。”

《纽约时报》的报道声称,OpenAI团队成员,包括总裁Greg Brockman在内,亲自帮助收集YouTube视频。文章详细描述了OpenAI和许多科技公司在收集足够的数据以训练大型AI模型方面遇到的困难。据称OpenAI使用了其AI转录软件Whisper来收集更多数据,以训练GPT-4,支撑ChatGPT这一最新最伟大的模型。

OpenAI和谷歌未立即回应Gizmodo的置评请求。

《纽约时报》的报道可能对OpenAI和谷歌在生成式AI发展的最前沿进行的持续战斗产生重大影响。如果OpenAI正在使用谷歌的内容使ChatGPT变得更加伟大,谷歌不太可能默不作声。然而,该公司尚未提出任何这样的指控。在本周末向《The Verge》的一份声明中,谷歌发言人仅表示他“看到了有关OpenAI训练的未经证实报道”。

YouTube的服务条款禁止任何用户下载其内容,包括使用僵尸网络或网络爬虫,除非他们获得了公司明确的许可。YouTube还禁止利用其内容进行任何“独立”使用。

OpenAI的首席技术官Mira Murati在三月份接受《华尔街日报》采访时表示,她“不确定”YouTube视频是否用于训练公司的文本到视频AI模型Sora。《纽约时报》的报道中没有提到Sora,或者实际的YouTube片段本身。然而,她对直接回答这个问题的迟疑导致了更多的推测。

《纽约时报》本身目前正在与OpenAI进行版权之争。OpenAI和Meta也因将AI训练在受版权保护的作品上而受到了一些作者和内容提供商的起诉。

如果这些报道属实,可能会在AI领域提出全新的版权法问题。关于AI的大多数版权投诉是由小型出版商提出的,但如果谷歌选择参与,将会为这场战斗增加真正的分量。这也将为谷歌提供一个减缓OpenAI步伐的途径,后者目前无疑正在赢得AI竞赛。

本文的版本最初发表在Gizmodo上 (opens new window)