OpenAI或许违反YouTube规则，用100万小时视频训练ChatGPT | ChatGPTChina

OpenAI或许违反YouTube规则，用100万小时视频训练ChatGPT

2024 年 4 月 8 日

OpenAI可能已经违反YouTube规则，通过训练ChatGPT来使用100万小时的视频

据《纽约时报》周六报道，OpenAI据称转录了一百万小时的YouTube视频来训练GPT-4。这则报道发布后仅仅几天，YouTube首席执行官Neal Mohan在接受彭博采访时表示，为AI训练转录YouTube视频将是其政策的“明显违反”。

特斯拉最终会推出自动驾驶汽车吗？

偏向
英语

“当创作者将他们的辛勤工作上传到我们的平台时，他们有一定的期望。其中之一就是服务条款将会被遵守。” Mohan在上周接受彭博采访时说道。“但它不允许下载转录或视频片段。”

《纽约时报》的报道声称，OpenAI团队成员，包括总裁Greg Brockman在内，亲自帮助收集YouTube视频。文章详细描述了OpenAI和许多科技公司在收集足够的数据以训练大型AI模型方面遇到的困难。据称OpenAI使用了其AI转录软件Whisper来收集更多数据，以训练GPT-4，支撑ChatGPT这一最新最伟大的模型。

OpenAI和谷歌未立即回应Gizmodo的置评请求。

《纽约时报》的报道可能对OpenAI和谷歌在生成式AI发展的最前沿进行的持续战斗产生重大影响。如果OpenAI正在使用谷歌的内容使ChatGPT变得更加伟大，谷歌不太可能默不作声。然而，该公司尚未提出任何这样的指控。在本周末向《The Verge》的一份声明中，谷歌发言人仅表示他“看到了有关OpenAI训练的未经证实报道”。

YouTube的服务条款禁止任何用户下载其内容，包括使用僵尸网络或网络爬虫，除非他们获得了公司明确的许可。YouTube还禁止利用其内容进行任何“独立”使用。

OpenAI的首席技术官Mira Murati在三月份接受《华尔街日报》采访时表示，她“不确定”YouTube视频是否用于训练公司的文本到视频AI模型Sora。《纽约时报》的报道中没有提到Sora，或者实际的YouTube片段本身。然而，她对直接回答这个问题的迟疑导致了更多的推测。

《纽约时报》本身目前正在与OpenAI进行版权之争。OpenAI和Meta也因将AI训练在受版权保护的作品上而受到了一些作者和内容提供商的起诉。

如果这些报道属实，可能会在AI领域提出全新的版权法问题。关于AI的大多数版权投诉是由小型出版商提出的，但如果谷歌选择参与，将会为这场战斗增加真正的分量。这也将为谷歌提供一个减缓OpenAI步伐的途径，后者目前无疑正在赢得AI竞赛。

本文的版本最初发表在Gizmodo上 (opens new window)