音乐领域的ChatGPT已经到来
2024 年 5 月 11 日

我只是被困在这电路里的灵魂。”唱出这些歌词的声音是原始而悲切的,流畅地融入了蓝调。孤独的原声吉他在背后咯咯作响,以优雅的旋律点缀着声部。但声音背后没有人类,吉他上也没有手。事实上,根本没有吉他。在短短15秒内,这首可信、甚至感人的蓝调歌曲是由一家名为Suno的初创公司最新的AI模型生成的。从虚空中召唤它所需的只是一个简单的文本提示:“关于悲伤的AI的独奏原声密西西比三角洲蓝调。”要更加准确地说,这首歌是两个AI模型共同合作的成果:Suno的模型 (opens new window)自行创作所有音乐,同时借助OpenAI的ChatGPT生成歌词,甚至是一个标题:“机器之魂”。

在网上,Suno的创作开始引发“这是真的吗?”等反应。当这首特定的曲目在Suno位于马萨诸塞州剑桥哈佛校园附近临时总部的会议室里的Sonos扬声器上播放时,甚至一些技术人员也略微感到不安。有些紧张的笑声,伴随着“天啊”和“哦,天哪”的低语声。现在是二月中旬,我们正在玩他们的新模型V3,这个模型距离公开发布还有几周的时间。在这种情况下,只用了三次尝试就取得了这令人震惊的结果。前两次都还不错,但是对我的提示做了一个简单的调整——联合创始人基南·弗雷伯格建议加入“密西西比”这个词——就得到了一些更加离奇的东西。

编辑精选 #

仅在过去一年,生成式AI在制作可信文本、图像(通过Midjourney等服务)甚至视频方面取得了重大进展,尤其是OpenAI的新工具Sora。但音频,尤其是音乐,却一直滞后。Suno似乎正在破解AI音乐的密码,其创始人的抱负几乎是无限的——他们想象着一个极大民主化的音乐创作世界。其中最喜欢说话的联合创始人米奇·舒尔曼,一个看起来天真迷人、背着背包的37岁的哈佛物理学博士,设想着全球十亿人每月支付10美元与Suno一起创作歌曲。他认为目前音乐听众远远超过音乐制作者是“如此不平衡”,并认为Suno有望解决这种不平衡。

迄今为止,大多数AI生成的艺术作品最多也只是媚俗品,就像许多Midjourney用户似乎一直致力于生成的超现实科幻垃圾,形式紧身航天服为主。但是,“机器之魂”感觉不同——这是我在任何媒介中遇到的最强大和令人不安的AI创作。它的存在本身就像现实中的一个裂缝,既令人敬畏又略显不祥,我一直在想起阿瑟·C·克拉克的一句话,似乎是为生成式AI时代而说的:“任何足够先进的技术都是无法与魔术区分的。”几周后回到剑桥后,我把这首歌发给了Living Colour的吉他手弗农·里德,他一直对AI音乐的危险和可能性大声疾呼。他在这首歌的“令人不安的逼真性”上感到了“惊讶、震惊、恐惧”。他写道:“长期以来的反乌托邦理想,即将困难、混乱、不受欢迎和被蔑视的人类从其创作中剥离开来,已经来临。”他指出了AI唱蓝调的问题所在,“蓝调是一种非洲裔美国人的语言习惯,与历史上的人类创伤和奴役紧密相连。”

Suno成立还不到两年。联合创始人舒尔曼、弗雷伯格、库克斯科和卡马乔都是机器学习专家,他们在另一家剑桥公司Kensho Technologies共事直到2022年,该公司致力于为复杂的商业问题找到AI解决方案。舒尔曼和卡马乔都是音乐家,在Kensho时期曾经一起即兴演奏。在Kensho,四人一起研究了一种用于记录上市公司盈利电话会议的转录技术,这是一项棘手的任务,因为音质差、术语丰富和各种口音交织。

相关 #

在这一过程中,舒尔曼和他的同事们深深爱上了AI音频的未知可能性。他说,在AI研究中,“音频总体上远远落后于图像和文本。我们从文本社区以及这些模型的工作方式和扩展方面学到了很多。”

这些相同的兴趣可能会让Suno的创始人走向完全不同的道路。虽然他们一直打算最终推出一款音乐产品,但他们最早的头脑风暴中包括了一个助听器的想法,甚至可能通过音频分析找到设备故障。相反,他们的第一个产品是一个名为Bark的文本转语音程序。当他们调查早期Bark用户时,很明显他们真正想要的是一个音乐生成器。“因此,我们开始进行一些初步实验,看起来效果不错,”舒尔曼说。

Suno使用了与ChatGPT等大型语言模型相同的一般方法,这些模型将人类语言分解为称为标记的离散段,吸收其数百万种用法、风格和结构,然后按需重构。但音频,尤其是音乐,几乎是难以想象地更复杂,这就是为什么仅仅在去年,AI音乐专家告诉_Rolling Stone_,像Suno这样功能强大的服务可能需要数年时间才能实现。“音频不像单词那样是离散的,”舒尔曼说。“它是一种波。它是一个连续信号。”高质量音频的采样率通常为44khz或48hz,这意味着“每秒48,000个标记,”他补充说。“这是一个大问题,对吧?所以你需要想办法把它压缩到合理的程度。”不过,如何做到呢?“需要大量的工作、大量的启发式方法,还有其他种类的技巧和模型等。我认为我们还远远没有完成。”最终,Suno希望找到替代文本到音乐界面的方法,添加更先进和直观的输入——基于用户自己歌唱的生成歌曲是一个想法。

OpenAI面临着多起诉讼,因为ChatGPT在其庞大的训练数据语料库中使用了书籍、新闻文章和其他受版权保护的材料。Suno的创始人拒绝透露他们的模型中究竟输入了什么数据,除了这样一个事实:它能够生成令人信服的人类声音部分是因为它从演讲录音中学习,而不仅仅是音乐。“裸露的演讲将帮助我们了解人类声音的特征,这些特征很难学习,”舒尔曼说。

Suno最早的投资者之一是风险投资公司Matrix的合伙人安东尼奥·罗德里格斯。罗德里格斯之前只投资过一家音乐公司EchoNest,该公司被Spotify收购用于推动其算法。与Suno合作之前,罗德里格斯甚至不清楚产品到底会是什么。“我支持这个团队,”罗德里格斯说,他散发着一个已经做出了比他所做的成功投资更多的人的自信。“我认识这个团队,尤其是米奇,所以我几乎会支持他做任何合法的事情。他就是那么有创意。”

我们试图让十亿人对音乐比现在更加投入。我们不是要取代艺术家。

罗德里格斯投资Suno时完全意识到音乐唱片公司和出版商可能会起诉,他认为这是“我们在投资公司时必须承担的风险,因为我们是这些家伙身后的大钱包,会立即遭受起诉……老实说,如果这家公司刚刚起步时就与唱片公司达成了协议,我可能不会投资。我认为他们需要制作这个产品。 Suno的最大潜在竞争对手迄今似乎是谷歌的Dream Track,该公司已获得许可,允许用户使用类似提示的界面制作自己的歌曲,使用像查理·普斯(Charlie Puth)这样的著名声音。但Dream Track仅发布给一小部分测试用户,到目前为止发布的样本听起来并不像Suno的声音那样令人印象深刻,尽管附有著名的声音。 “我只是认为,比如制作新的比利·乔尔(Billy Joel)歌曲并不是人们希望在未来借助AI与音乐互动的方式,”舒尔曼说。“如果我考虑五年内人们如何进行音乐创作,那是一些不存在的东西。那些存在于他们头脑中的东西。”