Suno 来了，和全新音乐创作场景一起｜Z Talk

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

科技创投

10月前

Z Talk 是真格分享认知的栏目。

我们在这里谈论最新的行业观察，先锋的创业动态，也在这里与真格老友相聚。我们相信持续的学习和进化，相信最深刻的认知来自实践。

3 月 22 日，Suno V3 版本正式发布。Suno 的创作能力如何？又为音乐创作带来了哪些新的挑战与契机？在本文中，真格基金管理合伙人戴雨森分享了他对于 AI 音乐生成的思考。

在国内 AI 音乐生成领域，真格基金于 2020 年 A 轮投资的「快音 AI 写歌」引领了全新的创作场景——专有音色演唱、歌曲电影解说、生日祝福等。我们始终高度关注 AI 生成领域的最新进展，并期待与你共享和探讨。

3 月 22 日，初创公司 Suno AI 正式发布 V3 版本，这一破圈版本被视作颠覆音乐界的 ChatGPT——「Suno 正在创造一个未来，在这个未来，任何人都可以制作出很棒的音乐。」

打开 Suno，用户只需要输入想要的音乐风格、主题，或是歌词，就能在几十秒内得到 2 首时长 2 分钟的歌曲，和一张音乐封面。与前代相比，Suno V3 可以生成更高的音乐质量、更多样的音乐风格与流派、对 prompt 理解更准确、幻觉也更少。

免费用户在 Suno 每天可获得 50 点数，用于 5 次生成，每次 2 首，一共可生成 10 首歌曲。如果每月支付 8 美元，即可生成 500 首；每月支付 24 美元，可生成 2000 首。Suno 尊重音乐创作者与知识产权，因此不允许用户在 prompt 中请求使用特定音乐人的风格与声音。

图片来源：Suno 官网

据「定焦」，Suno 背后主要由自研的两个大模型支撑，分别是基于 transformer 的 Bark 语音模型和 Chirp 音乐模型，前者主要用来生成人声，后者提供音乐旋律和音效。两者让 Suno 生成的音乐旋律更智能化、复杂化，这也是这家公司的核心技术。

Suno 成立于 2022 年 3 月，位于麻省剑桥，团队只有 12 人。Suno 最早的投资者之一是 Antonio Rodriguez，Matrix 风险投资公司合伙人。

据「滚石」报道，创始人 Mikey Shulman 是一个「有着少年魅力、总是背着双肩包」的 37 岁哈佛物理博士毕业生。他的想象中，全球会有十亿人，每月向 Suno 支付 10 美元来创作歌曲。目前音乐听众的数量远远超过音乐创作者，在他看来是「如此失衡」。

Mikey Shulman

Shulman 本科就读于哥伦比亚大学的应用物理专业，辅修应用数学。2009 年毕业后来到麻省剑桥的哈佛大学攻读物理 PhD。2015 年，Shulman 博士毕业，加入了 AI 创业公司 Kensho Technologies——专注于以 AI 为金融业提供高级分析和预测解决方案。2018 年，Kensho Technologies 以 5.5 亿美元被 S&P Global 收购。

在 Kensho Technologies，Mikey Shulman 与另外三位联合创始人——Georg Kucsko, Keenan Freyberg, Martin Camacho 相遇，并一同在 Kensho 工作至 2022 年。他们在 Kensho 的主要工作内容是开发一种 AI 语音转录技术，用于转录上市公司的财报电话会议。

AIGC 浪潮之中的音频远落后于图像与文字。在意识到这一点后，Suno 团队于 2023 年 4 月发布了基于 transformer 的文字转音频模型 Bark，并在 Bark 早期用户调研中，发现用户真正想要的是音乐生成工具。「所以我们开始进行一些初步实验，结果很不错。」

Shulman 和 Camacho 都很喜欢音乐，在 Kensho 时经常一起即兴演奏。许多 Suno 的成员也都是音乐家，办公室放着钢琴和吉他，墙上也挂着古典作曲家的画像。Suno 的官网上写着，「我们喜欢写代码，创作音乐，喝咖啡。音乐和声音实验是我们公司文化的全部——从午餐闲谈到办公室的录音棚。」

图片来源：Suno 官网

对 AI 音乐的未来畅想

真格基金管理合伙人戴雨森：Suno V3 有点像 Midjourney 的 V3、GPT 的 3.0 版本，给音乐产业带来了很多变化的可能，这里简单畅想一些可能的方向。

UGC 音乐平台

之前做音乐 UGC 平台的公司基本都没有起来，一个重要原因是，音乐是创作者头部效应最明显的产业之一。

一个普通人拍的视频可能是具备消费价值的，因为拍摄的人、事、景等可能很有意思，但是普通人创作的音乐、或者翻唱的歌曲几乎是完全不具备消费价值的。实际上，我们日常在听的、耳熟能详的、能出圈的歌曲也就是万首的级别。因此，控制了头部创作者的三大唱片公司，一年的版权收入是几百亿美金。天下苦三大久矣。

现在以 Suno 为代表的 AI 作曲工具的出现，突然极大地降低了创作一首 60-70 分音乐的门槛。这有点像摄影的发展：一开始要用胶片拍摄和冲洗，然后诞生了数码相机和 Photoshop。门槛进一步降低，摄影工具变成了手机摄像头和剪映。当大量的普通人突然可以按照自己的想法、歌词，来生成达到及格线的音乐时，就可能会随机诞生出全新的音乐家和大作。

与此同时，Suno 也是 AIGC 应用里难得可以形成「内容生产者 + 消费者闭环」的平台。妙鸭相机和 Midjourney 这类 AIGC 工具的长期问题，都在于 AI 产生的内容在本平台上的再消费价值不足。用 Midjourney 生成的图片，一般来说只对生产者本人有价值。而作为内容消费者，人们很难去刷 Midjourney 或是妙鸭的内容广场。

但是，用 Suno 生成的音乐则不一定。事实上，我发现自己很自然地就在 Suno 上开始听推荐的音乐了，有的还真的有点意思——这首最近在 Suno 排行榜第一名的中文摇滚就还真的挺好听的！

个性化音乐

70 分的音乐单独欣赏的价值并不大。因为绝大多数情况下，用户总可以去听 95 分的佳作，甚至单曲循环最好的那首歌。

但 70 分的音乐，配合合适的场景可能是有用的，尤其是可以随时生成个性化歌词音乐的时候。一种常见的场景是作为生日礼物，活动物料等。另外，配合视频等内容也可能产生有趣的玩法。

来源：B 站 up 主 @唐僧说电影，《心惊胆战》

这是一个 up 主使用「快音 AI 写歌」创作自定义音乐来点评电影的例子。在这里，音乐本身是否好听其实并不是那么重要，重要的是用带有韵律的方式来传达信息。

罐头音乐生成器

有一些场景下，70 分的音乐也是可以接受的，比如说公共场合的背景音乐等。

想起小时候有个不存在的乐队叫「班得瑞」。实际上，「班得瑞」是台湾一个乐队公司把很多风格类似的器乐包装在一起，出了很多专辑，一度很流行。

而 Suno 现在生成的纯器乐质量已经不错了，作为日常咖啡厅的背景音乐也完全不觉得违和。这可能是因为没有人声的器乐更加接近纯数学，AI 能够更好地生成。

例如，这首曲子就很「班得瑞」：

https://app.Suno.ai/song/a0f12ca5-0833-49ce-97f1-cd6094510f2c

音乐人的 Copilot

就像我们不会要求 ChatGPT 直接写出来一部小说一样，现在对 Suno 的要求也不应该是直接生成一首完整的歌，而是作为再创作的起点。

Suno 可以首先作为音乐创作者的 Copilot。看起来，这里的难点是如何生成专业创作者需要的工程文件（和 3D 生成遇到的问题类似），并且如何在一致性和可控性上进一步提升，需要类似图形生成里面 LoRA 和 ControlNet 这样的技术。

现在用 Suno 生成一首歌之后，再 remix 得到的结果就完全不一样了，但还是会经常出现「这首歌听起来不错，但是我还想微调一下」的场景。相信这个是可以很快得到提高的。

总之，现在的 Suno V3 比起之前所有的 AI 音乐创作工具都有长足的进步，可以说是第一次摸到了合格歌曲输出的门槛。但是，Suno 也在音乐质量、一致性、可控性等方面，有许多显然可以大幅提高的地方。

这很像 GPT3 推出时，是第一个让人觉得「这次真的不一样了」的版本，而 GPT-4 完成了大幅提高，变得更加实用高效。期待在 AI 音乐生成领域，我们能够看到更多的惊喜。

AI 为音乐创作带来了哪些全新场景？

快音在 2023 年推出的微信小程序「快音 AI 写歌」，为音乐创作带来了更多想象。

和 Suno 一样，打开快音，输入灵感或一段歌词，就能得到一首属于你的 AI 歌曲。快音还支持多次修改编辑歌词，也可以添加具体人名送给指定对象。如果清唱 60s，还可根据你的声音训练出你的专有音色。

目前，快音 40% 的付费用户用于市场营销，为自己的产品写歌，30% 的用户会用于 KOL 内容创作，30% 用于各种祝福和纪念场景——「送你一首生日祝福」。

快音还带来了一个全新的出圈场景——用歌曲解说电影。根据电影剧情生成歌词，再将歌词输入「快音 AI 写歌」，选择相应曲风，即可生成一首带感的背景音乐。B 站 up 主 @唐僧说电影发布上文中的视频《胆战心惊》后，观看量超过 150 万。

快音成立于 2019 年，是专注 UGC 内容生产力的音乐平台。2020 年，真格基金 A 轮投资快音。在文字和图像大模型飞跃后，快音开始尝试将 AI 大模型和音乐进行结合，并推出了微信小程序的「快音 AI 写歌」。

相比文字、图像，音乐的创作环节更多、更复杂，要考虑词曲一致，也要考虑到混响、降噪等后期处理。同时，高质量音乐数据集较少，标注成本大，需要很多前置工作。快音通过模型辅助人工标注，模型识别准确率可以提升至 85%，人工达 95%，人效提高 10 倍以上。

参考资料

1. Inside Suno, the Startup Changing Everything

https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/

2. Suno改造音乐圈？还早

文｜Yusen & Wendi

推荐阅读

微信扫码关注该文公众号作者

来源：真格基金

Suno 来了，和全新音乐创作场景一起｜Z Talk

相关新闻