简单指令就能生成完整音乐！Stability AI发布音频大模型2.0，生成音乐成下

木子雨葭 · 发表于 2024-4-5 22:43:21

还在为想听音乐时，无法找到喜欢的歌而烦恼？现在你可以在几分钟内做一首自己的专属歌曲。
最近，由于生成式 AI 技术的显著进步，生成音乐成为下一个追逐的热点。前有广受好评的 Suno，国内大模型厂商也有跟进。北京时间 4 月 3 日，开源生成式 AI 公司 Stability AI 宣布推出音频生成模型 Stable Audio 2.0。此前的 1.0 版本于 2023 年 9 月首次亮相，被《时代》杂志评为 2023 年最佳发明之一。
当前 AI 生成音乐的实现主要依赖于深度学习技术，就像语言模型是在大量文本上训练一样，音频模型通过训练大量的音乐数据来使 AI 能够理解音乐的结构、风格和创作规律，进而生成新的音乐。
根据 Stability AI 的官方博文，Stable Audio 2.0 使用了 AudioSparx 的数据进行训练，这些数据包含了超过 80 万个音频文件，涵盖了音乐、声效和单独乐器的声音素材，以及相应的文字描述信息。
Stable Audio 2.0 能够仅凭自然语言描述，生成长达三分钟的完整音乐，而且是高质量的 44.1 kHz 立体声。这个数字表示的是音频信号的采样频率，采样率越高，越能够捕捉更细微的声波变化，录制的声音也就越接近原始声音。44.1 kHz 是 CD 音质标准的采样率，能够提供较高的音频质量。
除了用文本直接生成音乐，用户也可以先上传一段音频，再用文字描述想要的效果，Stable Audio 2.0 就能按指示改造该音频，也就是拥有音频到音频的转换能力。此外，它还能生成特定的音效，创作形式十分灵活。

简单指令就能生成完整音乐！Stability AI发布音频大模型2.0，生成音乐成下第2张图片

具体使用上，在提示词（Prompt）部分输入想要生成音乐的关键词，然后点击下方的“Generate”即可开始生成。免费版用户每月可以生成 10 次，再想多用每月需要至少付费 11.99 美元。
值得注意的是，Stable Audio 2.0 暂时还不支持歌词。为了全面测试 AI 生成音乐的水平，这里需要提及另一款 AI 音乐产品 Suno。
Suno 在今年 3 月底迎来一次重要升级，最新的 V3 版本被广泛认为是音乐届的“ChatGPT 时刻”。它能够在几秒钟内制作不同风格和流派的歌曲，效果几乎可以和人类创作的音乐相媲美。Suno 在此前公告中还提到，V4 版已经在开发中，会有一些令人兴奋的新功能。

简单指令就能生成完整音乐！Stability AI发布音频大模型2.0，生成音乐成下第3张图片

Suno 对用户相对更友好，每天可以免费使用 5 次。一次生成两首歌。歌曲时长为 2 分钟。有两种使用方法，一种是输入歌词后，再输入音乐类型、主题就能生成歌曲，另一种是生成纯音乐，只需要用文字描述你想要的歌曲即可。
时至清明，笔者试以清明节必读诗词《清明》为蓝本，进行实际测试，看下效果，并与不久前同样迎来升级的 AI 音乐产品 Suno 做个对比。如果之前没有接触过 AI 音乐，你一定会为它的表现而惊讶。首先我用 ChatGPT 将唐诗《清明》进行了改编，以生成歌词。将歌词输入 Suno，短暂等待后，即可生成歌曲。效果如下：
实际效果还是相当不错的。接下来，用相近的提示词使用 Stable Audio 2.0 来生成音乐。效果如下：
2 清明雨纷飞,问芯Voice,3分钟
Stable Audio 2.0 的效果，个人不太满意。不过在音乐上见仁见智，也可以实际上手测试下效果。
值得一提的是，除了以上两款产品，近日，国内也出了一款音乐大模型工具天工 SkyMusic，可以在天工 APP 进行试用（目前需要加微信群获取邀请码，在软件界面即可操作）。其用户界面如下：

简单指令就能生成完整音乐！Stability AI发布音频大模型2.0，生成音乐成下第4张图片

输入歌词后可以直接生成音乐，也可以选择一首现有歌曲作为参考来生成，一次生成 3 首歌，时长在 90 秒左右。这里先用刚才生成的《清明雨纷飞》歌词直接生成，其中一首相对较好的效果如下：
然后，搭配参考音乐后再次生成。参考音乐为上面 Suno 生成的歌曲。效果如下：
有了参考音乐后，新生成的音乐个人感觉是上了一个档次，3 首效果都还可以。
总的来说，以上三款产品，Suno 的效果无疑是最好的，可以做到以假乱真的地步（歌词写得再好点，效果应该会更进一步）。不过，Suno 当前仍有一个问题，就是生成的音乐不完整，在两分钟时总会戛然而止，结束得很突然。
不管怎么说，可以预见不远的将来，AI 音乐定会蔚然成风，可以大规模商用。比如，影视剧中的背景音乐可以通过 AI 快速、高效地制作，以满足特定场景的情绪需求。而在音乐市场，根据用户的听歌历史和偏好，AI 可以创作个性化音乐，为我们提供更加定制化的听歌体验。音乐市场的消费模式或迎来转变。
随着 AI 在内容生成上不断地“攻城略地”，从文本到视频，AI 可以极大丰富人类的创造力，让每个人都能成为创作者。这不仅可以让艺术家发现新的创作方法，也让普通人有了成为艺术家的可能性。
人工智能在当下毫无疑问已经成为创新的前沿。技术的进步让 AI 能够接近理解和模拟人类的创造过程。AI 可以作为工具，帮助人们实现创意的无限扩展。这种应用挑战了我们对艺术创作的传统认知，也引发了关于创造力、艺术价值和作者身份的深刻讨论。但不可否认的是，AI 在内容生成领域的应用开启了人类创造力的新篇章。
头图：DALL·E 生成「清明节」
参考：
https://stability.ai/news/stable-audio-2-0?utm_source=website&utm_medium=twitter&utm_campaign=blog
https://www.suno.ai/blog/v3

上一篇：“未来之塔”跃出地面！深圳湾超级总部基地C塔项目建设取得新进展
下一篇：津琴科：如果被征召将前往乌克兰作战和俄罗斯前队友已不再交谈

中级会员	积分	兔币	帖子
中级会员, 积分 373, 距离下一级还需 127 积分	373	207	166
在线时间：0 小时	最后登录：2024-5-3

[科技] 简单指令就能生成完整音乐！Stability AI发布音频大模型2.0，生成音乐成下

关联主题

如何让孩子感觉自己被深爱？这5句话记得要

对美国的驻军要求，蒙古国明确说不，转头与

上海的二手成交终于开始稳住

“如果企业敢去港股IPO上市，我就把他腿打

上海买房也可以“以旧换新”了！旧房未成功

胡歌老婆又惹争议？身材差打扮土，高学历是

每个为难的东亚妻子，背后都有隐身丈夫

华晨宇演唱会凌晨三点开场！内娱首场“日出

61岁李连杰露面：瘦了精神了！带女儿看望受

2-0！2-1！足坛疯狂一夜：亚洲第7进奥运，

鸡蛋大小！广州多地降下冰雹，“天空数次闪

万科，破鼓万人捶

日本扩大出口管制范围：项庄舞剑，意在沛公

选秀节目强势回归！盘点内娱选秀综艺发展史

抵制成功！田馥甄退出天津演出，直言很遗憾

张颂文新综艺《灿烂的花园》：口碑两极分化

余承东卸任华为终端BG CEO，何刚接任：背后

心肺复苏首次纳入河南郑州中考，按压力度是

从6000万到11亿外加一条人命，《城中之城》

华为与苹果同日举办新品发布会

主角脸对女演员有多重要？看《无限超越班》

鸡蛋大小！广州多地降下冰雹，“天空数次闪

20岁谷爱凌惊艳颁奖礼，穿“黄金战袍”气场

花费53万竞买法拍房，拖延近一年多难收房;

万科，破鼓万人捶

轰20很快对外公布，台中将：轰20完全隐形，

大算力芯片，正在拥抱Chiplet

“木头姐”谈特斯拉目标价，说对了吗

3个半小时，点球10-11，夺冠热门出局，黑马

巴勒斯坦“入联”遭美阻挠，联合国一票否决

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸