音乐生成深度学习模型StemGen：听取音乐上下文生成音乐作品

2023-12-19 09:41 · 稿源：站长之家

**划重点:**
1. 🤖 革新性方法:研究采用非自回归、基于Transformer的模型，通过听取音乐上下文生成音乐，突破传统抽象条件的模型。
2. 🌐 模型效果验证:来自SAMI和字节跳动的研究人员引入非自回归、基于Transformer的模型，并通过标准指标和主观测试证明其音频质量和音乐与上下文的强大协调性。
3. 🚀 技术进步:研究结合图像和语言处理技术，以端到端的方式推动深度学习音频生成，并提出通过非自回归、基于Transformer的架构训练模型的新范例。

站长之家（ChinaZ.com）12月19日消息:字节跳动AI研究团队最近推出了一项名为StemGen的音乐生成项目，该项目采用了一种创新的深度学习方法，旨在让模型能够模仿现有音乐中的模式和结构，并以一种非常前卫的方式回应音乐背景。与常用的深度学习技术（如RNN、LSTM网络和Transformer模型）不同，StemGen采用了一种非自回归、基于Transformer的模型，强调对音乐背景的听取和响应，而不是依赖于抽象的条件。

研究中，来自SAMI和字节跳动公司的研究人员引入了一种非自回归、基于Transformer的模型，该模型通过利用MusicGen模型的公开可用的Encodec检查点来监听和响应音乐背景。通过使用标准度量和音乐信息检索描述符方法，包括Frechet Audio Distance（FAD）和Music Information Retrieval Descriptor Distance(MIRDD)，研究团队评估了模型的性能。结果显示，该模型在音频质量和与音乐背景的稳健对齐方面表现出竞争性，经过客观度量和主观MOS测试的验证。

这项研究强调了最新在端到端音乐生成方面的进展，借鉴了图像和语言处理的技术。它强调了在音乐创作中对音频片段进行对齐的挑战，并对现有依赖于抽象条件的模型提出了批评。研究提出了一种训练范式，使用了一种非自回归、基于Transformer的架构，使模型能够对音乐背景做出响应。该方法引入了两个条件源，并将问题框架构建为条件生成。

该方法利用了一种非自回归、基于Transformer的音乐生成模型，通过在单独的音频编码模型中引入残差向量量化器。通过将多个音频通道组合成一个单一的序列元素，采用了嵌套的方法。训练过程中采用了掩码程序，并在进行令牌采样期间使用了无分类器的指导，以增强音频背景的对齐。客观度量包括Fr’echet Audio Distance和音乐信息检索描述符距离等，用于评估模型的性能。

研究团队通过使用标准度量和音乐信息检索描述符方法进行生成模型的评估，包括FAD和MIRDD。与真实音频片段的比较表明，该模型在音频质量上达到了与最先进的文本条件模型相媲美的水平，并展现出与音乐背景的强大音乐连贯性。通过参与音乐培训的参与者进行的Mean Opinion Score测试进一步验证了该模型生成逼真音乐结果的能力。MIRDD对生成和真实音频片段的分布对齐进行评估，提供了音乐连贯性和对齐的度量。

总的来说，这项研究提出了一种新的训练方法，使生成模型能够对音乐背景做出响应。该方法引入了一种非自回归语言模型，具有Transformer骨干和两个未经测试的改进:多源无分类器的指导和迭代解码过程中的因果偏差。通过在开源和专有数据集上进行训练，这些模型实现了最先进的音频质量。标准度量和音乐信息检索描述符方法验证了其音频质量。通过Mean Opinion Score测试确认了该模型生成逼真音乐结果的能力。

项目网址:https://julian-parker.github.io/stemgen/

论文网址:https://arxiv.org/abs/2312.08723

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
免费AI音乐生成工具Sonauto 几秒钟生成完整音乐作品

在当今数字化的时代，音乐创作已经不再是专业的音乐人的专属领域。借助于人工智能技术，现在，每个人都可以成为音乐创作者。Sonauto对所有用户免费开放，无论是专业音乐人还是业余爱好者，都可以通过Sonauto实现快速创作，分享和探索音乐的无限可能。

Sonauto AI头条
AI音乐生成器Udio怎么用？Udio怎么生成音乐详细使用教程（附使用地址）

产品简介:AI音乐生成工具Udio正式发布，用户可以通过简单的文字描述创作带有歌词的音乐作品。这一新工具极大地降低了音乐创作的门槛。您可以通过单击轨道页面上的“扩展”按钮或在上下文菜单中选择“扩展轨道”来访问扩展模式。

Udio
荐suno劲敌！AI音乐生成工具Udio正式发布输入文字即可生成音乐

一款名为Udio的AI音乐生成工具正式对外发布，引起了广泛关注。这款工具的亮点在于用户可以通过简单的文字描述，轻松创作出带有歌词的音乐作品，极大地降低了音乐创作的门槛。随着AI技术的不断进步，我们有理由相信，Udio将在未来的数字音乐产业中扮演重要角色。

Udio AI头条
不止是音乐生成！Udio还可以创作喜剧、演讲、电台广播等

Udio的发布引发了网友的关注，上线当天还网站一度被网友挤崩。有网友又发现了新的“华点”。个人娱乐和放松:普通用户可以使用Udio来创作个人喜欢的音频内容，如ASMR和自然音效，用于放松和娱乐。

Udio AI头条
昆仑万维AI音乐生成大模型「天工SkyMusic」启动邀测

4月2日，昆仑万维AI音乐生成大模型「天工SkyMusic」开始面向社会免费邀测，邀测将开放1000个免费名额，主要针对行业媒体、专家和音乐从业者。该大模型基于昆仑万维的「天工3.0」超级大模型，是目前国内唯一可用的AI音乐生成大模型。通过这些努力，昆仑万维希望构建一个更加智能、互联、理解和尊重每个人个性的世界。

AI音乐生成天工 SkyMusic
AI音乐生成工具AI Jukebox 输入提示词选择曲风即可创作音乐

AIJukebox是一个利用人工智能技术的音乐生成工具，它通过HuggingFace平台提供服务。这个工具的设计理念在于简化音乐创作过程，使其变得更加智能化和用户友好。易于访问和使用:作为一个在线工具，AIJukebox可以轻松地被世界各地的用户访问和使用，这进一步降低了音乐创作的门槛。

Jukebox AI音乐 AI头条
Suno音乐生成器官网体验入口 AI音乐创作神器使用地址

Suno音乐生成器是一个基于NextJS开发的非官方suno.ai音乐生成网站，用户可以通过输入prompt快速生成自己想要的歌曲。通过JavaScript逆向工程解析suno.ai生成歌曲的API，内置token更新和保活功能，无需担心token过期。欲了解更多详细信息及开始您的音乐创作之旅，请访问Suno音乐生成器官方网站。

Suno音乐生成器
Udio免费AI生成音乐使用地址人工智能音乐生成器内测申请入口

Udio是一个音乐发现、创作和分享的平台。用户可以在这里发现新的音乐作品，上传自己的创作分享给他人，并与其他音乐爱好者互动交流。如果您也对音乐创作和分享感兴趣，不妨体验一下Udio，探索更多音乐的乐趣。

Udio AI生成音乐
天工SkyMusic体验入口 AI音乐生成软件工具下载使用地址

天工SkyMusic是一款基于昆仑万维「天工3.0」超级大模型打造的AI音乐生成大模型。它支持高质量的AI音乐生成、人声合成、歌词段落控制、多种音乐风格和音乐智能表达等功能。无论您是音乐创作者还是音乐爱好者，都可以通过天工SkyMusic找到属于自己的音乐发声方式。

天工SkyMusic
AI音乐生成器Udio地址多少 Udio怎么用详细使用教程

Udio是一款引起广泛关注的AI音乐生成工具，用户可以通过简单的文字描述轻松创作带有歌词的音乐作品。这款工具支持多种音乐类型和风格，如EDM、钢琴爵士、新灵魂乐等，满足不同用户的需求。您可以通过单击轨道页面上的“扩展”按钮或在上下文菜单中选择“扩展轨道”来访问扩展模式。

Udio

今日大家都在搜的词：

热文

3 天
7天

音乐生成深度学习模型StemGen：听取音乐上下文生成音乐作品

今日大家都在搜的词：

热文

站长商机