音乐生成深度学习模型StemGen：听取音乐上下文生成音乐作品

2023-12-19 09:41 · 稿源：站长之家

**划重点:**
1. 🤖 革新性方法:研究采用非自回归、基于Transformer的模型，通过听取音乐上下文生成音乐，突破传统抽象条件的模型。
2. 🌐 模型效果验证:来自SAMI和字节跳动的研究人员引入非自回归、基于Transformer的模型，并通过标准指标和主观测试证明其音频质量和音乐与上下文的强大协调性。
3. 🚀 技术进步:研究结合图像和语言处理技术，以端到端的方式推动深度学习音频生成，并提出通过非自回归、基于Transformer的架构训练模型的新范例。

站长之家（ChinaZ.com）12月19日消息:字节跳动AI研究团队最近推出了一项名为StemGen的音乐生成项目，该项目采用了一种创新的深度学习方法，旨在让模型能够模仿现有音乐中的模式和结构，并以一种非常前卫的方式回应音乐背景。与常用的深度学习技术（如RNN、LSTM网络和Transformer模型）不同，StemGen采用了一种非自回归、基于Transformer的模型，强调对音乐背景的听取和响应，而不是依赖于抽象的条件。

研究中，来自SAMI和字节跳动公司的研究人员引入了一种非自回归、基于Transformer的模型，该模型通过利用MusicGen模型的公开可用的Encodec检查点来监听和响应音乐背景。通过使用标准度量和音乐信息检索描述符方法，包括Frechet Audio Distance（FAD）和Music Information Retrieval Descriptor Distance(MIRDD)，研究团队评估了模型的性能。结果显示，该模型在音频质量和与音乐背景的稳健对齐方面表现出竞争性，经过客观度量和主观MOS测试的验证。

这项研究强调了最新在端到端音乐生成方面的进展，借鉴了图像和语言处理的技术。它强调了在音乐创作中对音频片段进行对齐的挑战，并对现有依赖于抽象条件的模型提出了批评。研究提出了一种训练范式，使用了一种非自回归、基于Transformer的架构，使模型能够对音乐背景做出响应。该方法引入了两个条件源，并将问题框架构建为条件生成。

该方法利用了一种非自回归、基于Transformer的音乐生成模型，通过在单独的音频编码模型中引入残差向量量化器。通过将多个音频通道组合成一个单一的序列元素，采用了嵌套的方法。训练过程中采用了掩码程序，并在进行令牌采样期间使用了无分类器的指导，以增强音频背景的对齐。客观度量包括Fr’echet Audio Distance和音乐信息检索描述符距离等，用于评估模型的性能。

研究团队通过使用标准度量和音乐信息检索描述符方法进行生成模型的评估，包括FAD和MIRDD。与真实音频片段的比较表明，该模型在音频质量上达到了与最先进的文本条件模型相媲美的水平，并展现出与音乐背景的强大音乐连贯性。通过参与音乐培训的参与者进行的Mean Opinion Score测试进一步验证了该模型生成逼真音乐结果的能力。MIRDD对生成和真实音频片段的分布对齐进行评估，提供了音乐连贯性和对齐的度量。

总的来说，这项研究提出了一种新的训练方法，使生成模型能够对音乐背景做出响应。该方法引入了一种非自回归语言模型，具有Transformer骨干和两个未经测试的改进:多源无分类器的指导和迭代解码过程中的因果偏差。通过在开源和专有数据集上进行训练，这些模型实现了最先进的音频质量。标准度量和音乐信息检索描述符方法验证了其音频质量。通过Mean Opinion Score测试确认了该模型生成逼真音乐结果的能力。

项目网址:https://julian-parker.github.io/stemgen/

论文网址:https://arxiv.org/abs/2312.08723

（举报）

相关推荐

关键词：

智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

智谱今天，终于发了AutoGLM2.0。想一想，AutoGLM1.0的版本，距离我第一次首发写他们，已经过去快10个月了。那个时候，他们掀起了一波Agent热潮，甚至连A股都出现了智谱概念股，他们也开启了Agent的另一条支线，用视觉的方式来操控原有设备。当时，我对着我的手机说:我29号要去一趟深圳，你帮我定个罗湖地铁站附近的酒店，预算600元以内，大床房。然后，我的手机，就像

文章搜索核心标签 AutoGLM2.0
格创东智再获权威认可，AI Agent解决方案入选甲子光年报告

格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent（智能体）价值及应用报告》，继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出，该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出，成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排，通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%，年增收数千万元。公司持续深化"工业智能体"等研发投入，累计投入超10亿元，沉淀工业机理模型35000+个，构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景，格创东智将持续引领工业AI解决方案创新，助力中国制造业数字化升级。

工业AI Agent 企业级AI
荐第一个能帮你做生意的Agent来了。

这是一个面向外贸、面向海外的tob产品，所以国内可能知道的人并不是很多。但其实，Accio已经默默攒了200万企业级客户了。 ToB领域，200万客户，这是什么水平，大家懂得都懂。。。我之前因为刘世奇，认识了阿里国际站，我自己本身就对外贸非常感兴趣，后来又当主持人和阿里国际站一起搞过他们的新品发布会，关系很不错。所以托他们的福，这次，我也能第一手，抢�

文章搜索核心标签数字生命卡兹克
荐一个邪修方法，帮你把用Agent的钱省掉80%。

之前我分享过一个Agent，Minimax的那个，因为我觉得Agent能力，是真的很棒，东西好用也是真的好用。但文章发出去之后，评论区里最多的声音，几乎都指向了同一个字: 贵。

文章搜索核心标签 Agent能力
瓴羊发布企业级分析Agent，让人人都可拥有超级数据分析师

阿里巴巴旗下瓴羊发布首个数据分析Agent“智能小Q”，升级为“超级数据分析师”，由问数、解读和报告三大核心Agent组成。该工具能快速获取数据、解读数据并输出洞察报告，将原本需数小时的数据处理时间缩短至最快10秒，专业报告生成仅需20分钟。通过三重技术体系提升企业级数据分析可靠性，覆盖近20个细分行业，支持用户自定义需求。目前已有瑞幸咖啡、牧原食品等百余家企业客户使用，9月9日起全面开放给所有企业用户。

数据分析Agent 瓴羊 Quick
Soul以AI重构社交体验，打造有温度的“Gen AI 社交游乐园”

Soul 作为新型社交平台，自成立以来便积极探索AI技术在社交领域的应用落地，持续优化AI社交体验，致力于重塑数字时代的连接方式，为社交产品注入新的可能性，打造一个突破传统社交边界的“Gen AI社交游乐园”。前不久，在第二十二届ChinaJoy（中国国际数码互动娱乐展览会）上，Soul App以“Soul树洞情绪疗愈酒吧”为展台主题亮相，重磅推出原创IP“莫比乌斯·第三弹”ChinaJoy

AI社交数字文创虚拟伴侣
荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
不叫骁龙8 Elite 2！曝高通新一代Soc命名为骁龙8 Elite Gen5

高通下一代旗舰Soc不叫骁龙8 Elite 2，暂定命名为骁龙8 Elite Gen5，型号为SM8850。如果命名属实的话，这颗Soc的中文名字可能会叫第五代骁龙8至尊版”，高通这次从第一代直接跳到了第五代。

高通骁龙8 Elite
荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE，通过自然语言交互简化工作流程；阿里开源Mobile-Agent-v3跨平台代理框架；微信测试AI播客功能，实现双人对话式新闻播报；钉钉推出首款AI硬件录音笔DingTalk A1；苹果拟为Siri引入谷歌Gemini大模型；苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能；Meta获得Midjourney技术授权加强AI图像生成竞争力；谷歌Drive新增Vids视频编辑功能降低制作门槛；夸克发布健康大模型通过12学科主治医师测评；AI小游戏Draw A Fish凭借极简设计引发全球热潮。

AI办公钉钉8.0 自然语言交互
自研遇阻！苹果考虑用谷歌Gemini升级Siri

苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判，这一动向表明苹果可能进一步将人工智能能力外包，成为其AI战略的关键一步。据知情人士透露，这家iPhone制造商近期已与Alphabet旗下谷歌接触，商讨合作构建一款定制化AI模型，以用于明年预计推出的新版本Siri。谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

苹果谷歌 Siri

今日大家都在搜的词：

热文

3 天
7天

音乐生成深度学习模型StemGen：听取音乐上下文生成音乐作品

智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

格创东智再获权威认可，AI Agent解决方案入选甲子光年报告

荐第一个能帮你做生意的Agent来了。

荐一个邪修方法，帮你把用Agent的钱省掉80%。

瓴羊发布企业级分析Agent，让人人都可拥有超级数据分析师

Soul以AI重构社交体验，打造有温度的“Gen AI 社交游乐园”

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

不叫骁龙8 Elite 2！曝高通新一代Soc命名为骁龙8 Elite Gen5

荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

自研遇阻！苹果考虑用谷歌Gemini升级Siri

今日大家都在搜的词：

热文

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

史上最大Mate！华为智慧屏MateTV将于9月4日发布

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

小米回应升级Beta后手机很烫：系统编译致短期功耗增加

迷你LABUBU开售后卖爆多平台已售罄：电商平台销量破百万

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

站长商机