首页 > 业界 > 关键词  > StableAudio最新资讯  > 正文

Stability AI发布AI音乐生成工具Stable Audio

2023-09-14 10:10 · 稿源:站长之家

要点:

  • 位于伦敦的初创公司Stability AI推出了Stable Audio,这是一个使用人工智能从简单的文本输入生成自定义音乐曲目和音效的工具,具备在较长时间内生成专业音频的能力。

  • Stable Audio的优势在于其能够以多种流派生成音乐作品,提供用户友好的基于浏览器的界面,面向需要快速背景音乐的创意专业人士。

  • 该系统在由AudioSparx提供的大型音乐库上进行了训练,而在训练中使用的歌曲的创作者则通过AudioSparx分享了Stable Audio的利润,尽管仍存在有关潜在内容抄袭和版权问题的担忧。

站长之家(ChinaZ.com)9月14日 消息:总部位于伦敦的初创公司 Stability AI 于周三推出了一款名为 Stable Audio 的新产品,该产品利用人工智能生成定制音乐曲目和音效。

Stable Audio 使用一种基于扩散的 AI 模型,可以在几秒钟内从简单的文本输入生成定制音频文件。用户可以指定音乐风格、乐器、音调和其他特征,系统然后自动创作出相匹配的歌曲、音效或乐器声部。

Stability AI 使用输入文本进行了测试,如“后摇滚、吉他、鼓套、低音、弦乐、欢快、振奋、情绪化、流畅、原始、史诗、多愁善感、125BPM”。结果是一首快速的大气摇滚歌曲,BPM 为125。根据 Stability 的说法,这表明 Stable Audio 可以生成多种风格的歌曲,包括氛围音乐、技术音乐和电子舞曲。

image.png

与以往基于人工智能的音乐生成器不同,Stable Audio 似乎能够以长达90秒的时间生成音乐上连贯的作品,并且以44.1kHz 的专业音频质量。

生成的样本音频听起来非常真实,几乎不会让人怀疑背后没有人类作曲家。根据 Stability AI 的说法,使用 Nvidia A100GPU,95秒音频可以在不到一秒钟内生成。

image.png

这种技术有潜力在各种应用中发挥作用,特别是在电影制作和游戏开发等创意领域。通过网络浏览器可以访问,即使对人工智能不熟悉的用户也能轻松使用。

为了实现这种质量,Stability AI 对音乐库进行了培训,音乐库由 AudioSparx 提供。通过使用约80万首歌曲、音效和乐器片段,AudioSparx 与 Stability AI 合作,并承诺将音乐库的收入份额提供给初创公司 Stability Audio。作为回报,参与培训的歌曲的创作者可以通过 AudioSparx 分享 Stable Audio 的利润。

据称,在培训之前,这些创作人被问及是否愿意提供他们的歌曲。这个决定可能是对 Stability 在 Stable Diffusion 的培训素材涉及版权辩论中所面临的大规模反对的回应。

根据 Stability AI 的说法,用户可以免费将使用 Stable Audio 创建的音轨用于个人用途。商业用途需要付费订阅。该公司的目标是创意专业人士,如电影制片人或游戏开发人员,他们需要快速获得合适的背景音乐。

Stability AI 还计划发布一个基于不同数据集训练的开源音乐模型。

Stable Audio 不同于 Stable Diffusion,因为它不是开源的,不像流行的图像模型那样。然而,FAQ 中表示,将很快发布一个基于其他数据集训练的开源模型。

Stable Audio 的基础是文本到音乐的模型 Dance Diffusion,该模型是在2022年由 Harmonai 发布的,并得到了 Stability 的支持。然而,Stable Audio 是 Stability AI 音频部门从零开始开发的模型,该部门成立于2022年4月。

对音乐使用扩散模型并不是一个新的想法。然而,Stable Audio 的强大之处在于它能够以不同长度生成作品,训练过程中考虑到了这一点。

Stability AI 是这样解释底层技术的:

  • Stable Audio 是一个潜在扩散模型,由几个部分组成:变分自动编码器 (VAE)、文本编码器和基于 U-net 的扩散模型。
  • VAE 将立体声音频压缩为有损、抗噪声和可逆的潜在编码,从而实现更快的生成和训练。
  • 新训练的 CLAP 模型的冻结文本编码器用于文本提示。
  • 定时嵌入在训练期间计算并用于控制输出音频长度。
  • Stable Audio 的扩散模型是基于 Moûsai 模型的9.07亿参数 U 网。

您可以通过最近推出的网络界面专门使用稳定音频。每月有20首时长不超过45秒的歌曲免费供个人使用。每月只需11.99美元,即可获得500首歌曲,播放时间长达90秒,并获得商业许可。

没有内容过滤器很容易导致抄袭

该工具还可以用来伪造流行艺术家的歌曲。到目前为止,唱片公司已经能够成功地对抗此类人工智能创作,但法律状况仍不清楚。

Stability AI 本身在接受 Techcrunch 采访时坚称,它希望负责任地使用该技术。AudioSparx 的数据库不包含流行歌曲,但许多歌曲都以知名艺术家的风格进行标记。与谷歌的 MusicLM不同,著名艺术家的名字不会被屏蔽,至少目前还没有。

Stable Audio 能否为 Stability AI 的商业模式带来回报还有待观察,该商业模式迄今为止一直处于亏损状态。无论如何,人工智能作品的令人印象深刻的质量让你刮目相看。

举报

  • 相关推荐
  • AI日报:腾讯发布混元3D 3.0模型;昆仑万维上线Agent Studio功能;阿里Qoder推出付费订阅服务

    AI日报汇总最新行业动态:腾讯发布混元3D+3.0模型,建模精度提升3倍;昆仑万维Mureka上线音乐创作功能;阿里Qoder推出付费订阅服务;VEED Fabric 1.0实现图片转视频;OpenAI发布GPT-5-Codex革新编程;全国发布AI安全治理框架2.0;Mini-o3实现超长视觉推理;上海AI Lab推出多模态模型Lumina-DiMOO;腾讯微调技术提升图像美感300%;Meta推出轻量级MobileLLM-R1;腾讯启动AI应用繁荣计划;谷歌DeepMind�

  • Claude 用不了?蓝耘 Coding Agent 提供原生替代方案,更轻量、高性价比的替代选择

    Anthropic宣布停止向中国资本控股企业提供Claude服务,蓝耘Coding Agent凭借强代码能力、灵活适配性及高性价比成为可靠替代选择。支持多模型切换、低迁移成本,提供可视化控制台和本地化服务,助力开发者无缝衔接开发流程,确保工作连续性。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • AI眼镜的痛,Meta也治不了

    对于全球科技从业者而言,Meta Connect大会是一年一度的重要时刻。 不少人早早守在电脑前,想知道扎克伯格此次会带来哪些前沿技术产品,更对会上即将亮相的新款AI眼镜充满关注。 事实上,AI眼镜这类消费电子产品,在过去一年里已快速从“小众科技产品”走进大众视野,但看似火热的市场背后,AI眼镜当下的发展却陷入了明显瓶颈。 此前,国内AI眼镜市场曾掀起“百镜大

  • 小米开启澎湃OS 3 Beta版最新招募:支持小米14、K70等机型

    小米澎湃OS 3 Beta版于9月24日启动招募,覆盖MIX Fold 4、MIX Flip、小米14 Ultra、14 Pro及钛金属版(卫星通讯)、小米14、Redmi K70系列四款机型和小米平板6S Pro 12.4共12款设备。招募采用分批推送机制,每机型设两批次,首批满员后启动第二批,入选用户优先获得更新。正式版将于10月15日推送,逐步扩大覆盖。该系统基于自研底层内核,通过深度优化微架构流水线,精准识别CPU空转,配合一体化调频技术,整体任务执行效率提升19%,带来更流畅体验。此次招募既为用户提供抢先体验机会,也通过反馈助力系统优化,强化小米生态竞争力。

  • 腾讯悄悄上线了“Claude Code”,居然还支持微信登录。

    ​昨晚,腾讯发了他们的CodeBuddy Code,正式也加入命令行编程Agent战场。 说实话,CodeBuddy这产品,真的有点玄学在身上的。 我之前就当个新闻写,写了两次,一次插件,一次IDE,两次都快10w+,尼玛。。。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 绿舟带你看EUDR申报示例!了解EUDR违规有何风险

    欧盟《毁林条例》(EUDR)将于2025年12月30日起对大企业生效,2026年6月30日起对中小企业生效。该法规要求销往欧盟市场的相关商品(如大豆、木材、咖啡等)需证明供应链不涉及毁林,企业须履行尽职调查义务,包括信息收集、风险评估和合规声明。违规可能面临产品下架、高额罚款甚至市场禁入。FSC认证虽不能直接替代EUDR合规,但可作为风险缓释工具。文章建议卖家提前布局,通过确认产品类别、收集供应链数据、引入第三方认证等方式主动应对,以把握可持续贸易机遇。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 魅族发布Flyme Auto 2车载系统:全新小窗模式 支持AI读心术

    今日下午,魅族召开发布会,正式推出Flyme Auto 2车载系统,全面升级AI交互体验。 据介绍,Flyme Auto 2车载系统设计美学再度升级,新增实况桌面3D质感、全场景一镜到底、Alive壁纸、自定义桌面插件等等视觉与交互功能。 该系统强化Aicy大卡片、全新小窗模式,提供了更轻量更高效的交互方式。

今日大家都在搜的词: