首页 > 业界 > 关键词  > ​StabilityAI最新资讯  > 正文

​Stability AI发布AI音频模型Stable Audio Open:支持文本生成鼓点、乐器等音效

2024-06-06 09:40 · 稿源:站长之家

划重点:

  • Stable Audio Open 是一个开源的文本转音频模型,可生成长达47秒的样本和音效。

  • 用户可以创建鼓点、乐器重复乐段、环境声音、拟音和制作元素。

  • 该模型支持音频样本的音频变化和风格转换。

站长之家(ChinaZ.com)6月6日 消息:Stability AI 今天发布了 Stable Audio Open1.0,这是其音频领域的新一款生成 AI 模型。Stability AI 以稳定扩散文本到图像生成 AI 技术而闻名,但这只是该公司产品组合的一部分。该公司在2023年首次推出了 Stable Audio,这是一种文本到音频的生成 AI 工具。最近发布的 Stable Audio2.0提高了生成音频的清晰度和长度。

image.png

Stable Audio Open产品入口:https://top.aibase.com/tool/stable-audio-open-1-0

与完整版 Stable Audio 可用于一般商业用途并生成长达3分钟的音频不同,Stable Audio Open 的应用场景更为局限。Stable Audio Open 的目标是生成短音效片段,而非完整的歌曲。

正如其名称所示,Stable Audio Open 是一种开放模型,尽管它并非开源。Stable Audio Open 根据 Stability AI 的非商业研究社区协议许可证向用户提供,该许可证允许开放访问模型,但对使用该模型执行的操作有限制。

Stability AI 音频研究主管 Zach Evans 表示:“我们推出 Stable Audio Open 的目标是让音频研究人员和制作人能够亲身体验我们的生成音频模型之一,以加速这些令人难以置信的新工具的研究、采用和实际创造性使用。”

Stable Audio Open是什么?

Stable Audio Open 是一种专门针对音乐制作和声音设计的模型,优化了鼓点、乐器乐段、环境声音等音频样本的生成。与商业版 Stable Audio 相比,Stable Audio Open 的生成音频长度为47秒,质量较高。

Stability AI 对模型的训练采取了负责任的态度,使用了来自 FreeSound 和免费音乐档案的音频数据进行训练,以确保未使用受版权保护或专有材料。

image.png

用户可对Stable Audio Open 微调

Stable Audio Open 的另一个主要优势是用户可以根据自己的自定义音频数据对模型进行微调。例如,鼓手可以根据自己的鼓声录音样本微调模型,生成全新、独特的节拍。

Stable Audio Open 的微调是通过稳定音频工具库实现的,该库是根据实际开源许可证授权的。Stable Audio Open 的模型权重现已在 Hugging Face 上可用。

Evans 表示:“音频研究团队一直在努力提高生成音频模型的质量和可控性。我们期待进一步发布商业和开放模型,以反映我们研究的进展。”

官方博客:https://stability.ai/news/introducing-stable-audio-open

举报

  • 相关推荐
  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 科杰科技入选赛迪AI Infra平台市场研究报告,引领Data&AI数据基础设施新范式

    近日,赛迪顾问发布《2025中国AI Infra平台市场研究报告》,全面梳理中国AI基础设施平台市场格局、技术趋势与竞争态势。报告显示,2024年中国AI Infra平台市场规模达345亿元,预计2025年将飙升至673亿元,同比增长95.1%。企业AI应用正从单点验证迈向嵌入核心业务流的深度阶段,对基础设施提出更高要求。科杰科技凭借Data&AI融合架构、湖仓一体引擎及企业级AI落地能力强势入选,位列“挑战者”象限,彰显其在Data&AI领域的领先地位。

  • LIFETOO品牌缩醛磷脂荣获2025年TITAN健康奖,以科学创新推动脑健康产业升级

    LIFETOO品牌凭借核心产品"缩醛磷脂脑活素"荣获2025年TITAN健康奖神经健康领域奖项。该成分通过高效抗氧化、调节神经功能及改善认知等机制发挥作用,动物实验显示能显著提升学习记忆能力。奖项认证了品牌在科研转化与成分应用方面的实力,为应对全球老龄化趋势下的脑健康挑战提供了科学解决方案,推动功能性食品行业向专业化发展。

  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • 火山引擎Data Agent赋能金融行业,打造智能投顾与精准营销新范式

    在平安保险AIGC嘉年华上,火山引擎专家指出,企业正从“数据驱动”迈向“认知驱动”新时代,核心是构建沉淀集体智慧的“企业级认知引擎”。火山引擎推出数据智能体Data+Agent,定位新一代企业AI数字专家,具备主动思考、分析与行动能力,助力构建“数据大脑”。其聚焦智能分析Agent与智能营销Agent两大场景:前者实现“提问即生产”的数据消费新模式,提升金融业务分析效率90%;后者依托“一客一策”个性化服务,动态融合客户数据,突破传统标签限制。该产品已在多行业验证,营销点击率提升30%、投资回报率提高80%。未来将持续强化预测与模拟能力,深化金融、制造、医疗等领域的智能决策应用。

  • 确定出席!知名媒体人胡锡进将致辞Yandex Market官方品牌峰会!

    知名媒体人胡锡进近日表示,跨境电商已成为当前风口,国内电商利润普遍压缩至个位数,而跨境电商利润率普遍超过15%,做得好甚至能超50%。他援引案例指出,中国电商在供应链、运营经验及技术应用方面具备优势,转型跨境电商成功率高。俄罗斯电商市场增长迅猛,2025年上半年销售额超5.3万亿卢布,同比增长36%,预计全年将超14.7万亿卢布。Yandex Market平台上半年跨境订单增长10倍,吸引全球卖家关注。为助力中国卖家开拓俄罗斯市场,Yandex Market将于11月29日在深圳举办品牌峰会,胡锡进将首次出席并分享机遇。

  • 星耀南山、创见未来,「X-Day」西丽湖路演社创业之星Next Star专场燃动科创热潮

    11月15日,“X-Day”西丽湖路演社在深圳大学城举办“创业之星”Next+Star百万奖金全球赛专场,联动政府、投资、金融等多方资源,构建资本对接桥梁,助力创新项目落地南山。活动汇聚6个硬核项目,覆盖AI、生物医药等领域,展现前沿产业活力。平台通过常态化路演与赛事联动,已促成超5.3亿元股权融资及2.34亿元银行授信,持续优化区域科创生态,彰显南山“鼓励创新、支持创业”的浓厚氛围。

  • 苹果发布iOS 26.2 beta 2:动效更流畅、继续适配液态玻璃

    苹果今天凌晨发布了iOS 26.2 beta 2,依然在适配更多的液态玻璃效果,并且还优化了动画效果,更流畅丝滑了。 以下是本次主要更新内容: 游戏库新增排序与筛选功能,支持手柄导航,且在播放过程中可实时更新分数。 新版还强化了社交互动功能,用户可以直接从游戏”应用中邀请朋友进行挑战或实时多人游戏,当朋友打破你的高分纪录时,系统还会发送通知,方便你立即�

  • AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

    本期AI日报聚焦多项技术突破:OpenAI推出GPT-5.1,提升对话自然度与响应速度;百度发布原生全模态大模型文心5.0,支持跨文本图像生成;微博开源VibeThinker-1.5B模型,以低成本实现高效推理;可控视频生成模型新增首尾帧控制功能;李飞飞团队推出商用3D世界生成工具Marble;东北大学开源多语言翻译模型支持60种语言;谷歌Gemini语音功能升级实现更自然交互;阿里启动“千问”项目对标ChatGPT,全面布局C端AI应用竞争。

今日大家都在搜的词: