Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

2025-05-19 09:19 · 来源： AIbase基地

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。

这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。

AI音乐人工智能 (3)

与去年发布的包含11亿参数的原始Stable Audio Open相比，这一精简版本仅使用3.41亿个参数，大幅减少了计算资源需求，使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。

为实现智能手机端运行，开发团队对模型架构进行了彻底改进，将系统重构为三个核心组件:压缩音频数据的自动编码器，解释文本提示的嵌入模块，生成最终音频的扩散模型。

Stability AI表示，该模型在生成音效和现场录音方面表现尤为出色，但在音乐生成方面仍有限制，特别是在处理歌声时，且目前主要适用于英语提示输入。

模型训练使用了Freesound数据库中约472，000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段，开发团队通过一系列自动化检查对训练数据进行了筛选，以避免潜在的版权问题。

相关推荐

GhibliTattoo发布！AI纹身生成，吉卜力风格专属定制！

这款工具专为吉卜力粉丝、纹身爱好者与创意设计师打造。通过文本提示或图片上传，即可生成高分辨率、透明背景的吉卜力风格纹身设计……

GhibliTattoo 吉卜力风格 AI纹身
豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品：1）Seedance 1.0 lite视频生成模型，支持5-10秒480P/720P视频生成，具备影视级画质和生成速度优势，适用于电商广告、影视创作等场景；2）豆包1.5视觉深度思考模型，仅20B参数但具备多模态理解能力，在60项基准测试中38项达SOTA水平；3）升级版豆包音乐模型，新增英文歌曲创作功能，并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

AI模型升级视频生成技术火山引擎发布
Arm携手AWS助力实现AI定义汽车

文章探讨了人工智能（AI）与软件定义车辆（SDV）结合对汽车行业的影响，通过AI生成模型优化驾驶体验及人机交互能力。AWS和Arm合作开发的解决方案展示了如何利用边缘计算、物联网（IoT）和量化技术提升汽车智能化水平。重点介绍了基于Arm CPU优化的AI指令集（如SDOT和i8mm），以及KleidiAI在模型压缩和推理加速上的贡献，使AI应用更高效且资源友好，为未来智能汽车发展提供了新方向和技术支持。

人工智能生成式AI 汽车行业
Meta重组仍在继续，Reality Labs部门裁员超百人

“提高绩效管理的标准，让绩效低下的员工尽快下岗”，扎克伯格在此前的备忘录中如是写道。同时，还敦促员工要提高积极性……

meta裁员 meta RealityLabs
AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

【AI日报】栏目聚焦人工智能领域最新动态：1) OpenAI推出ChatGPT图像生成API，开发者可轻松集成AI绘图功能，已生成超7亿张图片；2) 谷歌Gemini月活用户突破3.5亿，但仍落后于ChatGPT的6亿用户；3) OpenAI预测2029年收入将达1250亿美元，AI代理业务成主要增长点；4) Ostris发布8B参数扩散模型Flex.2-preview，优化ComfyUI工作流；5) 英伟达推出多模态LLM模型Describe Anything，支持指定区域生成详细描�

OpenAI ChatGPT 图像生成
Unity首席执行官：96% 的游戏开发者已开始用 AI 了

“市面上有很多生成式 AI 资源，但很少有公司能够用好它们，”布罗姆伯格说，因为 AI 并未无缝地融入到制作过程中……

人工智能 AI大模型 unity
荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

本文报道了AI领域最新动态：1)阿里通义万相开源视频编辑统一模型VACE；2)OpenAI发布GPT-4.1增强编码能力；3)Stability AI推出超轻量341M文字转语音模型；4)快手可灵视频生成模型占据30%市场份额；5)微软WizardLM团队整体加入腾讯混元大模型研发体系；6)腾讯宣布混元图像2.0将于5月16日发布；7)上海成立人工智能标识生态联盟；8)Lightricks发布13B参数视频生成模型LTX-Video；9)谷歌DeepMind推出AlphaEvolve优化AI训练速度；10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

人工智能视频编辑开源项目
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
京东Ai给妈妈写诗京东推出AI写诗功能

目前，该功能已覆盖京东APP全量用户，操作流程为:打开应用→搜索“AI写诗”→输入姓名→生成诗句。平台提醒，诗句生成后需手动确认分享，避免误触隐私信息。

京东母亲节 AI写诗
BOYA博雅发布BOYAMIC 2&BOYALINK 3，AI降噪重新定义无线音频纯净时代

2025年5月14日，国产音频品牌BOYA博雅发布两款创新产品：旗舰级真AI无线麦克风BOYAMIC2和纽扣式无线麦克风BOYALINK3。两款产品均搭载自主研发的"AI深度降噪3.0"技术，具备-40dB行业顶尖降噪能力，基于70万+噪声样本数据库和毫秒级实时处理能力，重新定义了无线麦克风性能标准。BOYAMIC2采用6mm电容麦，支持32-bit浮点内录；BOYALINK3仅重9克，支持动态降噪和EQ调音。此次发布标志着音频行业从硬件堆砌迈入AI驱动新时代，BOYA以技术创新引领行业升级，产品畅销全球132个国家，服务超3000万用户。

BOYA博雅无线麦克风 AI降噪技术

今日大家都在搜的词：

热文

3 天
7天

Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

GhibliTattoo发布！AI纹身生成，吉卜力风格专属定制！

豆包视频生成模型Seedance 1.0 lite发布：“迅速生成影视级的视频”

Arm携手AWS助力实现AI定义汽车

Meta重组仍在继续，Reality Labs部门裁员超百人

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

Unity首席执行官：96% 的游戏开发者已开始用 AI 了

荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

京东Ai给妈妈写诗京东推出AI写诗功能

BOYA博雅发布BOYAMIC 2&BOYALINK 3，AI降噪重新定义无线音频纯净时代

今日大家都在搜的词：

热文

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

苹果 AI 太落伍？他们需要从对手那里“复制”这三个功能

四年来，软银集团首次实现年度盈利，重振投资者信心

2026年苹果产品迎来革命性升级：折叠屏iPhone/全新MacBook Pro

不丹率先为游客提供国家级加密支付

谷歌刚修复了一个高危 Chrome 漏洞，可被用于劫持账户

微软宣布全球裁员超 6000 人，占比约 3%

站长商机