首页 > AI头条  > 正文

语音编辑像改Word?阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX

2025-11-10 11:50 · 来源: AIbase基地

音频创作门槛被彻底击穿。国内AI独角兽阶跃星辰(StepStepFun AI)于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现“用自然语言指令编辑语音”的革命性体验。用户只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”,模型即可精准调整音色、情绪、节奏甚至呼吸停顿,让语音编辑如修改文档般直观、高效。

30亿参数,性能不减反升

Step-Audio-EditX的核心突破在于其极致高效的模型压缩技术。团队将原始130亿参数模型精炼至仅30亿,不仅大幅降低部署成本,更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频,无需目标人物提供任何训练数据,即可高保真复现其音色;同时支持多轮迭代编辑,用户可连续发出细化指令(如“再温柔一点”“笑声延长0.3秒”),逐步逼近理想效果。

image.png

方言与情感,拿捏得死死的

该模型对中文语境的理解尤为惊艳,流畅支持普通话、英语、四川话、粤语,方言表达中的地域情绪与语用习惯自然真实。在盲测中,评测员一致认为其“川渝段子的市井感”“粤语语气词的细腻度”远超同类产品。

硬刚闭源商用模型,三项指标全面领先

AIbase获取的对比数据显示,Step-Audio-EditX在三大核心维度碾压Minimax与字节跳动Doubao等闭源方案:

自然度评分:4.72/5(Minimax4.51,Doubao4.38)

情感准确率:93.7%(领先第二名6.2个百分点)

音色保持度:98.1%,几乎无损还原

image.png

应用场景爆发:从短视频到无障碍服务

这一技术正催生全新内容形态:

短视频博主可一键切换“元气少女”“毒舌导师”等人设声音;

有声书创作者单人完成多角色情感对白;

四川话搞笑视频经AI重制,秒变美式脱口秀风格出海;

听障用户的语音合成系统首次具备“情感温度”,不再冰冷机械。

AIbase认为,Step-Audio-EditX的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是“录制即定型”的线性媒介,而成为可反复雕琢的“活文本”,亿万创作者将获得前所未有的表达自由。下一步,若阶跃星辰开放API或集成至手机系统,这把“AI魔法剪刀手”或将真正进入每个人的口袋,让每一次发声,都可被重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 单场卖了30亿后,快手“一姐”会单飞吗?

    10月底,快手首个粉丝破亿的女主播、也是全网唯一粉丝破亿的女主播@蛋蛋(本名杨润心),突然连续发布四条视频,将流量引导至新号@蛋蛋关注我送iPhone17Pro,称自己“过去4个月经历了非人的遭遇”。 一位网友质疑她辜负了辛选时,另一位网友评论“不知道谁负了谁”——蛋蛋为这条评论点了赞。 在此之前,2025年6月,蛋蛋在618大促直播后突然停更所有社交账号,并清空�

  • 咖啡和空间,谁才是130亿美元星巴克中国的原点

    星巴克中国的交易终于尘埃落定。 昨日,星巴克咖啡公司宣布与资产管理公司博裕投资达成战略合作,双方将成立合资企业,博裕持有合资公司至多60%股权,星巴克保留40%股权,共同运营星巴克在中国市场的零售业务。合资公司的估值为40亿美元。据《36氪未来消费》的报道,40亿美元估值的合资企业,包含了门店、烘焙工厂、人员等资产。 这次交易中,星巴克中国的门店价�

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 浅醺猫DIY鸡尾酒获20亿战略投资

    中国夜间经济正迎来结构性升级,2025年规模预计突破5.2万亿元,Z世代消费占比达52%,推动场景向沉浸式、科技化转型。在此背景下,创新品牌“浅酩猫DIY”完成20亿元战略投资,启动“全国万店工程”,以AI智能柜为核心构建微醺消费新生态。该模式结合无人零售与DIY调酒,单柜日均销量较传统便利店提升3倍,计划2026年布局10万点位,目标2028年冲击百亿美元市值。品牌通过跨

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

今日大家都在搜的词: