语音编辑像改Word？阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX

2025-11-10 11:50 · 来源： AIbase基地

音频创作门槛被彻底击穿。国内AI独角兽阶跃星辰（StepStepFun AI）于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX，首次实现“用自然语言指令编辑语音”的革命性体验。用户只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”，模型即可精准调整音色、情绪、节奏甚至呼吸停顿，让语音编辑如修改文档般直观、高效。

30亿参数，性能不减反升

Step-Audio-EditX的核心突破在于其极致高效的模型压缩技术。团队将原始130亿参数模型精炼至仅30亿，不仅大幅降低部署成本，更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频，无需目标人物提供任何训练数据，即可高保真复现其音色;同时支持多轮迭代编辑，用户可连续发出细化指令（如“再温柔一点”“笑声延长0.3秒”），逐步逼近理想效果。

方言与情感，拿捏得死死的

该模型对中文语境的理解尤为惊艳，流畅支持普通话、英语、四川话、粤语，方言表达中的地域情绪与语用习惯自然真实。在盲测中，评测员一致认为其“川渝段子的市井感”“粤语语气词的细腻度”远超同类产品。

硬刚闭源商用模型，三项指标全面领先

AIbase获取的对比数据显示，Step-Audio-EditX在三大核心维度碾压Minimax与字节跳动Doubao等闭源方案:

自然度评分:4.72/5（Minimax4.51，Doubao4.38）

情感准确率:93.7%（领先第二名6.2个百分点）

音色保持度:98.1%，几乎无损还原

应用场景爆发:从短视频到无障碍服务

这一技术正催生全新内容形态:

短视频博主可一键切换“元气少女”“毒舌导师”等人设声音;

有声书创作者单人完成多角色情感对白;

四川话搞笑视频经AI重制，秒变美式脱口秀风格出海;

听障用户的语音合成系统首次具备“情感温度”，不再冰冷机械。

AIbase认为，Step-Audio-EditX的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是“录制即定型”的线性媒介，而成为可反复雕琢的“活文本”，亿万创作者将获得前所未有的表达自由。下一步，若阶跃星辰开放API或集成至手机系统，这把“AI魔法剪刀手”或将真正进入每个人的口袋，让每一次发声，都可被重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

相关推荐

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
单场卖了30亿后，快手“一姐”会单飞吗？

10月底，快手首个粉丝破亿的女主播、也是全网唯一粉丝破亿的女主播@蛋蛋（本名杨润心），突然连续发布四条视频，将流量引导至新号@蛋蛋关注我送iPhone17Pro，称自己“过去4个月经历了非人的遭遇”。一位网友质疑她辜负了辛选时，另一位网友评论“不知道谁负了谁”——蛋蛋为这条评论点了赞。在此之前，2025年6月，蛋蛋在618大促直播后突然停更所有社交账号，并清空�

快手主播粉丝破亿蛋蛋
荐咖啡和空间，谁才是130亿美元星巴克中国的原点

星巴克中国的交易终于尘埃落定。昨日，星巴克咖啡公司宣布与资产管理公司博裕投资达成战略合作，双方将成立合资企业，博裕持有合资公司至多60%股权，星巴克保留40%股权，共同运营星巴克在中国市场的零售业务。合资公司的估值为40亿美元。据《36氪未来消费》的报道，40亿美元估值的合资企业，包含了门店、烘焙工厂、人员等资产。这次交易中，星巴克中国的门店价�

星巴克中国博裕投资合资企业
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
浅醺猫DIY鸡尾酒获20亿战略投资

中国夜间经济正迎来结构性升级，2025年规模预计突破5.2万亿元，Z世代消费占比达52%，推动场景向沉浸式、科技化转型。在此背景下，创新品牌“浅酩猫DIY”完成20亿元战略投资，启动“全国万店工程”，以AI智能柜为核心构建微醺消费新生态。该模式结合无人零售与DIY调酒，单柜日均销量较传统便利店提升3倍，计划2026年布局10万点位，目标2028年冲击百亿美元市值。品牌通过跨

夜经济便利店调酒 Z世代消费
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI百科全书Grokipedia

本期AI日报聚焦多领域突破：海螺AI 2.3实现视频生成技术跃升，支持双模式免费试用；豆包AI编程工具实现零基础可视化开发；马斯克推出AI百科Grokipedia；Mistral发布企业级AI开发平台；Anthropic推出金融版Claude，显著提升分析师效率；Pinterest升级AI购物助手功能；英伟达推出全能模型OmniVinci刷新性能纪录；DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

AI视频生成 Hailuo 2.3
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫

今日大家都在搜的词：

热文

3 天
7天

语音编辑像改Word？阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

单场卖了30亿后，快手“一姐”会单飞吗？

荐咖啡和空间，谁才是130亿美元星巴克中国的原点

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

浅醺猫DIY鸡尾酒获20亿战略投资

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI百科全书Grokipedia

易鑫正式发布汽车金融行业首个Agentic大模型

今日大家都在搜的词：

热文

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机