语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

2025-02-18 08:44 · 来源： AIbase基地

语音交互领域迎来里程碑式突破!国内AI公司阶跃（Step Audio）近日震撼开源了一款 1300亿参数的超大型语音模型，引发业界高度关注。这款被誉为“统治级”的强大模型，是业界首个集语音理解与生成控制于一体的产品级开源实时语音对话系统，其功能的全面性和技术的先进性令人惊叹，预示着语音AI技术发展或将“一步到位”迈向新高度。

这款开源模型最核心的亮点在于其 一体化设计 和 强大的控制能力。它不仅能够精准理解用户语音指令，还能高度灵活地控制语音生成过程，实现前所未有的个性化语音交互体验。

在 语言支持 方面，这款模型展现出惊人的多语言能力， 中文、英文、日语 流畅切换，轻松应对跨语言交流场景。更令人惊喜的是，它还深度支持方言，目前已覆盖 粤语、四川话 等主流方言，让语音交互更贴近生活，更具人情味。

除了语言，这款模型还能精细控制 语音情感，用户可以自由设定语音的 情感基调，例如 开心、悲伤 等，让AI的表达更富感染力。 语速和韵律风格 也可随心调整，满足不同场景下的表达需求。甚至更进一步，它还支持 RAP 和哼唱 等更具创造力的语音形式，为内容创作带来无限可能。

更令人震撼的是，这款模型还具备 语音克隆 功能，这意味着用户可以利用这项技术，创造出极具个性化的语音助手，甚至实现声音的“复刻”与“传承”。

阶跃此次开源如此强大的语音模型，无疑将极大地推动整个行业的技术进步和应用创新。它不仅大幅降低了语音AI技术的应用门槛，更预示着未来语音交互将变得更加智能、自然、个性化，真正融入人们的日常生活。

项目地址：https://github.com/stepfun-ai/Step-Audio/tree/main

相关推荐

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
狗狗捡瓶子25天收入1300多网友：真人不如狗比我挣得多

日前，广州有网友发布视频称，自家狗子爱上了捡瓶子，25天就收入1300多元。主人介绍称，狗子前几年捡瓶子玩的时候，被外面拾荒的人用一块肉换下瓶子，尝到美味之后，它一直以为捡瓶子能换到肉吃，于是每天一出门，停车场先找瓶子，还要到人家档口房间里找，这么多年来，每天风雨无阻的捡瓶子。主人近日发布视频称，昨天捡的瓶加上今天上午捡的瓶子，收拾完拉�

狗捡瓶子宠物趣事环保行为
全球第一！腾讯混元翻译模型Hunyuan-MT-7B登顶开源热榜

腾讯混元翻译模型Hunyuan-MT-7B登顶Hugging Face趋势榜首位，并在ACL WMT2025比赛中以30项第一的成绩领先。该模型支持33种语言，包括5种汉语言方言互译，在Flores200评测中表现卓越，超越同尺寸模型，与超大模型效果相当。腾讯提出完整训练范式，覆盖预训练到强化学习全链条，实现业界最优翻译效果。

腾讯混元 Hunyuan-MT-7B 翻译模型
荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
腾讯Kuikly框架进一步开源，新增支持Web，开启一码五端新体验！

腾讯开源的跨端开发框架Kuikly基于Kotlin Multiplatform技术，新增Web版支持H5和微信小程序。相比主流跨端方案，Kuikly Web版采用DOM渲染，包体积仅463KB，加载速度快，兼容性好，支持SEO优化。已在腾讯多款业务中应用，日活用户超5亿。未来将持续优化性能，探索WASM技术，并计划开源Electron适配版本。

Kuikly 跨端开发 Kotlin
K歌录制、音乐弹幕、AI美音……回森音乐黑科技来袭

回森AI美音黑科技亮相“回森音乐·成都制噪局”活动，8月30日至31日在成都东郊记忆举办。活动融合音乐街区、K歌互动、弹幕合唱等创新玩法，邀请傅如乔、刘莉旻等音乐人现场助阵。回森通过技术降低创作门槛，提供AI美音、一键修音等功能，打造便捷有趣的音乐社交生态，致力于实现“人人皆可唱歌”的梦想。

回森音乐 AI美音黑科技成都制噪局
美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

也有线上体验地址:https://longcat.ai 我自己去体验了一下，整体模型能力，中规中矩，但是快，是真的快，能把560B的模型，在推理的时候搞得这么快，是真的有点牛逼的。我直接录了个屏给大家看一下。这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度，他俩都是MoE架构，而且总参数量差不太多。为了更公平的竞争，用了同一个问题，并关闭了联网搜索来避免搜索干扰�

美团 AI模型开源
大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

逗哥配音作为国内领先的AI配音平台，凭借自主研发的语音合成大模型技术，已服务超千万创作者，累计生成音频量突破270亿次。其核心技术突破包括：1）支持40种语言，语音质量MOS分提升0.25，拟人度超83%；2）首创"AI分角功能"，将多角色配音效率提升90%以上；3）建成覆盖近千款发音人的全球声库，包含方言、外语及影视角色音；4）创新"真人声纹+AI增强"模式，

人工智能大模型技术 AI配音

语音AI“一步到位”！阶跃开源 130B 统治级语音模型，实时对话+情感克隆，炸裂来袭

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

狗狗捡瓶子25天收入1300多网友：真人不如狗比我挣得多

全球第一！腾讯混元翻译模型Hunyuan-MT-7B登顶开源热榜

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

腾讯Kuikly框架进一步开源，新增支持Web，开启一码五端新体验！

K歌录制、音乐弹幕、AI美音……回森音乐黑科技来袭

美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

今日大家都在搜的词：

热文

雷军第90次健身房打卡距离健身目标仅剩10次

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

全新问界M7开售1小时订单破10万售价28.8万元起

尊界S800选配星空顶涨价3万：价格上调至 8 万元

站长商机