开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

2025-07-02 16:19 · 来源： AIbase基地

在人工智能领域，尤其是生成式对抗网络（AIGC）方面的不断进展，语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理，无法直接生成自然语音，这在一定程度上影响了人机音频交互的流畅性。

为了突破这一局限，Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出，使得人机交流更加自然。

Step-Audio-AQAA 的架构由三个核心模块组成:双码本音频标记器、骨干 LLM 和神经声码器。其中，双码本音频标记器负责将输入的音频信号转化为结构化的标记序列。这个模块分为语言标记器和语义标记器，前者提取语言的结构化特征，后者则捕捉语音的情感和语调等副语言信息。通过这种双码本设计，Step-Audio-AQAA 能够更好地理解语音中的复杂信息。

接下来，这些标记序列会被送入骨干 LLM，即 Step-Omni。这是一款预训练的1300亿参数的多模态模型，具备处理文本、语音和图像的能力。该模型采用了解码器架构，可以高效地处理来自双码本音频标记器的标记序列，通过深度的语义理解和特征提取，为后续生成自然语音做好准备。

最后，生成的音频标记序列会被送入神经声码器。该模块的作用是将离散的音频标记合成为高质量的语音波形，采用了 U-Net 架构，以确保在音频处理中的高效性和准确性。通过这种创新的架构设计，Step-Audio-AQAA 能够在听懂音频问题后，迅速合成自然、流畅的语音回答，为用户提供了更好的交互体验。

这项技术的发展代表着人机音频交互的一个重要进步，开源的 Step-Audio-AQAA 不仅为研究者提供了一个强大的工具，也为未来的智能语音应用打下了坚实的基础。

开源地址:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

划重点:
🔊 Step-Audio 团队开源的 Step-Audio-AQAA 可以直接从音频输入生成自然语音，提升人机交互体验。
📊 模型架构由双码本音频标记器、骨干 LLM 和神经声码器三个模块组成，能够高效捕捉语音中的复杂信息。
🎤 Step-Audio-AQAA 的推出标志着语音交互技术的重要进展，为未来智能语音应用提供了新思路。

相关推荐

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效
重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

标贝科技发布"十万音色·自然语音数据集"，覆盖中英双语，包含10万种音色样本（中文5万、英文5万），基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破，支持多情感表达和跨场景应用，涵盖基础情绪到特定风格，话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术，从海量数据中甄选出高质量样本，为语音识别、合成等AI模型训练提供坚实基础，助力实现更自然、真实的语音交互体验。

AI语音自然语音数据集情感识别
荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

AI日报栏目汇总近期AI领域重要进展：腾讯元宝接入DeepSeek V3.1提升智能助手能力；即梦AI推出多帧功能简化视频制作；可灵AI首尾帧功能升级效果提升235%；钉钉与通义实验室联合发布Fun-ASR语音识别大模型；腾讯CodeBuddy IDE国内版公测；Vercel发布AI Gateway简化模型调用；Anthropic整合Claude Code强化企业开发；阿里发布Mobile-Agent-v3突破GUI自动化；Qoder平台革新编程模式；清华团队GUAVA框架实现0.1秒3D化身生成；谷歌搜索新增AI Agent功能；VAST推出Tripo 3.0推动3D内容创作。

AI 腾讯元宝 DeepSeek
大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

逗哥配音作为国内领先的AI配音平台，凭借自主研发的语音合成大模型技术，已服务超千万创作者，累计生成音频量突破270亿次。其核心技术突破包括：1）支持40种语言，语音质量MOS分提升0.25，拟人度超83%；2）首创"AI分角功能"，将多角色配音效率提升90%以上；3）建成覆盖近千款发音人的全球声库，包含方言、外语及影视角色音；4）创新"真人声纹+AI增强"模式，

人工智能大模型技术 AI配音
再次定义行业创新范式跃然创新推出全球首款端到端 AI 玩具 CocoMate

8月26日，跃然创新推出全球首款搭载端到端语音模型的AI玩具CocoMate系列。该产品采用可拆卸设计，配备3000mAh电池，支持4G和WiFi网络。依托端到端技术，具备丰富交互表现和拟人化情感能力，支持多重唤醒、主题游戏及聊天室等功能。新品将于8月27日开售，首发包含奥特曼及原创IP“泡泡”等角色，后续还将上线财神爷、塔罗猫等系列，目标人群从儿童延伸至成年人。

文章搜索核心标签内容检索
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5，与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出；Claude4Opus编程优异(72.5%)但数学较弱(33.9%)；Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面，GPT-5和Gemini2.5Pro定价相近($1.25-$10)，Claude4Opus较高($15-$75)。建议根据需求选择：GPT-5适合综合应用，Claude4Opus适合专业编程，Gemini2.5Pro适合长文档�

GPT-5发布大语言模型性能对比
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今晚，阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V，并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程，仅需提供一张静态图片和一段音频，模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成，不止嘴动，手势、表情、姿态都能动。

视频生成模型通义万相数字人视频

今日大家都在搜的词：

热文

3 天
7天

开源端到端语音大模型Step-Audio-AQAA：听懂音频直接生成自然语音

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

再次定义行业创新范式跃然创新推出全球首款端到端 AI 玩具 CocoMate

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI的开源模型现已在IBM watsonx.ai上提供

GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今日大家都在搜的词：

热文

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

李国庆婚礼收到11万余元善款受助学生寄来祝福

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

站长商机