豆包实时语音大模型正式上线！端到端语音对话情商智商双高

2025-01-20 16:32 · 稿源：快科技

豆包实时语音大模型震撼上线，全方位提升语音交互体验！

今日，字节跳动豆包大模型团队隆重推出豆包实时语音大模型，现已在豆包App全量开放。升级至7.2.0版本即可亲身体验这一语音交互领域的重大突破。

豆包实时语音大模型集语音理解和生成于一体，打造端到端语音对话。与传统的级联模式相比，其在语音表现力、控制力、情绪承接方面展现出卓越性能，且具备低时延和随时打断对话等特性。

该模型专为中文语境和场景设计，采用语音和语义联合建模，赋予其丰富的表现力，呈现出接近真人水准的语音表达。通过学习角色语音和情感特点，模型具备强大的讲故事能力，可生动切换不同角色/状态，配合不同情绪表达，提升交互趣味性和沉浸感。

联合建模后，模型涌现出非凡的指令理解、声音扮演和声音控制能力。目前，模型部分方言和口音的识别源自Pretrain阶段数据泛化，而非针对性训练。

豆包实时语音大模型输出的语音高度逼近真人，包括类人的副语言特征（如语气词、停顿思考等）。同时，实时联网功能赋予模型获取最新信息的强大能力，对时效问题可精准、及时地回应。

技术展示表明，该模型语音语气自然度和情绪饱满度逼近真人，对话风格更加拟人，情感理解更加深刻，对用户的情绪做到较好承接。不过，现阶段模型仅支持中文，其他语种和方言的支持仍在探索中。

（举报）

相关推荐

关键词：

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐张一鸣向双11扔了一个豆包

“AI导购”正成为国内外大厂的竞逐焦点。 9月29日，ChatGPT上线Instant Checkout（即时结账）功能，首批接入美国手工艺品电商平台Etsy，以及全球最大电商独立站平台Shopify。用户无需跳转至第三方平台，在ChatGPT内部即可完成购物。国内互联网公司中，淘宝8月下旬开始测试“AI万能搜”，用户提问后，淘宝会推荐购买攻略、商品口碑、优惠信息等。今年双11期间，淘天一口气推出�

AI导购 ChatGPT购物淘宝AI
荐豆包们，开始“上链接”

豆包，开始“带货”了。近期有用户发现，在和豆包对话时，其回复中嵌入了抖音商城的商品链接，尤其是涉及消费类话题时，出现频次不低。不止豆包，腾讯元宝、文小言、Kimi等这类C端用户高频使用的智能助手类工具，也都在默默“上链接”。国外的ChatGPT更是与沃尔玛展开合作，用户能直接在聊天界面内完成下单支付。从回答问题到推荐商品，这意味着AI工具正在迎来�

豆包带货 AI商业化 AI工具带货
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作

今日大家都在搜的词：

热文

3 天
7天

豆包实时语音大模型正式上线！端到端语音对话情商智商双高

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

荐MiniMax让AI语音有了新基建

荐张一鸣向双11扔了一个豆包

荐豆包们，开始“上链接”

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

华为Mate70 Air官宣今日开启预售

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机

豆包实时语音大模型正式上线！端到端语音对话 情商智商双高

今日大家都在搜的词：

热文

站长商机

豆包实时语音大模型正式上线！端到端语音对话情商智商双高