首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

豆包实时语音大模型正式上线!端到端语音对话 情商智商双高

2025-01-20 16:32 · 稿源: 快科技

豆包实时语音大模型震撼上线,全方位提升语音交互体验!

今日,字节跳动豆包大模型团队隆重推出豆包实时语音大模型,现已在豆包App全量开放。升级至7.2.0版本即可亲身体验这一语音交互领域的重大突破。

豆包实时语音大模型集语音理解和生成于一体,打造端到端语音对话。与传统的级联模式相比,其在语音表现力、控制力、情绪承接方面展现出卓越性能,且具备低时延和随时打断对话等特性。

该模型专为中文语境和场景设计,采用语音和语义联合建模,赋予其丰富的表现力,呈现出接近真人水准的语音表达。通过学习角色语音和情感特点,模型具备强大的讲故事能力,可生动切换不同角色/状态,配合不同情绪表达,提升交互趣味性和沉浸感。

联合建模后,模型涌现出非凡的指令理解、声音扮演和声音控制能力。目前,模型部分方言和口音的识别源自Pretrain阶段数据泛化,而非针对性训练。

豆包实时语音大模型输出的语音高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等)。同时,实时联网功能赋予模型获取最新信息的强大能力,对时效问题可精准、及时地回应。

技术展示表明,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。不过,现阶段模型仅支持中文,其他语种和方言的支持仍在探索中。

举报

  • 相关推荐
  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 张一鸣向双11扔了一个豆包

    “AI导购”正成为国内外大厂的竞逐焦点。 9月29日,ChatGPT上线Instant Checkout(即时结账)功能,首批接入美国手工艺品电商平台Etsy,以及全球最大电商独立站平台Shopify。用户无需跳转至第三方平台,在ChatGPT内部即可完成购物。 国内互联网公司中,淘宝8月下旬开始测试“AI万能搜”,用户提问后,淘宝会推荐购买攻略、商品口碑、优惠信息等。今年双11期间,淘天一口气推出�

  • 豆包们,开始“上链接”

    豆包,开始“带货”了。 近期有用户发现,在和豆包对话时,其回复中嵌入了抖音商城的商品链接,尤其是涉及消费类话题时,出现频次不低。不止豆包,腾讯元宝、文小言、Kimi等这类C端用户高频使用的智能助手类工具,也都在默默“上链接”。国外的ChatGPT更是与沃尔玛展开合作,用户能直接在聊天界面内完成下单支付。 从回答问题到推荐商品,这意味着AI工具正在迎来�

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 豆包语音合成模型 2.0 重磅升级,语义理解 + 情感演绎双突破

    10月16日,火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构,具备深度语义理解能力,实现从文本朗读到情感表达的进化。对话式合成支持多轮交互,声音复刻仅需5秒即可还原音色。针对教育场景优化,复杂公式符号朗读准确率达90%,覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线,为OPPO、Keep等客户提供多场景语音服务。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

今日大家都在搜的词: