首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

豆包实时语音大模型正式上线!端到端语音对话 情商智商双高

2025-01-20 16:32 · 稿源: 快科技

豆包实时语音大模型震撼上线,全方位提升语音交互体验!

今日,字节跳动豆包大模型团队隆重推出豆包实时语音大模型,现已在豆包App全量开放。升级至7.2.0版本即可亲身体验这一语音交互领域的重大突破。

豆包实时语音大模型集语音理解和生成于一体,打造端到端语音对话。与传统的级联模式相比,其在语音表现力、控制力、情绪承接方面展现出卓越性能,且具备低时延和随时打断对话等特性。

该模型专为中文语境和场景设计,采用语音和语义联合建模,赋予其丰富的表现力,呈现出接近真人水准的语音表达。通过学习角色语音和情感特点,模型具备强大的讲故事能力,可生动切换不同角色/状态,配合不同情绪表达,提升交互趣味性和沉浸感。

联合建模后,模型涌现出非凡的指令理解、声音扮演和声音控制能力。目前,模型部分方言和口音的识别源自Pretrain阶段数据泛化,而非针对性训练。

豆包实时语音大模型输出的语音高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等)。同时,实时联网功能赋予模型获取最新信息的强大能力,对时效问题可精准、及时地回应。

技术展示表明,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。不过,现阶段模型仅支持中文,其他语种和方言的支持仍在探索中。

举报

  • 相关推荐
  • 对标豆包!微信输入法iOS版3.0开启内测:支持方言语音输入

    微信输入法自上线以来,凭借无广告、界面简洁、支持PC联动等特点获得良好口碑。近期,豆包输入法正式上线,给微信团队带来竞争压力。目前iOS微信输入法已开启3.0版本内测,主要升级了语音输入体验,包括模型升级、支持更多方言和英文识别、超长语音记录及待机时长功能。新版本语音识别准确度高,甚至能自动标注标点。不过,多数用户仍不习惯语音输入,对于习惯打字的用户而言,此次升级体验变化不大。

  • 豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

    今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

  • 豆包输入法iOS版迎来首次更新!优化耗电、语音输入更方便了

    日前,豆包输入法iOS版迎来发布后的首次更新,最新版本升级至0.8.1。 本次更新重点优化了耗电表现、设置首页样式,并新增语音输入后的修改推荐功能,同时修复了多项已知问题,整体体验进一步完善。

  • 豆包输入法官宣正式上线:搭载豆包App同款语音模型

    豆包输入法于11月25日正式上线,为输入法市场注入新活力。目前安卓用户可通过官网和应用商店下载,iOS版即将推出。该输入法依托豆包App同款语音模型,在语音识别和语义理解方面表现卓越,支持多种方言、英语及中英混合输入,错误率比其他输入法低20%-50%。键盘输入同样出色,能自动纠错并智能预测后续内容。此外,页面简洁无广告,支持离线语音输入,操作便捷高效,有望成为用户新选择。

  • 豆包更新语音对话功能:能讲粤语、四川话等4种方言

    豆包语音对话功能近日更新,新增粤语、四川话、东北话及陕西话4种方言对话能力。用户通过文字或语音指令,即可让豆包用指定方言交流,并默认使用“温柔桃子”升级版音色。该功能借助语音模型方言迁移技术,实现单音色说多方言,具备思考能力,可根据用户意图灵活切换。除上述4种方言外,豆包还能听懂上海话、南京话等18种方言,其语音识别技术准确性与效率显著提升。

  • AI日报:AI动画神器Seko 2.0上线;超强语音模型Qwen3-TTS发布;2025 年度字词候选公布

    本文介绍了近期AI领域多项重要进展:阿里发布Qwen3-TTS语音合成模型,支持49种音色和10种语言;推出全模态大模型Qwen3-Omni-Flash,支持实时流式交互。谷歌上线Gemini TTS 2.5,具备情绪化表达和多语言支持。商汤科技推出Seko 2.0,可一句话生成百集连贯动画。此外,DeepSeek入选年度汉字候选,Adobe与ChatGPT合作推出图像与PDF编辑功能,腾讯元宝AI推出QQ群消息总结功能,以及ChatGPT登顶美国苹果应用商店免费榜。这些进展展示了AI技术在语音、多模态、内容生成及日常应用方面的快速发展与普及。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 字节跳动旗下豆包输入法上线苹果App Store

    豆包输入法iOS版已于11月27日登陆苹果App Store,需iOS 15.0及以上系统。提供完整体验与基础打字两种模式:完整模式需联网,可能申请通讯录等权限以提供丰富功能;基础模式主打简洁,不收集数据但缺失语音输入等实用功能。输入法支持9键/26键、多方言混输、智能联想、剪贴板等工具,承诺全力保护用户隐私。启用需在系统键盘设置中添加,有望凭借丰富功能与便捷操作占据iOS输入法市场一席之地。

  • “抖音反诈”上线智能服务,实时对话帮用户识破套路

    面对日益复杂的网络电信诈骗,抖音持续加强反诈能力建设,除持续升级验证助手外,再添智能化反诈新工具。官方智能防护助手“抖音反诈”已上线新功能,新增全天候智能服务。该账号核心内容包括教育与预警新型骗局,分享实用防骗技巧,加强用户防诈意识。用户遭遇风险时,可通过搜索“抖音反诈”进入账号,关注后打开私信页面描述问题并发送,即可获得反诈相关内容的回应。智能体将基于抖音反诈知识库与高发骗局识别模型,对用户发送的问题进行实时分析、响应,提供具体的甄别建议与验证方式,实现从咨询、验证到举报的一站式服务。此功能是抖音在反诈工具上的持续升级。未来,抖音将继续通过技术升级与知识普及,系统化拆解诈骗手法,及时发布风险预警,助力用户精准识别风险,与用户共建更安全的网络环境。

  • 抖音副总裁李亮评价豆包手机:中兴和豆包的探索是一个开始

    日前,豆包手机引发业内关注与网友热议。 今日,抖音副总裁李亮发文称:AI带来的变革是真实存在的,用户的需求也是真实存在的。” 他表示,豆包和中兴的探索是一个开始,不论这次是不是会成功,但AI一定是未来。

今日大家都在搜的词: