首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

豆包实时语音大模型正式上线!端到端语音对话 情商智商双高

2025-01-20 16:32 · 稿源: 快科技

豆包实时语音大模型震撼上线,全方位提升语音交互体验!

今日,字节跳动豆包大模型团队隆重推出豆包实时语音大模型,现已在豆包App全量开放。升级至7.2.0版本即可亲身体验这一语音交互领域的重大突破。

豆包实时语音大模型集语音理解和生成于一体,打造端到端语音对话。与传统的级联模式相比,其在语音表现力、控制力、情绪承接方面展现出卓越性能,且具备低时延和随时打断对话等特性。

该模型专为中文语境和场景设计,采用语音和语义联合建模,赋予其丰富的表现力,呈现出接近真人水准的语音表达。通过学习角色语音和情感特点,模型具备强大的讲故事能力,可生动切换不同角色/状态,配合不同情绪表达,提升交互趣味性和沉浸感。

联合建模后,模型涌现出非凡的指令理解、声音扮演和声音控制能力。目前,模型部分方言和口音的识别源自Pretrain阶段数据泛化,而非针对性训练。

豆包实时语音大模型输出的语音高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等)。同时,实时联网功能赋予模型获取最新信息的强大能力,对时效问题可精准、及时地回应。

技术展示表明,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。不过,现阶段模型仅支持中文,其他语种和方言的支持仍在探索中。

举报

  • 相关推荐
  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频!

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 真学霸!豆包大模型1.6正式发布:高考数学卷获144分 全国第一

    今日,字节跳动旗下火山引擎举办FORCE原动力大会,正式发布豆包大模型1.6。 新系列包括三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、Doubao-Seed-1.6-flash。 火山引擎总裁谭待表示,Doubao-Seed-1.6是首个支持256k长上下文的大模型。 以thinking模型为例,其思考能力强化,支持多模态,Doubao-Seed-1.6则支持on/off/auto三种思考模式。 在高考全国新一卷数学单科测试中,豆包大模�

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 高德地图上线“自制语音包”:把爱的人的声音录成语音包

    高德地图在520推出"自制语音包"功能,用户可录制爱人声音制作专属导航语音。心理学研究表明,亲密关系的声音能提升安全感,降低路怒和事故概率。操作简单:打开APP进入"语音包"页面,录制3句话即可生成,10分钟后可使用。该功能支持录制趣味段子,让行程更温馨,适合异地恋情侣分享声音陪伴。

  • 东风汽车奕派007接入豆包大模型

    东风汽车旗下电动品牌奕派推出2025款奕派007,全面接入豆包大模型,实现三大智能化创新:1)毫秒级响应的全场景语音交互,支持10个高频指令同时处理;2)"情绪管家"模式可主动提供娱乐内容调节驾乘情绪;3)结合AIGC技术实现旅途画面一键艺术化创作分享。该车型通过智能决策能力和个性化服务重构人车关系,定位为Z世代"AI搭子"。未来将与火山引擎合作探索更多智能出行场景,构建差异化竞争力。

  • 499元起 荣耀手表Fit发布:搭载Deepseek语音对话 23天长续航

    今日,荣耀手表Fit正式发布,带来雅致版、活力版两种版本,售价分别为499元和699元。 荣耀手表Fit采用1.32英寸圆形AMOLED屏幕,466*466分辨率,活力版为硅胶表带、雅致版为皮表带,表体尺寸(长/宽/高)44mm x 44mm9.9mm,含表带重约44g。 荣耀手表Fit搭载Deepseek语音对话、支持AI语音对话,首发健康能量评估,可全天候计算身体能量值,并随着白天活动和睡眠状态灵敏调整,智能提醒

  • 豆包上线视频通话功能:支持实时视频问答

    豆包官方微信公众号今日发文,宣布豆包App上线实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动,模型能够融合视觉与语言输入,进行综合的深度思考和创作。 据介绍,豆包本次升级基于视觉推理模型,支持联网搜索工作、生活和学习遇到的问题,随时可以和豆包视频对话。 官方表示,用户将豆包App更新到最新版后,打开�

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�