首页 > 传媒 > 关键词  > 正文

出门问问TTS引擎全面升级MeetVoice Pro,轻量数据极速克隆,情感效果媲美真人

2024-02-02 16:21 · 稿源: 站长之家用户

随着文本大模型技术的崛起,语音合成领域正迅速适应这一变革,基于大模型的语音合成技术因其卓越性能而成为行业趋势。

尽管传统语音合成在音质和韵律方面已高度仿真,但在有声书、自然对话等复杂场景的情感与语调细节上仍有不足。大型语言模型(LLM)的兴起为弥补这些差距提供了新的可能性,引领语音合成技术向更真实、更自然的交互体验迈进。

自出门问问发布第 一代TTS引擎起,历经多次迭代,语音合成效果不断趋近“以假乱真”,媲美真人。

出门问问的语音合成技术不断迭代

自2015年推出初代TTS引擎以来,出门问问通过不断迭代,显著提升了语音合成的真实度。2019年8月,我们发布了先进的第四代引擎MeetVoice,集成至其产品线和ToB服务,并在「魔音工坊」中实现上千款声音的大规模应用,获得广泛好评。面对短视频市场的快速增长和用户对高仿真语音的需求,我们不断优化MeetVoice引擎,增添了包括停顿调节、高清音质、语调控制等多项功能。

现在,出门问问的自研大模型「序列猴子」取得显著突破,其以语言为核心的能力体系,涵盖“知识、对话、数学、逻辑、推理、规划”六个维度。特别的是,该模型拥有优秀的跨模态知识迁移能力,能够将语言模型所涵盖的常识知识有效转化应用于其他非语言模态的模型当中。基于此技术,开发团队利用前沿的文本大模型技术构建了一套先进的语音合成系统——MeetVoice Pro,即出门问问第六代TTS引擎。该系统基于序列猴子的文本模型能力,通过对海量语音样本的深度学习训练,能够产生极富自然感和表现力的合成声音,使AI配音的效果已然接近真实人声的水准。

「序列猴子」赋能语音合成引擎

为了深入理解我们所开发的新一代语音合成引擎的技术要点,让我们逐步梳理其核心架构。

01语音token化

首先,我们需解决的关键问题是将语音信号有效转化为机器可处理的形式。不同于文本数据的离散特性,语音信号呈现为一种连续波形,这为语音合成引擎带来了初始的挑战。针对这一难题,我们采纳了行业内广泛认可的Encoder-Decoder架构策略,以实现对连续语音信号的有效离散化处理。通过本架构,语音数据首先被分解为一系列离散单元,即所谓的“语音tokens”。这一过程不仅为后续的语音生成打下了坚实基础,同时也保证了合成语音的自然度和流畅性。

语音编解码器架构图

02对文本及语音token进行建模

在进行文本和语音token的建模过程中,我们自研的大型序列模型「序列猴子」扮演了重要角色。该模型利用其先进的文本基座(underlying textual foundation)能力,实现了对多音字、韵律和上下文关系的深入理解和准确模拟,进而将这些文本属性有效地映射(或迁移)到语音领域。通过这种方式,「序列猴子」不仅提高了语音token的生成质量,也增强了模型对复杂语音现象的处理能力。

基于大模型「序列猴子」的语音合成框架

三个优势 促成真实人声感受

在新框架的支持下,本次的语音合成技术呈现出了三个突出的优势,在真实性方面获得了极大的提升。

01自动调节情感和韵律

新技术可以在讲述一个悲伤的故事时降低音调,增加柔和度,或者在分享兴奋的新闻时提升语速,加强语气的振奋感。如此智能的调节,让合成语音的体验更加自然、富有表现力,仿若置身于真实的人类对话之中。

02声音克隆仅需数秒

声音克隆变得异常有效,它能够快速学习仅数秒钟的音频样本,生成高度逼真的音频,这样一来,传统耗时的录音过程和训练过程将成为历史。例如,我们能够用埃隆·马斯克和史蒂夫·乔布斯短暂的原声录音,仅需等待数秒,轻而易举地克隆出非常相似的声音。

03跨语种音色迁移

该技术具备强大的跨语言能力,已实现将不同语言的音频无缝转换为同音色中文或英文,小语种发音者能够流畅地使用中文或英文进行交流。比如,我们可以让一位母语为泰语的女孩使用自己的音色来流利地用英文做自我介绍,用中文背诵古诗。

好发音人 适用多个场景

在众多已上线的发音人中,我们经过优中选优,甄选出一批既独特又品质出众的声音,推荐给广大内容创作者使用。

01有声书

02影视解说

03其他特色

限时免费 体验有礼

1月31日至2月28日期间,「魔音工坊」推出特别活动,好发音人系列将对所有SVIP会员免费开放,非会员用户可使用CDK兑换码 AIGC2024 免费获得1天SVIP会员进行体验。欢迎点击以下小程序使用相应发音人。

您在体验过程中遇到任何问题或意见,均可在公众号后台即时反馈,我们将随机赠送参与者1天的SVIP会员体验资格。

目前,出门问问 AIGC 产品累计服务的用户数量已超1200万,注册用户数量超800万,其中付费的用户数量超60万。据灼识咨询行业报告,出门问问是亚洲起步最早、收入规模最 大的专注于生成式 AI 的人工智能公司。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 真我GT8 Pro阿斯顿马丁F1限量版外观公布

    真我GT8 Pro阿斯顿马丁F1限量版将于11月10日10点开售。手机采用F1车队同款激情柠撞色设计,背部印有银翼徽标和双翼空气动力学曲线,新增凹痕工艺提升握持感。UI深度定制专属开机动画、图标及GT模式。配置搭载6.79英寸2K直屏、高通骁龙8至尊版平台、7000mAh电池,支持120W有线与50W无线闪充。后置5000万主摄+5000万超广角+2亿潜望长焦,支持理光GR影像系统。此外具备满级防尘防水、超声波屏下指纹及电竞独显芯片R1,包装内含专属周边产品。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    京东在双11期间升级直播技术,推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示,用户无需额外设备即可旋转查看产品细节;JoyAI生成虚拟偶像Aura,与真人明星跨次元互动,提升趣味性。AI工具还简化直播运营,支持智能脚本和选品。这些技术打破传统直播边界,增强沉浸感和互动效率,引领电商直播创新方向。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 海尔麦浪舒适风Pro天猫首发!当日登顶行业热销榜TOP1

    海尔麦浪舒适风Pro空调新品上市即热销,半小时销量破5000套,登顶行业榜首。其核心亮点在于智慧送风技术:首次采用UWB人感雷达,能精准感知8米内人体呼吸,自动调节风感;支持1-4米定制风距,人近风柔、人离节能;多维送风技术适配多种安装位置,避免直吹不适。产品还具备AI离线语音控制、24小时制热不停机及70℃高温制冷等实用功能,显示空调市场正从基础冷暖需求转向更智能、贴心的空气体验。

  • 真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

    真我GT8 Pro阿斯顿马丁F1限量版于11月10日10:00开售。该机保留GT8 Pro强大性能,融入F1经典元素,外观采用青绿色与银翼徽标设计,配备豪华包装盒及专属周边。UI深度定制,含开机动画、GT模式等。配置包括6.79英寸2K直屏、骁龙8 Gen5平台、7000mAh电池、120W有线与50W无线快充。后置5000万三摄组合,支持理光GR影像系统及多种胶片滤镜。具备防尘防水、超声波屏下指纹和电竞独显芯片R1,提升游戏体验。

今日大家都在搜的词: