首页 > 传媒 > 关键词  > 声音克隆最新资讯  > 正文

声音克隆革命!出门问问 TicVoice 7.0 开启“零门槛”广播级AI配音新时代

2025-03-07 14:54 · 稿源: 站长之家用户

出门问问(02438.HK)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等研究机构,共同开源新一代语音生成模型 Spark-TTS,并重磅推出了Spark-TTS的商业化高品质 TTS 引擎:TicVoice7.0

TicVoice7.0作为出门问问的第七代 TTS 引擎,能在不借助额外生成模型的辅助下(比如基于flow matching进一步预测声学特征),仅用语言模型(序列猴子)以单阶段、单流方式实现 TTS 生成。它不仅具备超自然的语音克隆与跨语种生成能力,还可根据用户需求定制精品专属声音。

目前,出门问问已经将 TicVoice7.0落地于旗下AI配音产品「魔音工坊」,为用户带来了更好的服务及效果体验,包括SOTA 的3秒语音克隆能力、更卓越的精品发音人定制效果等,在客服、有声书、情感直播、影视解说、影视配音等应用场景下带来更较好的的用户体验。

TicVoice7.0:开启全新语音编码范式,技术 Buff 叠满

出门问问自2012年成立以来,便坚持在人工智能语音领域深耕,不断迭代 TTS 引擎。凭借深厚的技术积累及先进的产品应用经验,出门问问先后推出了「魔音工坊」「奇妙元」「元创岛」等语音或搭载语音功能的产品,牢牢占据领先行业的技术与产品生态位

近日,出门问问联合国内外先进的学术研究机构香港科技大学、上海交通大学、南洋理工大学、西北工业大学,开源了新一代语音生成模型 Spark-TTS,并发布于开源社区 SparkAudio

模型一经发布,便迅速登上Hugging Face 趋势榜 TTS 前二名,且增长势头强劲。而伴随着相关论文的发布,Spark-TTS 再次点燃学术圈的热情。

Spark-TTS 或者说 TicVoice7.0何以引发如此重大反响? 最重要的原因在于,它为行业带来了全新的语音编码范式,且实现了建模结构与文本 LLMs 结构的高度统一:

直击主流语音 token 痛点

TicVoice7.0和Spark-TTS提出了一种全新的语音编码方式,可有效解决主流语音离散编码存在的两大核心问题:

单码本的语义 token 需要经过多个阶段才能生成声学特征,在大语言模型的自回归建模过程中,难以对音色等属性进行准确控制。

声学编码通常依赖多个码本,导致模型设计复杂化,同时缺乏与语义的强关联性,增加了预测的不确定性和难度。

BiCodec示意图

如图所示,BiCodec 将输入语音编码为互补的两部分,即固定序列长度的 Global Token低码率的 Semantic Tokens(50TPS, token per second):

Global Token负责建模时序无关的全局特征(如音色),确保语音生成的全局可控性。

Semantic Tokens以 wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息,确保语义的强相关性。

这种设计使 BiCodec既能利用 Semantic Tokens 的低码率和强语义关联性,同时又能在自回归语言模型中实现对音色等属性的准确控制,兼顾有效性可控性

实现建模结构与文本 LLMs 结构的高度统一

BiCodec 采用全离散、单流的编码方式,使语音 token 的建模与文本 token 的建模完全统一:

统一的模型结构:Spark-TTS直接复用 Qwen2.5的原生架构,并扩展其 Tokenizer 以支持语音相关 token,使 Spark-TTS 的建模方式与文本建模高度一致。

属性控制:通过引入属性标签(如性别、基频等级)和细粒度属性值(如比较准确基频),Spark-TTS 以文本+属性标签为输入,采用链式思考(CoT, Chain of Thought)的方式,依次预测细粒度属性值 → Global Tokens → Semantic Tokens,从而实现音色生成高度可控。

Spark-TTS的语言模型示意图

再度刷新行业语音克隆能力标准,极大提升用户体验

TicVoice7.0展现出卓越的语音克隆能力,尤其在跨语言声音克隆方面表现出色。我们分别将其与出门问问上一代产品 MeetVoice Pro及国内外优秀的同类产品做了评测,发现TicVoice7.0“3秒克隆”和“好Pro-精品发音人”方面领先优势明显

让 AI “说人话”,大大提升情感表现力

TicVoice7.0能够在3秒内敏锐地捕捉声纹特征,让AI不仅能“说人话”,更能模仿人类的叹息、停顿。相比上一代的语音大模型,TicVoice7.0的效果得到全面提升,3秒克隆经评测,其国际通用 MOS 评分从3.9提升至4.2。其在音色相似度、情感表现以及稳定性上都有近10%的提升。总体而言,新一代语音大模型在听感上更自然、更悦耳、更稳定、情感表现力更强,可有效提升用户在客服、情感直播、有声书等场景的体验。

个性化定制更加准确,轻松获得播音级配音体验

TicVoice7.0支持用户通过调整性别、语速、基频等多种属性(即将上线),准确塑造独特的声音风格。尤其在“好 Pro-精品发音人”定制方面,用户可通过20-200句语料获得获得播音级的专业配音体验。

相比上一代的语音大模型,TicVoice7.0在国际通用 MOS 分数上从4.3提升至4.7。这意味着语音生成效果非常自然的,语音达到了广播级水平,普通人很难区分合成语音和广播语音的区别。总体而言,新一代语音大模型的语音更加清晰流畅、悦耳动听、容易理解、易于接受,可真正应用于影视/游戏角色配音等场景,为定制用户带来专业级体验。

TicVoice7.0的发布不仅标志着出门问问在人工智能语音生成领域的又一次重大突破,更通过开源生态与产学研深度协同,为行业发展注入了新动能。

未来,出门问问将持续深化与先进学术机构的合作,不断提升用户的产品体验,探索语音生成技术与多模态 AI 的融合边界,从“听得懂”到“听得真”,从“能表达”到“有情感”,让 AI 真正成为人类情感与智慧的延伸。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 阿里QwQ-32B API接口服务上线国家超算互联网:零门槛部署 免费100万Tokens

    本周,超算互联网平台上线阿里巴巴开源推理模型QwQ-32BAPI接口服务,现在用户可获得免费的100万Tokens。基于国产深算智能加速卡以及全国一体化算力网,平台支持海量用户便捷调用QwQ-32B、DeepSeek-R1等国产开源大模型的接口服务。阿里已采用宽松的Apache2.0协议,将千问QwQ-32B模型向全球开源,所有人都可免费下载及商用。

  • analytica China 2026 早鸟优惠报名限时开启

    国家持续加码科技创新与高端仪器国产化战略,为分析、生化技术、诊断和实验室技术领域注入强劲动能。2024年以来,中央财政对设备更新贷款实施贴息政策,显著降低企业研发成本;同时,国务院《推动大规模设备更新行动方案》统筹内需与产业升级,加速先进设备生产应用,为实验室设备市场释放需求。2024年,慕尼黑博览集团迎来成立60周年。

  • 开启DLSS 4 步入4K游戏新门槛,耕升 GeForce RTX 5070 踏雪 OC 灵动来袭!

    耕升为各位玩家带来一位高颜值新成员——耕升GeForceRTX5070踏雪OC!一直以来,耕升“踏雪”系列凭借纯白灵气的外观和高性能,备受玩家的喜爱。3DMark测试数据对比首先使用3DMark软件对GPU进行基准测试,从测试结果上来看,耕升GeForceRTX5070踏雪OC在多个数据指标上与GeForceRTX4070SUPER和GeForceRTX4070相比均有明显的性能提升。耕升将采用耕升GeForceRTX5070踏雪OC以及前代显卡GeForceRTX4070SUPER和GeForceRTX4070三张显卡进行测试。

  • AI TV”浪潮汹涌而至,颠覆性电视体验的新时代悄然到来

    进入2025,DeepSeek助推了AI狂潮,手机助手、智能音箱、车机系统,甚至是键盘鼠标都纷纷接入大模型,AI正在重构我们的产品体验。两年前我们或许还能说“暂时还看不到AI对我们现实生活的实际影响”,短短两年过去,AI对我们生活的影响已经渗透到方方面面。3月的三星AITV新品,让我们共同期待三星对VisionAI的诠释。

  • 鹅厂x鸭厂联合打造首个微信小程序AI点单,开启AI消费体验新时代

    3月11-12日,由中国商业联合会、红餐网联合主办,以“破茧·新生”为主题的2025中国餐饮产业节在成都世纪城国际会议中心盛大召开。本届盛会汇聚超千家企业、数万名行业从业者6000人,成为餐饮行业共谋高质量发展的年度风向标。这种模式不仅提升单店运营效率,更通过数据驱动实现全国万家门店的协同管理,推动行业从经验决策向智能决策转型升级。

  • 羊小咩携手AI,引领智能消费新时代

    步入 21 世纪,人工智能(AI)作为一项颠覆性技术,正以破竹之势渗透至全球经济社会生活的方方面面,其影响力如涟漪般不断扩散。AI不仅深刻地重塑着各行各业的生产模式与业态格局,更在悄无声息间调整着人与技术的相处之道,革新着人与社会的互动界面,开启人类情感体验的新纪元。在消费领域,AI技术的融入显著提升了消费者的体验维度,为追求品质生活的群体带来�

  • 三星AI神家电技术硬核登场AWE 2025,以AI赋能开启智能家居新时代

    3月20日至23日,三星携众多前沿产品与创新技术亮相AWE2025,在逾1500㎡的超大展示空间内上演了一场科技与生活深度融合的盛宴。在其精心打造的展区中,生活家电技术大放异彩,成为全场关注的焦点。三星将继续引领行业发展,为消费者创造更加有AI的科技·艺术·家。

  • 星世线STARAY:开启职场足部舒适新时代,引领行业变革浪潮

    2024年盛夏,东航、海航等多家航空公司做出了一项令人瞩目的决策:废除空姐高跟鞋强制规定,允许乘务员穿着平底鞋上岗。这一消息如同一颗投入舆论湖面的巨石,激起千层巨浪。这场发端于民航客舱的变革,恰似春风拂过大地、细雨滋润万物,正逐渐且深刻地融入每一位职场人的日常行动之中,为职场生活带来全新的舒适体验与积极改变。

  • 告别复杂指标!巨富金业 “六脉神剑” 开启智能交易新时代

    一、交易难题:散户投资困境剖析 在贵金属交易的世界里,普通投资者常常陷入重重困境。技术分析如同难以翻越的高山,K 线、均线、MACD 等指标让人摸不着头脑;市场波动剧烈,伦敦金日均波幅超 30 美元,投资者稍有不慎就会错过最佳买卖时机;信息的海洋更是让人迷失方向,专家观点相互矛盾,让人难以抉择。据权威数据显示,普通投资者每年因无效操作损失的“学费�

  • 攻坚加密资管三重困境,Cactus Custody 掀起加密资管革命

    当传统资管机构加速布局加密市场,三重现实困境浮出水面。普华永道数据显示,67%的机构因审计追溯困难搁置配置计划;复杂操作流程导致28%套利机会流失;香港VASP新规实施后,31%国际机构因合规成本退出亚洲市场。当市场波动成为常态,选择拥有多重国际认证、五维安全架构、七年技术积淀的托管伙伴,或许正是穿越周期的最佳风控策略。

热文