首页 > 传媒 > 关键词  > 声音克隆最新资讯  > 正文

声音克隆革命!出门问问 TicVoice 7.0 开启“零门槛”广播级AI配音新时代

2025-03-07 14:54 · 稿源: 站长之家用户

出门问问(02438.HK)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等研究机构,共同开源新一代语音生成模型 Spark-TTS,并重磅推出了Spark-TTS 的商业化高品质 TTS 引擎:TicVoice7.0。

TicVoice7.0作为出门问问的第七代 TTS 引擎,能在不借助额外生成模型的辅助下(比如基于flow matching进一步预测声学特征),仅用语言模型(序列猴子)以单阶段、单流方式实现 TTS 生成。它不仅具备超自然的语音克隆与跨语种生成能力,还可根据用户需求定制精品专属声音。

目前,出门问问已经将 TicVoice7.0落地于旗下AI配音产品「魔音工坊」,为用户带来了更好的服务及效果体验,包括 SOTA 的3秒语音克隆能力、更卓越的精品发音人定制效果等,在客服、有声书、情感直播、影视解说、影视配音等应用场景下带来更较好的的用户体验。

TicVoice7.0:开启全新语音编码范式,技术 Buff 叠满

出门问问自2012年成立以来,便坚持在人工智能语音领域深耕,不断迭代 TTS 引擎。凭借深厚的技术积累及先进的产品应用经验,出门问问先后推出了「魔音工坊」「奇妙元」「元创岛」等语音或搭载语音功能的产品,牢牢占据领先行业的技术与产品生态位。

近日,出门问问联合国内外先进的学术研究机构香港科技大学、上海交通大学、南洋理工大学、西北工业大学,开源了新一代语音生成模型 Spark-TTS,并发布于开源社区 SparkAudio。

模型一经发布,便迅速登上 Hugging Face 趋势榜 TTS 前二名,且增长势头强劲。而伴随着相关论文的发布,Spark-TTS 再次点燃学术圈的热情。

Spark-TTS 或者说 TicVoice7.0何以引发如此重大反响? 最重要的原因在于,它为行业带来了全新的语音编码范式,且实现了建模结构与文本 LLMs 结构的高度统一:

直击主流语音 token 痛点

TicVoice7.0和Spark-TTS提出了一种全新的语音编码方式,可有效解决主流语音离散编码存在的两大核心问题:

单码本的语义 token 需要经过多个阶段才能生成声学特征,在大语言模型的自回归建模过程中,难以对音色等属性进行准确控制。

声学编码通常依赖多个码本,导致模型设计复杂化,同时缺乏与语义的强关联性,增加了预测的不确定性和难度。

BiCodec示意图

如图所示,BiCodec 将输入语音编码为互补的两部分,即固定序列长度的 Global Token 和低码率的 Semantic Tokens(50TPS, token per second):

Global Token 负责建模时序无关的全局特征(如音色),确保语音生成的全局可控性。

Semantic Tokens 以 wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息,确保语义的强相关性。

这种设计使 BiCodec 既能利用 Semantic Tokens 的低码率和强语义关联性,同时又能在自回归语言模型中实现对音色等属性的准确控制,兼顾有效性与可控性。

实现建模结构与文本 LLMs 结构的高度统一

BiCodec 采用全离散、单流的编码方式,使语音 token 的建模与文本 token 的建模完全统一:

统一的模型结构:Spark-TTS直接复用 Qwen2.5的原生架构,并扩展其 Tokenizer 以支持语音相关 token,使 Spark-TTS 的建模方式与文本建模高度一致。

属性控制:通过引入属性标签(如性别、基频等级)和细粒度属性值(如比较准确基频),Spark-TTS 以文本+属性标签为输入,采用链式思考(CoT, Chain of Thought)的方式,依次预测细粒度属性值 → Global Tokens → Semantic Tokens,从而实现音色生成高度可控。

Spark-TTS的语言模型示意图

再度刷新行业语音克隆能力标准,极大提升用户体验

TicVoice7.0展现出卓越的语音克隆能力,尤其在跨语言声音克隆方面表现出色。我们分别将其与出门问问上一代产品 MeetVoice Pro及国内外优秀的同类产品做了评测,发现 TicVoice7.0在“3秒克隆”和“好Pro-精品发音人”方面领先优势明显。

让 AI “说人话”,大大提升情感表现力

TicVoice7.0能够在3秒内敏锐地捕捉声纹特征,让AI不仅能“说人话”,更能模仿人类的叹息、停顿。相比上一代的语音大模型,TicVoice7.0的效果得到全面提升,3秒克隆经评测,其国际通用 MOS 评分从3.9提升至4.2。其在音色相似度、情感表现以及稳定性上都有近10%的提升。总体而言,新一代语音大模型在听感上更自然、更悦耳、更稳定、情感表现力更强,可有效提升用户在客服、情感直播、有声书等场景的体验。

个性化定制更加准确,轻松获得播音级配音体验

TicVoice7.0支持用户通过调整性别、语速、基频等多种属性(即将上线),准确塑造独特的声音风格。尤其在“好 Pro-精品发音人”定制方面,用户可通过20-200句语料获得获得播音级的专业配音体验。

相比上一代的语音大模型,TicVoice7.0在国际通用 MOS 分数上从4.3提升至4.7。这意味着语音生成效果非常自然的,语音达到了广播级水平,普通人很难区分合成语音和广播语音的区别。总体而言,新一代语音大模型的语音更加清晰流畅、悦耳动听、容易理解、易于接受,可真正应用于影视/游戏角色配音等场景,为定制用户带来专业级体验。

TicVoice7.0的发布不仅标志着出门问问在人工智能语音生成领域的又一次重大突破,更通过开源生态与产学研深度协同,为行业发展注入了新动能。

未来,出门问问将持续深化与先进学术机构的合作,不断提升用户的产品体验,探索语音生成技术与多模态 AI 的融合边界,从“听得懂”到“听得真”,从“能表达”到“有情感”,让 AI 真正成为人类情感与智慧的延伸。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 百度发布AI开放计划:零门槛接入、亿级流量扶持、开放MCP广场

    4月25日,百度搜索开放平台推出AI开放计划,免费开放数亿流量,为开发者提供AI应用精准连接用户的渠道。该计划提供两种接入方案:AI应用和MCP Server。百度还提供丰厚开发者扶持政策,开发者可注册加入。该计划实现开发者与用户"双向奔赴",既为用户创造"即搜即得"体验,又为开发者搭建快速分发通道。接入案例显示,ProcessOn接入后单日访问量激增一倍。百�

  • 简单AI零门槛AI修图!3分钟免费生成专业级春日写真,摄影师要慌了!

    春天看什么展?看人类花枝招“展”!四月的阳光、樱花、露营趴......拍照三件套搞起来!本工具人亲测了一款零门槛、超简单、巨好用的 AI 神器——搜狐简单 AI,从拍照到文案一站式搞定,全程不用下载,微信搜搜就能用哦~一、智能修图:路人消失术/背景替换满心期待拍出绝美的“春日花海大片”,但碰上阴天让鲜花都看起来灰突突的!还有乱入的路人甲乙丙丁和满地的�

  • 逗哥配音充值风暴来袭,会员限时折扣+高额共创分成计划,颠覆AI配音行业

    国内AI配音头部品牌"逗哥配音"宣布将于4月28日启动"宠粉狂欢节"活动,推出会员折扣叠加佣金裂变双重优惠。平台拥有近千款真人级音色库,支持方言适配和智能情绪调节,日均生成配音超千万条。活动期间购买半年及以上会员可享八折优惠,年度会员额外获赠1个月使用权,折算后日均成本低至0.5元。平台同步升级推广机制,打破行业20%固定分成上限,推广效果达标者可获最高60%收益。数据显示,当前AI配音工具渗透率不足30%,逗哥凭借技术降本和生态赋能,或加速行业从"功能竞争"转向"生态赋能"新阶段。

  • CADDX卡德克斯亮相北京模型博览会,开启沉浸式飞行新时代

    2025 年 4 月 18 日至 20 日,全球FPV技术领导者CADDX卡德克斯将携全系FPV无人机及智能穿戴设备全矩阵产品亮相第 23 届中国国际模型博览会。作为亚洲最具影响力的模型行业展会,此次盛会为卡德克斯提供了展示其技术实力与品牌愿景的绝佳机会。通过精心设计的沉浸式体验区,卡德克斯将为观众带来前所未有的FPV飞行科技互动,重新定义未来消费电子与娱乐的边界。CADDX卡德克�

  • 亿信华辰发布“AI+睿治”数据治理平台,开启智能治理新时代

    亿信华辰发布"AI+睿治"智能数据治理平台,标志着数据治理进入3.0智能时代。该平台融合大模型与知识图谱技术,以NLP和机器学习为核心,提供从数据标准管理到资产化的全流程智能化解决方案。平台通过三大技术突破:智能自动化降低60%人力投入、秒级实时响应异常、自适应迭代模型应对业务变化。六大核心功能覆盖数据治理全场景,包括多模态智能解析、元数据自动补齐、全流程质控等,实现数据处理效率提升3倍、人工成本降低50%、数据可用性达98%。已在制造业等多个行业头部企业落地应用,治理效率提升10倍,分析决策时效性提高40%。CEO毛大群表示,该平台将助力企业在数字化转型中抢占先机。

  • 康姿百德集团公司以科技驱动睡眠革命,开创健康睡眠新时代

    崛起中的睡眠健康巨擘:康姿百德集团公司的创新之路与品牌塑造策略康姿百德集团通过持续的产品、技术和商业模式创新,在睡眠健康领域迅速崛起。该公司采用先进材料与独特设计,开发具有竞争力的睡眠产品,并引入智能制造技术提升生产效率。同时,通过个性化服务与品牌宣传,塑造了积极的品牌形象,提升了消费者体验。在未来,康姿百德将继续推进创新,以满足�

  • 易鑫宣布年内推出汽车金融行业首个Agentic大模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • 淘赏云客:创新驱动,开启商业共赢新时代

    淘赏云客是一个创新的社会化资源分享平台,通过独特的"全民推荐"模式颠覆传统获客方式。平台覆盖工装家装、财税企服、法律服务等七大行业,实现资源高效整合。其核心优势在于:1)创新"先签单后消费"模式,商家仅需在订单成交后支付推荐奖励,大幅降低推广成本;2)依托40余城直营经验,提供标准化运营方案和专业培训;3)自主研发的智能平台连接用户与商家,实现精准匹配。平台已汇聚50万推荐人,服务超万家商家,荣获"国家高新技术企业"等多项认证,以诚信、创新的核心价值观持续引领行业变革。

  • 喜临门2024年营收87.29亿元 以AI为引擎开启智慧睡眠新时代

    喜临门2024年报显示,公司全年营收87.29亿元,在复杂市场环境下展现韧性。作为智能睡眠领域领军企业,公司在AI助眠技术、环保材料研发等方面持续突破,构建起1568项专利的技术壁垒。其核心产品AI智能床垫搭载"云动系统",通过动态调节支撑力显著提升睡眠质量,经测试用户入睡效率提升20.5%。公司近十年研发投入超12亿元,与清华大学共建"智慧睡眠联合研究中心",推动技术从"AI助眠"升级为"AI陪伴"模式。在材料创新方面,抗菌防螨床垫获多项国际认证,环保型"0胶床垫"满足高端需求。凭借完善的"研发-转化-验证"创新链条,喜临门正逐步实现从产品制造商向睡眠科技解决方案提供商的转型,巩固行业领先地位。

  • 富慧证券Rich Smart:区块链与NFT技术推动金融创新新时代

    在金融科技持续演进的浪潮中,富慧证券RichSmart始终站在行业发展的尖端,不断探索并积极采纳尖端技术。富慧证券在区块链和NFT领域的创新举措,再次证明了其在金融科技领域的领导地位。富慧证券RichSmart将继续引领金融科技的发展,为客户提供更多创新的产品和服务。