首页 > 传媒 > 关键词  > 声音克隆最新资讯  > 正文

声音克隆革命!出门问问 TicVoice 7.0 开启“零门槛”广播级AI配音新时代

2025-03-07 14:54 · 稿源: 站长之家用户

出门问问(02438.HK)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等研究机构,共同开源新一代语音生成模型 Spark-TTS,并重磅推出了Spark-TTS 的商业化高品质 TTS 引擎:TicVoice7.0。

TicVoice7.0作为出门问问的第七代 TTS 引擎,能在不借助额外生成模型的辅助下(比如基于flow matching进一步预测声学特征),仅用语言模型(序列猴子)以单阶段、单流方式实现 TTS 生成。它不仅具备超自然的语音克隆与跨语种生成能力,还可根据用户需求定制精品专属声音。

目前,出门问问已经将 TicVoice7.0落地于旗下AI配音产品「魔音工坊」,为用户带来了更好的服务及效果体验,包括 SOTA 的3秒语音克隆能力、更卓越的精品发音人定制效果等,在客服、有声书、情感直播、影视解说、影视配音等应用场景下带来更较好的的用户体验。

TicVoice7.0:开启全新语音编码范式,技术 Buff 叠满

出门问问自2012年成立以来,便坚持在人工智能语音领域深耕,不断迭代 TTS 引擎。凭借深厚的技术积累及先进的产品应用经验,出门问问先后推出了「魔音工坊」「奇妙元」「元创岛」等语音或搭载语音功能的产品,牢牢占据领先行业的技术与产品生态位。

近日,出门问问联合国内外先进的学术研究机构香港科技大学、上海交通大学、南洋理工大学、西北工业大学,开源了新一代语音生成模型 Spark-TTS,并发布于开源社区 SparkAudio。

模型一经发布,便迅速登上 Hugging Face 趋势榜 TTS 前二名,且增长势头强劲。而伴随着相关论文的发布,Spark-TTS 再次点燃学术圈的热情。

Spark-TTS 或者说 TicVoice7.0何以引发如此重大反响? 最重要的原因在于,它为行业带来了全新的语音编码范式,且实现了建模结构与文本 LLMs 结构的高度统一:

直击主流语音 token 痛点

TicVoice7.0和Spark-TTS提出了一种全新的语音编码方式,可有效解决主流语音离散编码存在的两大核心问题:

单码本的语义 token 需要经过多个阶段才能生成声学特征,在大语言模型的自回归建模过程中,难以对音色等属性进行准确控制。

声学编码通常依赖多个码本,导致模型设计复杂化,同时缺乏与语义的强关联性,增加了预测的不确定性和难度。

BiCodec示意图

如图所示,BiCodec 将输入语音编码为互补的两部分,即固定序列长度的 Global Token 和低码率的 Semantic Tokens(50TPS, token per second):

Global Token 负责建模时序无关的全局特征(如音色),确保语音生成的全局可控性。

Semantic Tokens 以 wav2vec2.0提取的特征为输入,编码与文本紧密相关的信息,确保语义的强相关性。

这种设计使 BiCodec 既能利用 Semantic Tokens 的低码率和强语义关联性,同时又能在自回归语言模型中实现对音色等属性的准确控制,兼顾有效性与可控性。

实现建模结构与文本 LLMs 结构的高度统一

BiCodec 采用全离散、单流的编码方式,使语音 token 的建模与文本 token 的建模完全统一:

统一的模型结构:Spark-TTS直接复用 Qwen2.5的原生架构,并扩展其 Tokenizer 以支持语音相关 token,使 Spark-TTS 的建模方式与文本建模高度一致。

属性控制:通过引入属性标签(如性别、基频等级)和细粒度属性值(如比较准确基频),Spark-TTS 以文本+属性标签为输入,采用链式思考(CoT, Chain of Thought)的方式,依次预测细粒度属性值 → Global Tokens → Semantic Tokens,从而实现音色生成高度可控。

Spark-TTS的语言模型示意图

再度刷新行业语音克隆能力标准,极大提升用户体验

TicVoice7.0展现出卓越的语音克隆能力,尤其在跨语言声音克隆方面表现出色。我们分别将其与出门问问上一代产品 MeetVoice Pro及国内外优秀的同类产品做了评测,发现 TicVoice7.0在“3秒克隆”和“好Pro-精品发音人”方面领先优势明显。

让 AI “说人话”,大大提升情感表现力

TicVoice7.0能够在3秒内敏锐地捕捉声纹特征,让AI不仅能“说人话”,更能模仿人类的叹息、停顿。相比上一代的语音大模型,TicVoice7.0的效果得到全面提升,3秒克隆经评测,其国际通用 MOS 评分从3.9提升至4.2。其在音色相似度、情感表现以及稳定性上都有近10%的提升。总体而言,新一代语音大模型在听感上更自然、更悦耳、更稳定、情感表现力更强,可有效提升用户在客服、情感直播、有声书等场景的体验。

个性化定制更加准确,轻松获得播音级配音体验

TicVoice7.0支持用户通过调整性别、语速、基频等多种属性(即将上线),准确塑造独特的声音风格。尤其在“好 Pro-精品发音人”定制方面,用户可通过20-200句语料获得获得播音级的专业配音体验。

相比上一代的语音大模型,TicVoice7.0在国际通用 MOS 分数上从4.3提升至4.7。这意味着语音生成效果非常自然的,语音达到了广播级水平,普通人很难区分合成语音和广播语音的区别。总体而言,新一代语音大模型的语音更加清晰流畅、悦耳动听、容易理解、易于接受,可真正应用于影视/游戏角色配音等场景,为定制用户带来专业级体验。

TicVoice7.0的发布不仅标志着出门问问在人工智能语音生成领域的又一次重大突破,更通过开源生态与产学研深度协同,为行业发展注入了新动能。

未来,出门问问将持续深化与先进学术机构的合作,不断提升用户的产品体验,探索语音生成技术与多模态 AI 的融合边界,从“听得懂”到“听得真”,从“能表达”到“有情感”,让 AI 真正成为人类情感与智慧的延伸。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • Agentic AI落地加速:迈富时企业级智能体中台2.0,让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首,预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台,通过"技术赋能+场景落地"双轮驱动,构建了从模型能力到业务价值的闭环。该平台具有三大核心优势:1)"模型-应用-开发平台"三位一体架构;2)ChatBox+工作流双开发模式,支持快速部署;3)企业级安全保障,满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用,最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队,真正释放代理型AI的战略价值。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 奔跑的爱缺少主角的声音!歌手乐队招募,每个声音都值得被珍藏!

    “奔跑的爱·快递小歌”音乐作品征集活动引发全国关注,但暴露出快递员群体参与度低的现实问题。活动虽收到105首歌曲和137篇歌词,但快递小哥报名者寥寥。项目组推出三大行动呼吁企业推荐员工、开辟绿色投稿通道、号召同行转发,并提供品牌植入舞台等专属权益。这场专为千万快递人打造的音乐会,能否真正让主角站上舞台,取决于行业企业的支持力度。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • Matrixport 旗下 Cactus Custody 与 OnChain 合作,完成招银国际美元货币市场基金化上链

    新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作,将招商国际美元货币市场基金以化形式上链运营,成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点,通过链上净值计算、白名单管理等机制,为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作,推动RWA标准化发展。

  • itc保伦股份荣获音响行业“2024年度十大优秀公共广播品牌”奖项

    ITC保伦股份在“2024年度音响行业十大优秀品牌评选”中荣获“十大优秀公共广播品牌”奖项。该公司凭借卓越的公共广播产品、强大的技术研发实力及丰富的项目经验,在众多品牌中脱颖而出。ITC深耕行业30余年,自主研发覆盖公共广播、IP广播、消防应急广播等数十款产品,广泛应用于政府、教育、文体场馆等领域,市场占有率领先。其AI定向广播系统采用先进声学技术,实现精准声音管理,有效解决校园噪音等问题。未来,ITC将继续坚持创新,推动行业高质量发展。

今日大家都在搜的词: