趣丸科技联合港中大（深圳）开源语音大模型MaskGCT，刷新全球多项SOTA

2024-10-25 19:50 · 稿源：站长之家用户

10月24日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

据介绍，MaskGCT在三个TTS基准数据集上都达到了SOTA效果，超过当前先进的同类模型。

论文链接:https://arxiv.org/abs/2409.00750

交互Demo:https://huggingface.co/spaces/amphion/maskgct

样例展示:https://maskgct.github.io/

Amphion地址:https://github.com/open-mmlab/Amphion

模型下载:https://huggingface.co/amphion/maskgct

项目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公测版地址（趣丸千音）: voice.funnycp.com

模型能力全球领先，跻身首先梯队

相较于现有的TTS大模型，MaskGCT在语音的相似度、质量和稳定性上进一步突破，尤其在语音相似度方面处于相对领先地位。显著特点如下:

1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。

2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。

3、高质量多语种语音数据集:训练于香港中文大学（深圳）和趣丸科技等机构联合推出的10万小时数据集Emilia，是全球比较大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德6种语言的跨语种合成。

优秀的模型离不开先进的团队。MaskGCT研发团队在语音领域拥有深厚的研究积累和原创性成果。该工作由港中大（深圳）-趣丸科技人工智能联合实验室成员完成，这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验，以及香港中文大学(深圳)国际知名水平的师资队伍。

技术范式创新，突破大模型能力边界

MaskGCT（Masked Generative Codec Transformer）是一个大规模的零样本TTS模型，采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明，MaskGCT在语音质量、相似度和可理解性方面优于当前先进的TTS模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

据介绍，MaskGCT是一个两阶段模型。在首先阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记;在第二阶段，模型基于这些语义标记预测声学标记。MaskGCT遵循掩码预测学习范式。在训练过程中，MaskGCT学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中，模型以并行方式生成指定长度的标记。通过对10万小时的自然语音进行实验，结果表明MaskGCT在质量、相似度和可理解性方面优于当前先进的零样本TTS系统。

科研成果走出实验室，应用前景广阔

MaskGCT的诞生，再次证明即使在算力受限的情况下，中国AI企业仍有勇气和底气追赶并超越西方同行。

然而，除了保持技术领先，大模型的更大价值在于走出实验室，赋能千行百业惠及千家万户，成为驱动经济增长的新质生产力。

目前，MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，在安全合规下，趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本，并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的理想选择平台。

《2024年短剧出海白皮书》显示，2023年海外市场规模高达650亿美元，约为国内市场的12倍，短剧出海成为蓝海新赛道。以“趣丸千音”为代表的产品的出现，将加速国产短剧“走出去”，进一步推动中华文化在全球不同语境下的传播。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。
“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈，而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试，可提升测试效率300%、降低成本30%，并将产品发布周期从"月"压缩至"周"。这不仅是技术升级，更是重构IT成本结构、实现降本增效的战略支点，助力IT部门从成本中心转型为价值创造中心。

IT预算规划数字化战略 AI大模型
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

2025年10月30日，无忧传媒在海南三亚举办“无忧之夜”年度行业盛典，湖南卫视同步推出特别节目，实现线上线下联动。科技家电品牌3i作为唯一官方合作伙伴亮相，展示旗舰产品净地站F1Pro，其蒸汽热活水洗与净水循环系统突破传统扫地机形态，实现免换水、免上下水的自循环体验，引发行业关注。盛典汇聚张韶涵、吴克群等明星及行业领袖，共话消费趋势。3i与无忧传媒达成“内容共创×技术体验”合作，未来将探索智能家电与传媒内容的深度融合，共同推动中国智造在全球的传播影响力。

无忧之夜 3i净地站F1Pro 湖南卫视
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA

今日大家都在搜的词：

热文

3 天
7天

趣丸科技联合港中大（深圳）开源语音大模型MaskGCT，刷新全球多项SOTA

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

荐MiniMax让AI语音有了新基建

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

鸿蒙智行新款享界S9官宣11月7日开订

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

阿里回应饿了么更名：正处于灰度测试阶段

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

马斯克称若发现外星人证据就公开

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

站长商机