首页 > 传媒 > 关键词  > 趣丸科技最新资讯  > 正文

趣丸科技联合港中大(深圳)开源语音大模型MaskGCT,刷新全球多项SOTA

2024-10-25 19:50 · 稿源: 站长之家用户

10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,超过当前先进的同类模型。

论文链接:https://arxiv.org/abs/2409.00750

交互Demo:https://huggingface.co/spaces/amphion/maskgct

样例展示:https://maskgct.github.io/

Amphion地址:https://github.com/open-mmlab/Amphion

模型下载:https://huggingface.co/amphion/maskgct

项目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公测版地址(趣丸千音): voice.funnycp.com

模型能力全球领先,跻身首先梯队

相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于相对领先地位。显著特点如下:

1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。

2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。

3、高质量多语种语音数据集:训练于香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球比较大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。

优秀的模型离不开先进的团队。MaskGCT研发团队在语音领域拥有深厚的研究积累和原创性成果。该工作由港中大(深圳)-趣丸科技人工智能联合实验室成员完成,这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验,以及香港中文大学(深圳)国际知名水平的师资队伍。

技术范式创新,突破大模型能力边界

MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前先进的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

据介绍,MaskGCT是一个两阶段模型。在首先阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;在第二阶段,模型基于这些语义标记预测声学标记。MaskGCT遵循掩码预测学习范式。在训练过程中,MaskGCT学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的标记。通过对10万小时的自然语音进行实验,结果表明MaskGCT在质量、相似度和可理解性方面优于当前先进的零样本TTS系统。

科研成果走出实验室,应用前景广阔

MaskGCT的诞生,再次证明即使在算力受限的情况下,中国AI企业仍有勇气和底气追赶并超越西方同行。

然而,除了保持技术领先,大模型的更大价值在于走出实验室,赋能千行百业惠及千家万户,成为驱动经济增长的新质生产力。

目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。

《2024年短剧出海白皮书》显示,2023年海外市场规模高达650亿美元,约为国内市场的12倍,短剧出海成为蓝海新赛道。以“趣丸千音”为代表的产品的出现,将加速国产短剧“走出去”,进一步推动中华文化在全球不同语境下的传播。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 长安马自达EZ-60全球首秀,接入豆包大模型

    4月23日,长安马自达EZ-60在2025上海国际车展全球首发。作为品牌新能源战略转型产品,该车在美学设计、AI智能座舱、电感驾控及主被动安全性能等方面实现突破。最大亮点是全面接入豆包大模型,用户可通过语音指令实现复杂操作、互联网信息问答及短视频搜索等功能,打造"人-车-环境"跨模态交互体验。专属AI助手支持超700项功能语音调用,实现"所说即所得"的智能交互。长安马自达与火山引擎达成深度合作,将持续推进大模型在智能座舱领域的创新应用。

  • 九为健康联合华为云发布神农中医大模型智能体,解码如何用大模型重构“望闻问切”

    2025 年 4 月 11 日,在华为云生态大会上,浙江九为健康科技股份有限公司(以下简称"九为健康")正式发布基于华为云盘古大模型的"九为神农中医大模型智能体"。该解决方案依托AI技术,系统性攻克中医药研发周期长、作用机制解析困难、个性化方案制定复杂等产业难题,通过智能化手段推动中医药现代化进程,为医药全产业链提供覆盖研发、诊疗及健康管理的全流程智能服�

  • 大模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据集

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。

  • 字节AI加速文生图技术新突破,GOOG/微美息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 凯迪拉克VISTIQ亚洲首秀,搭载Momenta飞轮大模型定义豪华纯电智能出行

    4月23日,凯迪拉克在上海举办"心驰·电掣"发布会,推出亚洲首秀的VISTIQ车型。该车与Momenta深度合作,采用行业首个量产飞轮大模型技术,实现L2全场景城区辅助驾驶功能,提供"有路就能开,有位就能停"的智能体验。凯迪拉克强调不应通过堆砌硬件实现智能化,而需技术创新与用户体验并重。此次合作展现了凯迪拉克拥抱智能化的决心,也彰显了Momenta在自动驾驶领域的技术领先地位。双方将共同推动豪华纯电出行的智能化升级。

  • 阿里千问3登顶全球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • Aloudata Agent公测开启:NoETL+大模型=好数据驱动真智能,让“万数皆可问”

    4月22日,Aloudata大应科技推出自研的Aloudata Agent,这是一款基于NoETL明细语义层的分析决策智能体,旨在通过自然语言实现数据查询、归因诊断、报告生成等功能。该产品解决了企业数据分析面临的五大挑战:语义鸿沟、口径一致性、场景覆盖度、性能优化和数据权限管控。Aloudata Agent采用NL2MQL2SQL技术路径,通过指标语义层实现业务语言与数据语言的精准对齐,显著提升查询准�

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 雀发潮AI智慧KTV全球首发会 用科技重塑社交娱乐

    雀发潮AI智慧KTV全球首发会在即 科技赋能重塑娱乐社交新体验在传统KTV行业面临设备老化、场景单一、消费门槛高等瓶颈的背景下,国内创新品牌雀发潮以AI技术为核心驱动,推出全新智慧KTV解决方案,并将于 2025 年 4 月 20 日举办以“雀实很爱AI・雀实很大MAX・雀实很能打”为主题的全球首发会。这一融合智能科技、社交互动与平价消费的娱乐模式,或将为行业变革注入新动能