首页 > AI头条  > 正文

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

2025-08-01 14:40 · 来源: AIbase基地

由清华大学语音与语言实验室(Tencent AI Lab)联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源,标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型,以约100万小时单说话人语音数据和40万小时对话语音数据为基础,采用离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer,采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成,避免了传统TTS模型拼接片段导致的不自然过渡。此外,MOSS-TTSD具备零样本音色克隆能力,可通过上传完整对话片段或单人音频实现双人语音克隆,并支持声音事件控制,如笑声等非语言声音,赋予语音更丰富的表现力。

与市场上其他语音模型相比,MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast,韵律和自然度表现优异。然而,相较于字节跳动的豆包语音模型,其语气和节奏感略逊一筹,但在开源和免费商业使用的优势下,MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源,官方文档和在线体验Demo也已上线,为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将推动内容创作的智能化进程。未来,团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达。

地址:https://github.com/OpenMOSS/MOSS-TTSD

  • 相关推荐
  • 腾讯旗下AI工作台ima上线新功能:支持上传文件生成AI播客

    腾讯旗下AI工作台ima迎来重大升级,以活知识库 大模型的深度耦合重构知识管理体系。 此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客,Xmind思维导图经智能解析后自动沉淀为结构化知识库,共享知识库更支持关键信息置顶功能。 这些创新使得碎片化知识如同被注入生命力,通过动态重组转化为驱动组织进化的智能中枢。

  • SSD Fans评测:忆联消费级SSD AM541|强性能 高可靠 长守护

    国内知名技术社区SSD Fans对忆联消费级SSD AM541进行了深度评测。这款PCIe4.0固态硬盘采用3D NAND闪存颗粒和最新主控芯片,1TB版本顺序读取速度达7143MB/s,写入6037MB/s,远超标称值。评测显示AM541在性能、压力测试和可靠性方面表现优异,采用无缓存DRAM-Less设计配合智能SLC缓存机制,在CDM、SNIA标准测试中均展现业界领先水平。游戏实测《FF14》加载仅7.445秒,《黑神话:悟空》启动快40%,充分满足消费级用户对高性能存储的需求,展现了忆联在存储领域的技术实力。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • 马斯克称正在训练新FSD模型:约十倍参数 最快下月底发布

    马斯克今日在X上发文表示,特斯拉正在训练新的十倍参数FSD模型,如果一切顺利则可能会在下个月底准备好面向公众发布。

  • HKTWeb3 交易平台正式上线,打造链上资产与实体金融桥梁

    HKTWeb3交易平台将于2025年8月2日在香港正式上线。该平台以"安全、合规、透明"为核心,致力于连接链上资产与实体金融世界,提供六大核心业务模块:链上信托、链上贸易、链上金融、HKT钱包、交易平台和锚定资产储备。平台接受香港持牌信托公司监管,确保资金流转、交易撮合等环节的合规性。作为全球首批采用"实体承兑+链上信托"架构的数字资产平台,HKTWeb3旨在构建服务实体经济的Web3基础设施,推动数字资产在投资、支付等现实场景的应用。平台将与香港Web3科技协会合作,加速本地生态建设。

  • 迄今最先进的AI模型!ChatGPT-5具备博士级别的认知能力

    ChatGPT-5在多个领域表现出色,包括编程、数学、写作、健康和视觉感知等。 它具备增强的推理能力,能够根据对话类型选择最佳模型,并通过深度推理模型解决更具挑战性的问题。 OpenAI 表示,ChatGPT-5在知识工作方面表现卓越,其知识水平在40多种职业中均达到或超过专家水平,涵盖法律、物流、销售和工程等领域。 在基准测试中,ChatGPT-5 展现了出色的认知能力。 例如,�

  • 微云全息(NASDAQ: HOLO)提出基于LSTM加密货币价格预判技术: 投资决策的智慧引擎

    文章探讨了区块链技术兴起背景下加密货币价格预测的挑战。由于加密市场缺乏监管、波动剧烈,传统预测方法效果不佳。微云全息(NASDAQ:HOLO)提出基于LSTM神经网络的价格预测技术,通过收集清洗多维度交易数据,构建深度学习模型,显著提高了预测准确性。相比传统方法,该技术能更好捕捉价格长期依赖关系,为投资者提供个性化预测服务。未来将结合强化学习、生成对抗网络等新技术,进一步提升预测精度。

  • 用三星Galaxy Watch8系列提升跑步水平 开启训练新体验

    文章介绍三星Galaxy Watch8系列智能手表如何帮助跑步爱好者科学训练。手表通过12分钟测试将用户跑步水平分为10个等级,并基于160多项个性化训练计划生成3-5周定制方案。它能实时监测配速、步频、摄氧量等数据,分析跑步姿势平衡性,提供配速提醒和姿势指导。升级的双频GPS系统精准记录跑步轨迹,间歇训练功能可设置高低强度交替锻炼。手表如同私人教练,帮助用户循序渐进提升耐力与速度,让跑步训练更科学高效。

  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

今日大家都在搜的词: