MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

2025-08-01 14:40 · 来源： AIbase基地

由清华大学语音与语言实验室（Tencent AI Lab）联合上海创智学院、复旦大学和模思智能打造的MOSS-TTSD(Text to Spoken Dialogue)近日正式开源，标志着AI语音合成技术在对话场景中的重大突破。

这款基于Qwen3-1.7B-base模型续训练的语音对话生成模型，以约100万小时单说话人语音数据和40万小时对话语音数据为基础，采用离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，特别适合AI播客、有声小说和影视配音等长篇内容创作。

MOSS-TTSD的核心创新在于其XY-Tokenizer，采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时保留语义与声学信息，确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成，避免了传统TTS模型拼接片段导致的不自然过渡。此外，MOSS-TTSD具备零样本音色克隆能力，可通过上传完整对话片段或单人音频实现双人语音克隆，并支持声音事件控制，如笑声等非语言声音，赋予语音更丰富的表现力。

与市场上其他语音模型相比，MOSS-TTSD在中文客观指标上大幅领先开源模型MoonCast，韵律和自然度表现优异。然而，相较于字节跳动的豆包语音模型，其语气和节奏感略逊一筹，但在开源和免费商业使用的优势下，MOSS-TTSD仍展现出强大的应用潜力。模型权重、推理代码和API接口已通过GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源，官方文档和在线体验Demo也已上线，为开发者提供便捷接入。

MOSS-TTSD的发布为AI语音交互领域注入新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将推动内容创作的智能化进程。未来，团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达。

地址：https://github.com/OpenMOSS/MOSS-TTSD

相关推荐

腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

腾讯旗下AI工作台ima迎来重大升级，以活知识库大模型的深度耦合重构知识管理体系。此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客，Xmind思维导图经智能解析后自动沉淀为结构化知识库，共享知识库更支持关键信息置顶功能。这些创新使得碎片化知识如同被注入生命力，通过动态重组转化为驱动组织进化的智能中枢。

腾讯 AI工作台知识管理
SSD Fans评测：忆联消费级SSD AM541｜强性能高可靠长守护

国内知名技术社区SSD Fans对忆联消费级SSD AM541进行了深度评测。这款PCIe4.0固态硬盘采用3D NAND闪存颗粒和最新主控芯片，1TB版本顺序读取速度达7143MB/s，写入6037MB/s，远超标称值。评测显示AM541在性能、压力测试和可靠性方面表现优异，采用无缓存DRAM-Less设计配合智能SLC缓存机制，在CDM、SNIA标准测试中均展现业界领先水平。游戏实测《FF14》加载仅7.445秒，《黑神话：悟空》启动快40%，充分满足消费级用户对高性能存储的需求，展现了忆联在存储领域的技术实力。
OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

人工智能开源模型 OpenAI
马斯克称正在训练新FSD模型：约十倍参数最快下月底发布

马斯克今日在X上发文表示，特斯拉正在训练新的十倍参数FSD模型，如果一切顺利则可能会在下个月底准备好面向公众发布。

特斯拉 FSD 完全自动驾驶
HKTWeb3 交易平台正式上线，打造链上资产与实体金融桥梁

HKTWeb3交易平台将于2025年8月2日在香港正式上线。该平台以"安全、合规、透明"为核心，致力于连接链上资产与实体金融世界，提供六大核心业务模块：链上信托、链上贸易、链上金融、HKT钱包、交易平台和锚定资产储备。平台接受香港持牌信托公司监管，确保资金流转、交易撮合等环节的合规性。作为全球首批采用"实体承兑+链上信托"架构的数字资产平台，HKTWeb3旨在构建服务实体经济的Web3基础设施，推动数字资产在投资、支付等现实场景的应用。平台将与香港Web3科技协会合作，加速本地生态建设。
迄今最先进的AI模型！ChatGPT-5具备博士级别的认知能力

ChatGPT-5在多个领域表现出色，包括编程、数学、写作、健康和视觉感知等。它具备增强的推理能力，能够根据对话类型选择最佳模型，并通过深度推理模型解决更具挑战性的问题。 OpenAI 表示，ChatGPT-5在知识工作方面表现卓越，其知识水平在40多种职业中均达到或超过专家水平，涵盖法律、物流、销售和工程等领域。在基准测试中，ChatGPT-5 展现了出色的认知能力。例如，�
微云全息（NASDAQ: HOLO）提出基于LSTM加密货币价格预判技术：投资决策的智慧引擎

文章探讨了区块链技术兴起背景下加密货币价格预测的挑战。由于加密市场缺乏监管、波动剧烈，传统预测方法效果不佳。微云全息(NASDAQ:HOLO)提出基于LSTM神经网络的价格预测技术，通过收集清洗多维度交易数据，构建深度学习模型，显著提高了预测准确性。相比传统方法，该技术能更好捕捉价格长期依赖关系，为投资者提供个性化预测服务。未来将结合强化学习、生成对抗网络等新技术，进一步提升预测精度。

区块链加密货币金融预测
用三星Galaxy Watch8系列提升跑步水平开启训练新体验

文章介绍三星Galaxy Watch8系列智能手表如何帮助跑步爱好者科学训练。手表通过12分钟测试将用户跑步水平分为10个等级，并基于160多项个性化训练计划生成3-5周定制方案。它能实时监测配速、步频、摄氧量等数据，分析跑步姿势平衡性，提供配速提醒和姿势指导。升级的双频GPS系统精准记录跑步轨迹，间歇训练功能可设置高低强度交替锻炼。手表如同私人教练，帮助用户循序渐进提升耐力与速度，让跑步训练更科学高效。

跑步健身运动科技
荐AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

【AI日报】今日AI领域重要动态：1）阿里开源WebAgent项目WebShaper，GAIA评测超越Claude4-Sonnet；2）Moonvalley推出草图转视频功能，支持手绘生成电影级视频；3）腾讯X-Omni模型实现图文理解重大突破；4）百度搜索测试AI应用中心入口；5）Midjourney+新增个性化推荐功能；6）GPT-5或于2025年夏季发布；7）Ollama推出桌面客户端；8）OWL团队开源多智能体协作工具Eigent；9）OpenAI年收入激增至120亿美元；10）英伟达H20芯片因安全风险被约谈；11）万兴科技天幕2.0模型国内排名第四，与华为云共建AI视频实验室。

人工智能 AI产品技术趋势
荐AI日报：智谱AI重磅发布GLM-4.5；阿里开源Wan2.2；阶跃星辰推全新模型Step3

【AI日报】本期重点内容：1.智谱AI发布开源大模型GLM-4.5，在推理、编码和智能体能力方面达到SOTA水平；2.阿里开源视频生成模型Wan2.2，采用MoE架构提升计算效率；3.阶跃星辰推出AI研究助手"阶跃深研"，支持金融医疗等专业领域研究；4.微软Edge浏览器新增Copilot模式，提供智能搜索体验；5.Anthropic对Claude用户实施使用限制引发争议；6.阶跃星辰发布321B参数大模型Step3；7.蚂�

人工智能开源模型技术趋势

今日大家都在搜的词：

热文

3 天
7天

MOSS-TTSD震撼开源:百万小时训练打造AI播客新王者

腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

SSD Fans评测：忆联消费级SSD AM541｜强性能高可靠长守护

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

马斯克称正在训练新FSD模型：约十倍参数最快下月底发布

HKTWeb3 交易平台正式上线，打造链上资产与实体金融桥梁

迄今最先进的AI模型！ChatGPT-5具备博士级别的认知能力

微云全息（NASDAQ: HOLO）提出基于LSTM加密货币价格预判技术：投资决策的智慧引擎

用三星Galaxy Watch8系列提升跑步水平开启训练新体验

荐AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

荐AI日报：智谱AI重磅发布GLM-4.5；阿里开源Wan2.2；阶跃星辰推全新模型Step3

今日大家都在搜的词：

热文

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm

荣耀Magic7 Pro 16+512G卫星通信版开售：售价5199元

理想回应出现大量负面评价：将追责到底正在固定相关证据

小米超级小爱扩围试点：首批13款机型开放内测

曝iPhone17Pro起始存储翻倍或取消128GB

全新小鹏P7预售火爆：6分37秒小订破万

微信：没有已读功能以后也不会有腾讯张军：望终结此话题

小米智能摄像机4C 3.5K发布：支持600万像素售价199元

AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKB

苹果市值一夜大涨超1万亿元将向美国新增1000亿美元投资

微信内存一下就少了10G上热搜无需担心误删重要资料

iPhone17系列仅标准版没涨价分析师称Pro机型将上调50美元

理想回应和乘龙重卡碰撞测试：被卷入舆情争议实属无心之举

法拉第方回应新车抄袭长城：联合开发不存在抄袭

荣耀畅玩70 Plus发布：骁龙6系芯片国补售价1019.15元起

海底捞回应“改为半自助模式” 客服辟谣：系不实传闻

AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型

AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashen

AI日报：百度推全球首批AI数字员工；Claude Opus4.1出世；谷歌

苹果iOS 26 Beta 5上线：细节优化更新内容一览

站长商机