微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

2025-08-26 14:43 · 来源： AIbase基地

近日，微软推出了一款备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能，为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下，AIbase将为您详细解析VibeVoice的亮点与潜力。

支持90分钟超长语音生成，突破时长限制

VibeVoice模型在语音生成时长上实现了重大突破，可一次性生成长达90分钟的连续语音。这一特性尤其适合需要长时间音频输出的场景，如播客、有声书和教育内容制作。相比传统TTS模型的时长限制，VibeVoice的超长生成能力为内容创作者提供了更大的灵活性和创作空间。

多人对话新高度，最多支持4人语音

与以往TTS模型仅支持单人或双人对话的局限不同，VibeVoice能够流畅生成最多4人的对谈语音。这一功能在模拟多人播客、会议录音或虚拟角色互动等场景中表现出色。得益于其在语音一致性和自然轮转上的优化，VibeVoice生成的多人对话语音自然流畅，几乎可媲美真人录音效果。

中文语音效果优异，助力本土化应用

对于中文市场，VibeVoice展现了令人印象深刻的表现。其支持中文语音合成，且在语调、发音准确性和自然度上均达到了高水平。这使得VibeVoice在中文播客、教育培训、智能客服等领域具有广泛的应用潜力，为开发者提供了高质量的本土化语音解决方案。

支持背景音乐，打造沉浸式播客体验

VibeVoice的另一大亮点是支持生成带背景音乐的播客音频。这一功能让内容创作者能够轻松为语音添加背景音效，打造更具沉浸感和专业性的音频内容。无论是轻松的背景旋律还是紧张的氛围音效，VibeVoice都能无缝融合，为听众带来更丰富的听觉体验。

开源赋能开发者，未来应用前景广阔

作为一款开源模型，VibeVoice已于2025年8月26日在GitHub正式发布，开发者可自由获取并进行二次开发。微软此次开源的举措，不仅降低了高质量TTS技术的使用门槛，也为全球AI开发者社区注入了新的活力。无论是个人创作者还是企业用户，都可以通过VibeVoice快速构建创新的语音应用。

地址：https://huggingface.co/microsoft/VibeVoice-1.5B

相关推荐

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

本文介绍了AI领域最新动态：1)腾讯开源Hunyuan-GameCraft框架，可快速生成高质量游戏视频；2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext；3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型；4)Kimi将推出PPT生成功能；5)阿里1688将上线"诚信通AI版"会员服务；6)苹果智能家居中心推迟至2026年发布；7)万兴科技接入GPT-5；8)全球AI独角兽达498家，总估值2.7万亿美元；9)谷歌为Slides和

AI 游戏视频生成腾讯混元
宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

宜人智科作为AI驱动的数智化科技服务商，近期在世博中心展区展示多项前沿成果，全面呈现其在人工智能领域的创新实力与应用突破。公司CEO唐宁出席行业论坛，分享AI技术助力企业智能化转型的实践路径，展望AI在企业数智化进程中的新方向。宜人智科重点构建超级智能体平台，打造高效“硅基同事”，并推广“人人皆可AI”文化，通过自研工具提升工作效率。其自主研发的

人工智能数智化 AI技术
华为新一代三折叠旗舰MateXTs将于9月4日发布

就在刚刚，华为正式宣布，将于9月4日14:30发布其新一代三折叠旗舰手机——华为Mate XTs非凡大师。华为常务董事余承东在社交媒体上激动表示:“新三折叠来了!9月4日，我们不见不散。” 此前，供应链消息透露，华为首款三折叠产品Mate XT市场反响热烈，截至今年上半年出货量已逼近50万台大关。此次即将发布的Mate XTs，在外观设计上延续了Mate XT的经典风格，同时提供了玄黑、�

华为Mate XTs 三折叠手机
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令
微软发布AI截图工具，截图一键转PPT

微软电脑管家推出全新“智能圈选”功能，通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域，即可一键完成文字提取、多语言翻译及PPT转换等操作，大幅提升办公和学习效率。该功能支持100多种语言，保留原始格式，并能智能修复遮挡内容，彻底改变了传统截图处理方式。

微软电脑管家智能圈选截图处理
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问
中国UP主成为不了MrBeast

影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”，无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间，全平台总观看量超过两亿，弹幕数以百万计，甚至带动了直播带货的即时转化。从数据到热搜，此次直播堪称完美演绎了“爆款”的逻辑。质疑声同样随之而来:这场直播与其说是“荒岛生存”，不如说是“带电度假”;也评论认为，它

影视飓风荒岛直播 B站直播
荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE，通过自然语言交互简化工作流程；阿里开源Mobile-Agent-v3跨平台代理框架；微信测试AI播客功能，实现双人对话式新闻播报；钉钉推出首款AI硬件录音笔DingTalk A1；苹果拟为Siri引入谷歌Gemini大模型；苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能；Meta获得Midjourney技术授权加强AI图像生成竞争力；谷歌Drive新增Vids视频编辑功能降低制作门槛；夸克发布健康大模型通过12学科主治医师测评；AI小游戏Draw A Fish凭借极简设计引发全球热潮。

AI办公钉钉8.0 自然语言交互

今日大家都在搜的词：

热文

3 天
7天

微软开源VibeVoice TTS模型：90分钟超长语音，可4人对话，中文效果惊艳！

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

OpenAI的开源模型现已在IBM watsonx.ai上提供

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

华为新一代三折叠旗舰MateXTs将于9月4日发布

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

微软发布AI截图工具，截图一键转PPT

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

中国UP主成为不了MrBeast

荐AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源 Mobile-Agent 3

今日大家都在搜的词：

热文

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

iPhone17标准版或上高刷苹果2025秋季发布会定档9月10日

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

网易云音乐：没有“访客记录”功能也不会有其他形式呈现

苹果客服回应4款iPhone将下架：尚未收到任何通知

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

小米澎湃OS3发布会官宣首批Beta版招募机型公布

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

站长商机