首页 > AI头条  > 正文

微软开源VibeVoice TTS模型:90分钟超长语音,可4人对话,中文效果惊艳!

2025-08-26 14:43 · 来源: AIbase基地

近日,微软推出了一款备受瞩目的开源文本转语音(TTS)模型——VibeVoice,引发了AI语音技术领域的高度关注。这款模型以其强大的功能和卓越的性能,为长篇语音生成、多人对话以及中文语音合成树立了新的标杆。以下,AIbase将为您详细解析VibeVoice的亮点与潜力。

 支持90分钟超长语音生成,突破时长限制

VibeVoice模型在语音生成时长上实现了重大突破,可一次性生成长达90分钟的连续语音。这一特性尤其适合需要长时间音频输出的场景,如播客、有声书和教育内容制作。相比传统TTS模型的时长限制,VibeVoice的超长生成能力为内容创作者提供了更大的灵活性和创作空间。

image.png

 多人对话新高度,最多支持4人语音

与以往TTS模型仅支持单人或双人对话的局限不同,VibeVoice能够流畅生成最多4人的对谈语音。这一功能在模拟多人播客、会议录音或虚拟角色互动等场景中表现出色。得益于其在语音一致性和自然轮转上的优化,VibeVoice生成的多人对话语音自然流畅,几乎可媲美真人录音效果。

 中文语音效果优异,助力本土化应用

对于中文市场,VibeVoice展现了令人印象深刻的表现。其支持中文语音合成,且在语调、发音准确性和自然度上均达到了高水平。这使得VibeVoice在中文播客、教育培训、智能客服等领域具有广泛的应用潜力,为开发者提供了高质量的本土化语音解决方案。

 支持背景音乐,打造沉浸式播客体验

VibeVoice的另一大亮点是支持生成带背景音乐的播客音频。这一功能让内容创作者能够轻松为语音添加背景音效,打造更具沉浸感和专业性的音频内容。无论是轻松的背景旋律还是紧张的氛围音效,VibeVoice都能无缝融合,为听众带来更丰富的听觉体验。

 开源赋能开发者,未来应用前景广阔

作为一款开源模型,VibeVoice已于2025年8月26日在GitHub正式发布,开发者可自由获取并进行二次开发。微软此次开源的举措,不仅降低了高质量TTS技术的使用门槛,也为全球AI开发者社区注入了新的活力。无论是个人创作者还是企业用户,都可以通过VibeVoice快速构建创新的语音应用。

地址:https://huggingface.co/microsoft/VibeVoice-1.5B

  • 相关推荐
  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 宜人智科携“智语大模型”惊艳WAIC,展示AI赋能千行百业新成果

    宜人智科作为AI驱动的数智化科技服务商,近期在世博中心展区展示多项前沿成果,全面呈现其在人工智能领域的创新实力与应用突破。公司CEO唐宁出席行业论坛,分享AI技术助力企业智能化转型的实践路径,展望AI在企业数智化进程中的新方向。宜人智科重点构建超级智能体平台,打造高效“硅基同事”,并推广“人人皆可AI”文化,通过自研工具提升工作效率。其自主研发的

  • 华为新一代三折叠旗舰MateXTs将于9月4日发布

    就在刚刚,华为正式宣布,将于9月4日14:30发布其新一代三折叠旗舰手机——华为Mate XTs非凡大师。华为常务董事余承东在社交媒体上激动表示:“新三折叠来了!9月4日,我们不见不散。” 此前,供应链消息透露,华为首款三折叠产品Mate XT市场反响热烈,截至今年上半年出货量已逼近50万台大关。此次即将发布的Mate XTs,在外观设计上延续了Mate XT的经典风格,同时提供了玄黑、�

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

今日大家都在搜的词: