Resemble AI开源TTS Chatterbox ，性能直逼超越ElevenLabs

2025-05-29 10:44 · 来源： AIbase基地

近年来，文本转语音（TTS）技术在人工智能领域的应用日益广泛，从智能助手到内容创作，TTS正在重塑我们与声音交互的方式。一款名为Chatterbox的开源TTS模型横空出世，凭借其卓越的性能和创新功能，迅速成为行业焦点。

Chatterbox:开源TTS的革命性突破

Chatterbox由Resemble AI开发，基于MIT许可证完全开源，允许开发者自由使用和修改。这款模型基于0.5B规模的LLaMA架构，训练数据超过50万小时的精选音频，性能直逼甚至超越部分闭源系统。

据悉，在近期盲测中，63.75%的听众更偏好Chatterbox的语音输出，相较于业界标杆ElevenLabs，展现出惊艳的真实感和流畅度。

Chatterbox不仅提供高质量的语音合成，还支持零样本语音克隆，仅需5秒的参考音频即可生成高度逼真的个性化语音。此外，其独特的情感夸张控制功能，允许用户通过简单参数调节情绪、语速和语调，为内容创作者、游戏开发者及AI伴侣设计者提供了前所未有的灵活性。

技术亮点:实时合成与安全水印

Chatterbox的另一大亮点在于其超低延迟的实时语音合成，延迟低至200毫秒以下，适用于交互式应用如虚拟助手和实时配音。其开源特性进一步降低了开发者的使用门槛，Hugging Face上的Gradio应用让用户可以快速体验其功能。

为确保负责任的使用，Chatterbox每段生成音频均嵌入Resemble AI的Perth神经水印技术。这种水印在音频编辑和压缩后仍能保持近100%的检测准确率，有效防止滥用，确保内容可追溯。

Chatterbox的发布标志着TTS领域的开源浪潮正在加速。相较于传统闭源系统如ElevenLabs，Chatterbox的免费性和高度可定制化使其在开发者社区中迅速走红。社交媒体上，开发者们对其精度和情感表达能力赞不绝口，称其为“音声合成的游戏规则改变者”。

AIbase认为，Chatterbox的开源模式不仅降低了技术壁垒，还可能推动更多创新应用，例如个性化播客、教育工具和多语言内容生成。然而，开源也带来了挑战，如何在广泛传播的同时防止恶意使用，仍需社区共同努力。

Chatterbox的出现为TTS技术开辟了新的可能性。AIbase预计，其开源特性将吸引更多开发者参与优化，形成良性生态循环。同时，Resemble AI也提供付费的TTS服务，针对需要更高精度和规模化的企业用户，显示出开源与商业化的双轨战略。

项目:https://github.com/resemble-ai/chatterbox