媲美GPT-SoVITS！低显存开源TTS模型Fish Speech 完美支持中英日语言

2024-07-03 09:11 · 来源： AIbase基地

Fish Speech是一款由fishaudio开发的全新文本转语音工具，它不仅完美支持中文、英语和日语，而且在语音处理上的能力接近人类水平，可以说是你私人语音助手的不二之选。

要点：

😊 完美支持中英日三种语言，语音处理接近人类水平

😊 支持语音克隆，只需提供一段参考语音，即可迅速完成克隆

😊 对显存要求极低，仅需4GB，支持多种不同的语音生成模型

Fish Speech模型的厉害之处在于，它使用了大约十五万小时的三语数据进行训练，特别是在中文方面的表现，简直是无可挑剔。作为一个亿级参数的模型，它设计得既高效又轻量，这意味着你可以在自己的个人设备上轻松运行和微调，随时随地享受语音转换的便捷。

支持中文

目前，库里的可供选择的声音多数是动漫人物的声音，AIbase输入一段文字测试，发现有的动漫人物语速偏慢，如果要用到视频里，还需要删除中间停顿太长的地方。真人的声音有丁真，特朗普和孙笑川等，不过以防万一还是不要用其他真人的声音比较好。想用真人声音的，可以考虑创建自己的声音。

以下是AIbase的测试效果：

更让人兴奋的是，Fish Speech采用了Flash-Attn算法，这一算法专为处理大规模数据而设计，以其高效性、准确性和稳定性著称。这不仅显著提升了TTS技术的性能，也让你在使用过程中享受到了前所未有的流畅体验。

支持英文

而且，Fish Speech的语音克隆能力也是一大亮点。你只需提供一段参考语音，它就能迅速进行语音克隆，无需经过繁琐的训练过程。此外，它对显存的需求极低，仅需4GB，推理速度快，这些都极大地优化了用户体验。

支持日文

当然，Fish Speech的强大远不止于此。Fish Speech支持多种不同的语音生成模型，包括但不限于：

VITS2：基于变分推理的文本到语音模型。
Bert-VITS2：结合BERT模型的变分推理文本到语音模型。
GPT VITS：结合GPT模型的文本到语音模型。
MQTTS：基于量化技术的文本到语音模型。
GPT Fast：快速生成语音的GPT模型。
GPT-SoVITS：结合GPT和SoVITS技术的文本到语音模型。

每一种模型都有其独特的优势，满足不同用户的需求。

总的来说，Fish Speech是一款创新、高效、轻量的文本转语音工具。它不仅能够成为你的私人语音助手，还能为你的创意项目提供强大的语音支持。如果你对语音技术感兴趣，或者正在寻找一个无需繁琐训练、快速克隆的TTS解决方案，那么Fish Speech绝对值得一试。

官网地址：https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

项目地址：https://github.com/fishaudio/fish-speech

相关推荐

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令
豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

文章探讨了企业选择AI大模型时面临的实际决策难题，指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台（https://model.aibase.cn/compare）通过三大核心价值解决痛点：1）聚焦业务场景而非参数堆砌，突出价格、语言支持、上下文长度等实用维度；2）透明化成本计算，标注长文本溢价规则和多模态附加费；3）一键生成对比报告。平台特别强调中文场景的特殊性（如豆包1.5在中文处理成本的优势），并揭示厂商宣传中容易忽略的隐藏成本（如GPT-5-min超5000字符的30%溢价）。典型电商客服案例显示，需综合中文理解、多模态、性价比等维度决策，最终选择取决于具体业务需求而非绝对性能排名。

智能客服系统中文场景预算有限
迄今最先进的AI模型！ChatGPT-5具备博士级别的认知能力

ChatGPT-5在多个领域表现出色，包括编程、数学、写作、健康和视觉感知等。它具备增强的推理能力，能够根据对话类型选择最佳模型，并通过深度推理模型解决更具挑战性的问题。 OpenAI 表示，ChatGPT-5在知识工作方面表现卓越，其知识水平在40多种职业中均达到或超过专家水平，涵盖法律、物流、销售和工程等领域。在基准测试中，ChatGPT-5 展现了出色的认知能力。例如，�

ChatGPT-5 AI模型博士级智能
OpenAI正式发布GPT-5模型网友：写作像诗人

OpenAI在直播活动中正式推出新一代人工智能模型GPT-5，宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域，实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）形容，与GPT-5交互如同与各领域专家对话，其多维度能力突破将重塑人机协作模式。分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送，免费用户与付�
哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

文章探讨了在AI工具爆炸式增长的时代，用户面临的信息过载和筛选困难问题。主要内容包括：1）AI领域迭代速度远超传统软件，个人追踪信息效率低下且容易错过关键更新；2）AIbase.cn平台致力于解决这一问题，通过聚合主流AI工具、严格审核信息来源、持续更新行业动态；3）平台提供多维对比功能，结构化呈现工具参数，帮助用户快速定位适合需求的解决方案；4）建议用户定期浏览平台资讯栏目，善用搜索筛选功能，通过对比视图做出明智选择。核心价值在于降低信息筛选成本，让用户更高效地获取有价值的AI工具和前沿资讯。

AI工具导航信息筛选参数对比
GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

OpenAI发布最强AI模型GPT-5，但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降，且官方突然下架GPT-4o等8个旧模型，导致付费用户抗议。部分用户对旧版产生情感依赖，认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升，但交互体验明显退步。CEO承认低估用户对旧版的喜爱，承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减，面临数据质量和算力成本限制。总体而言，GPT-5在技术指标进步的同时，牺牲了情感交互体验。

GPT-5发布 OpenAI AI模型淘汰
荐因为GPT-5，这群人决定在Reddit上起义。

这个周末，对OpenAI的抗诉，好像从未如此热闹过。起因自然还是因为GPT-5。 OpenAI上了GPT-5当天，做了一个非常神奇的操作，他们只保留了GPT-5，然后把GPT-4.5、GPT-4o、o3什么的，全都砍掉了。

GPT-5
苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

今天凌晨，苹果发布了iOS 26开发者预览版Beta 7，虽然已经处于测试后期，但依然加入了新功能。首先是美版Apple Watch的血氧检测功能回归，这与上周的iOS 18.6.1正式版同步，为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。从2024年1月18日开始，因美国国际贸易委员会（ITC）认定苹果部分Apple Watch血氧传感器专利侵权，所有在美国销售的Apple Watch Series 9�

iOS 26 Apple
GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5，与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出；Claude4Opus编程优异(72.5%)但数学较弱(33.9%)；Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面，GPT-5和Gemini2.5Pro定价相近($1.25-$10)，Claude4Opus较高($15-$75)。建议根据需求选择：GPT-5适合综合应用，Claude4Opus适合专业编程，Gemini2.5Pro适合长文档�

GPT-5发布大语言模型性能对比

今日大家都在搜的词：

热文

3 天
7天

媲美GPT-SoVITS！低显存开源TTS模型Fish Speech 完美支持中英日语言

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

迄今最先进的AI模型！ChatGPT-5具备博士级别的认知能力

OpenAI正式发布GPT-5模型网友：写作像诗人

哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

荐因为GPT-5，这群人决定在Reddit上起义。

苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

真我15系列官宣9月发布号称轻薄影像神器

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为MatePad Air 12英寸2025发布：售价2799元起

苹果正式入驻小红书 iPhone 17系列下月发布

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

REDMI Note 15 Pro系列官宣下周发布

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机