首页 > AI头条  > 正文

媲美GPT-SoVITS!低显存开源TTS模型Fish Speech 完美支持中英日语言

2024-07-03 09:11 · 来源: AIbase基地

Fish Speech是一款由fishaudio开发的全新文本转语音工具,它不仅完美支持中文、英语和日语,而且在语音处理上的能力接近人类水平,可以说是你私人语音助手的不二之选。

要点:

😊 完美支持中英日三种语言,语音处理接近人类水平

😊 支持语音克隆,只需提供一段参考语音,即可迅速完成克隆

😊 对显存要求极低,仅需4GB,支持多种不同的语音生成模型

image.png

Fish Speech模型的厉害之处在于,它使用了大约十五万小时的三语数据进行训练,特别是在中文方面的表现,简直是无可挑剔。作为一个亿级参数的模型,它设计得既高效又轻量,这意味着你可以在自己的个人设备上轻松运行和微调,随时随地享受语音转换的便捷。

支持中文

目前,库里的可供选择的声音多数是动漫人物的声音,AIbase输入一段文字测试,发现有的动漫人物语速偏慢,如果要用到视频里,还需要删除中间停顿太长的地方。真人的声音有丁真,特朗普和孙笑川等,不过以防万一还是不要用其他真人的声音比较好。想用真人声音的,可以考虑创建自己的声音。

以下是AIbase的测试效果:

更让人兴奋的是,Fish Speech采用了Flash-Attn算法,这一算法专为处理大规模数据而设计,以其高效性、准确性和稳定性著称。这不仅显著提升了TTS技术的性能,也让你在使用过程中享受到了前所未有的流畅体验。

支持英文

而且,Fish Speech的语音克隆能力也是一大亮点。你只需提供一段参考语音,它就能迅速进行语音克隆,无需经过繁琐的训练过程。此外,它对显存的需求极低,仅需4GB,推理速度快,这些都极大地优化了用户体验。


支持日文

当然,Fish Speech的强大远不止于此。Fish Speech支持多种不同的语音生成模型,包括但不限于:

  • VITS2:基于变分推理的文本到语音模型。

  • Bert-VITS2:结合BERT模型的变分推理文本到语音模型。

  • GPT VITS:结合GPT模型的文本到语音模型。

  • MQTTS:基于量化技术的文本到语音模型。

  • GPT Fast:快速生成语音的GPT模型。

  • GPT-SoVITS:结合GPT和SoVITS技术的文本到语音模型。

每一种模型都有其独特的优势,满足不同用户的需求。

总的来说,Fish Speech是一款创新、高效、轻量的文本转语音工具。它不仅能够成为你的私人语音助手,还能为你的创意项目提供强大的语音支持。如果你对语音技术感兴趣,或者正在寻找一个无需繁琐训练、快速克隆的TTS解决方案,那么Fish Speech绝对值得一试。

官网地址:https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

项目地址:https://github.com/fishaudio/fish-speech


  • 相关推荐
  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • 迄今最先进的AI模型!ChatGPT-5具备博士级别的认知能力

    ChatGPT-5在多个领域表现出色,包括编程、数学、写作、健康和视觉感知等。 它具备增强的推理能力,能够根据对话类型选择最佳模型,并通过深度推理模型解决更具挑战性的问题。 OpenAI 表示,ChatGPT-5在知识工作方面表现卓越,其知识水平在40多种职业中均达到或超过专家水平,涵盖法律、物流、销售和工程等领域。 在基准测试中,ChatGPT-5 展现了出色的认知能力。 例如,�

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • 哪里找最新AI工具官网?如何快速对比ChatGPT替代品?AI工具导航指南 - AIbase

    文章探讨了在AI工具爆炸式增长的时代,用户面临的信息过载和筛选困难问题。主要内容包括:1)AI领域迭代速度远超传统软件,个人追踪信息效率低下且容易错过关键更新;2)AIbase.cn平台致力于解决这一问题,通过聚合主流AI工具、严格审核信息来源、持续更新行业动态;3)平台提供多维对比功能,结构化呈现工具参数,帮助用户快速定位适合需求的解决方案;4)建议用户定期浏览平台资讯栏目,善用搜索筛选功能,通过对比视图做出明智选择。核心价值在于降低信息筛选成本,让用户更高效地获取有价值的AI工具和前沿资讯。

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

  • 因为GPT-5,这群人决定在Reddit上起义。

    ​这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。

  • 苹果iOS 26开发者预览版Beta 7发布:美版Apple Watch血氧回归

    今天凌晨,苹果发布了iOS 26开发者预览版Beta 7,虽然已经处于测试后期,但依然加入了新功能。 首先是美版Apple Watch的血氧检测功能回归,这与上周的iOS 18.6.1正式版同步,为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。 从2024年1月18日开始,因美国国际贸易委员会(ITC)认定苹果部分Apple Watch血氧传感器专利侵权,所有在美国销售的Apple Watch Series 9�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

今日大家都在搜的词: