首页 > AI头条  > 正文

开口跪!Fish Audio发布 Fish Speech 1.5 新增5种语言,还将上线实时无缝对话功能

2024-12-05 11:19 · 来源: AIbase基地

Fish Audio最近丢出了一枚重磅炸弹——Fish Speech1.5,这款全新的语音合成模型简直是“声”临其境,不仅在准确性、稳定性和跨语言能力上狂甩前辈几条街,还一口气新增了五种语言支持!此外,Fish Speech1.5还即将推出实时无缝对话功能,让用户可以随时随地选择语音库进行交互式聊天。

image.png

Fish Speech1.5的“学识”可是相当渊博,它可是“啃”了超过100万小时的多语言训练数据才练就一身绝技,目前已经精通包括英语、中文和日语在内的13种语言。这可不是吹牛,人家可是在匿名TTS-Arena排名中获得了第二名的好成绩!

Fish Speech1.5的语音克隆功能也堪称“闪电侠”,延迟时间竟然不到150毫秒,简直是实时生成!更重要的是,Fish Speech1.5还大方地开源了预训练模型,无论你是想自己在家“调教”还是选择云端服务,都能轻松搞定!

主要特点:

  • 零样本和少样本语音合成:只需要给它听10到30秒的声音样本,它就能模仿得惟妙惟肖,生成高质量的语音合成输出。这就像是一个超级模仿秀,只要你敢“秀”,它就敢“学”!

  • 多语言和跨语言支持:还在为语言不通而烦恼吗?Fish Speech1.5已经帮你扫清障碍了!只要把你想说的话复制粘贴到输入框,它就能轻松搞定,目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。这下,你终于可以和世界各地的朋友畅聊无阻啦!

  • 无音素依赖:传统的语音合成模型往往依赖于音素,而Fish Speech1.5却另辟蹊径,它拥有超强的泛化能力,可以处理任何语言脚本的文本,这简直是语音合成界的一场革命!

  • 高度准确:对于一篇5分钟的英文文章,Fish Speech1.5的错误率竟然低至2%,这可是一个相当惊人的数字!

  • 快速:Fish Speech1.5的速度也是杠杠的,在Nvidia RTX4060笔记本电脑上,它的实时系数约为1:5,而在Nvidia RTX4090上,实时系数更是高达1:15!这简直就是“飞一般的感觉”!

Fish Speech1.5还支持本地部署:

WebUI:它提供了一个简单易用的Web UI,兼容Chrome、Firefox、Edge等主流浏览器,让你随时随地都能体验语音合成的乐趣。

GUI:它还提供了一个可与API服务器无缝协作的PyQt6图形界面,支持Linux、Windows和macOS系统,简直是“三剑客”的福音!

部署友好:你还可以轻松地将Fish Speech1.5部署到Linux、Windows和MacOS系统上,最大限度地减少速度损失。

官网地址:https://fish.audio/zh-CN/

项目地址:https://github.com/fishaudio/fish-speech

  • 相关推荐
  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 美团将上线AI搜索功能:基于用户行为与需求进行智能匹配

    美团正测试AI本地生活搜索功能,已进入内测阶段。该功能基于用户行为智能匹配服务,优化搜索体验。同时,美团发布并开源LongCat-Flash-Chat模型,采用MoE架构,总参数量560B,激活参数18.6B~31.3B,实现计算效率与性能双重优化。该模型在多项基准测试中表现优异,尤其在智能体任务中具备突出优势。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 华为FreeBuds 7i发布:华为全新降噪神器 599元

    今天下午,华为FreeBuds 7i正式发布,售价599元,提供贝母白、深空灰和樱语粉等配色。 据悉,华为FreeBuds 7i配备8mm超大导气腔,可有效吸收并减速噪声声波,三颗高性能声学麦克风能精准采集外界噪声信息,在智慧动态降噪4.0算法的调度下,耳机实时发出的反相声波能够更精准捕捉并抵消噪声。 在三麦克风之外,华为FreeBuds 7i新增骨传导麦克风,精准拾取人声,Al通话降噪能�

  • 妙手ERP荣膺TikTok Shop 2025年度H1优质招商服务商,携手共创跨境新未来!

    8月27日,TikTok Shop在杭州成功举办2025东南亚跨境生态服务商大会,以“生态共融·价值共生”为主题,汇聚平台业务负责人、跨境专家及近百家优秀服务商代表,共绘东南亚跨境生态发展蓝图。妙手ERP凭借专业的跨境电商店铺运营解决方案、技术实力及优质服务,荣获“TikTok Shop 2025年度H1优质招商服务商”奖项。TikTok在东南亚拥有3.25亿月活用户,用户月均使用时长超35小时,平台采用“内容+货架”双场域模式,将直播与短视频打造为核心消费场景。2025年上半年,TikTok Shop东南亚市场总GMV突破168.64亿美元,已逼近2024全年规模,其中泰国市场以54.19亿美元领跑。妙手ERP已全面接入TikTok Shop东南亚全站点,提供全流程跨境电商SaaS解决方案,全方位赋能卖家降本增效。未来,妙手将秉持初心,持续提升产品功能与服务,护航跨境卖家高效出海。

  • 快手向量化引擎Auron 正式加入Apache孵化器

    快手开源的向量化引擎Auron(原Blaze项目)正式进入Apache孵化器,标志着项目发展的重要里程碑。Auron基于Rust开发,采用原生执行和向量化技术,相比Spark性能提升2倍以上,已在快手内部大规模应用并获多家企业采用。项目开源后社区活跃,未来将依托ASF开源治理模式,融入全球开源生态,获得更可持续的创新动能与影响力。

  • 小米服务小程序正式上线:可实时查看服务进度、费用明细

    小米服务小程序于6月6日正式上线,提供四大核心功能:便捷查找附近门店、精准获取服务信息、一键咨询导航、提前预约享受优先办理。服务价格透明,费用明细清晰,用户可实时查看工单进展和设备权益信息。此外,9月服务月推出8折换电池活动,支持32款手机,价格79.2元起,活动截止9月7日24:00。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

今日大家都在搜的词: