首页 > AI头条  > 正文

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

2024-11-05 16:31 · 来源: AIbase基地

近日,Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B,这款语音到语音模型能够高效、精确地生成和处理语音,尤其擅长模拟或克隆不同的声音。这意味着,我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。

Fish Agent V0.13B模型基于Qwen-2.5-3B-Instruct进行预训练,并使用了包含2000亿语音和文本令牌的海量数据集。与传统模型需要先将语音转换成复杂语义编码不同,Fish Agent V0.13B采用了一种名为“无语义令牌”的架构,直接在声音层面上处理和生成语音。这种直接处理方式不仅简化了模型结构,还提升了模型的反应速度和效率。

image.png

得益于这种创新架构,Fish Agent V0.13B能够快速、自然地生成高质量语音,实现“即时”语音克隆和文本到语音转换,文本到音频转换时间(TTFA)仅需200毫秒。这一特性使其非常适合需要实时语音生成的应用场景,例如语音助手、自动客服以及其他需要快速语音反馈的场景。

image.png

Fish Agent V0.13B模型支持多种语言,包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语,并使用了约70万小时的多语言音频数据进行训练。这意味着它能够处理多种语言和语境,并生成更自然、更贴近真人发音的语音。

除了语音到语音生成和文本到语音转换功能外,Fish Agent V0.13B还具备以下关键特性:

零样本语音克隆:无需训练即可实现语音克隆。

精简的3B参数:使用30亿参数,便于开发。

支持文本和音频输入:灵活的多输入方式。

目前,Fish Audio已将Fish Agent V0.13B模型开源,并提供了初步演示版本供用户体验。该模型的发布将进一步推动AI语音技术的发展,为语音助手、虚拟人等应用带来更多可能性。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

模型下载: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技术报告: https://arxiv.org/abs/2411.01156

  • 相关推荐
  • AI日报:腾讯发布混元3D 3.0模型;昆仑万维上线Agent Studio功能;阿里Qoder推出付费订阅服务

    AI日报汇总最新行业动态:腾讯发布混元3D+3.0模型,建模精度提升3倍;昆仑万维Mureka上线音乐创作功能;阿里Qoder推出付费订阅服务;VEED Fabric 1.0实现图片转视频;OpenAI发布GPT-5-Codex革新编程;全国发布AI安全治理框架2.0;Mini-o3实现超长视觉推理;上海AI Lab推出多模态模型Lumina-DiMOO;腾讯微调技术提升图像美感300%;Meta推出轻量级MobileLLM-R1;腾讯启动AI应用繁荣计划;谷歌DeepMind�

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 腾讯云李力:坚持同源同构,为企业打造更贴近Agent的AI原生云

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出“更贴近Agent的AI+Infra”解决方案,包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调,“同源同构”是核心原则,确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务,降低企业技术门槛,已服务国内90%大模型厂商及千行百业。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • 方洪波迎战雷军,祭出两大Agent

    ​家电三巨头美的、格力和海尔,正面临小米的强力挑战。小米家电连续多个季度狂飙突进,已经让三巨头感到不安。 格力对于小米格外警惕。在小米攻势最凶猛的空调赛道,针对奥维云网7月空调线上市场份额数据,格力与小米各执一词,争执不下。 海尔同样感受到压力:去年7月,小米以12%的全渠道份额,超越海尔跻身前三。到了今年7月,海尔收复失地,市场份额升至15%,

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

今日大家都在搜的词: