Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

2024-11-05 16:31 · 来源： AIbase基地

近日，Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B，这款语音到语音模型能够高效、精确地生成和处理语音，尤其擅长模拟或克隆不同的声音。这意味着，我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。

Fish Agent V0.13B模型基于Qwen-2.5-3B-Instruct进行预训练，并使用了包含2000亿语音和文本令牌的海量数据集。与传统模型需要先将语音转换成复杂语义编码不同，Fish Agent V0.13B采用了一种名为“无语义令牌”的架构，直接在声音层面上处理和生成语音。这种直接处理方式不仅简化了模型结构，还提升了模型的反应速度和效率。

得益于这种创新架构，Fish Agent V0.13B能够快速、自然地生成高质量语音，实现“即时”语音克隆和文本到语音转换，文本到音频转换时间（TTFA）仅需200毫秒。这一特性使其非常适合需要实时语音生成的应用场景，例如语音助手、自动客服以及其他需要快速语音反馈的场景。

Fish Agent V0.13B模型支持多种语言，包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语，并使用了约70万小时的多语言音频数据进行训练。这意味着它能够处理多种语言和语境，并生成更自然、更贴近真人发音的语音。

除了语音到语音生成和文本到语音转换功能外，Fish Agent V0.13B还具备以下关键特性:

零样本语音克隆:无需训练即可实现语音克隆。

精简的3B参数:使用30亿参数，便于开发。

支持文本和音频输入:灵活的多输入方式。

目前，Fish Audio已将Fish Agent V0.13B模型开源，并提供了初步演示版本供用户体验。该模型的发布将进一步推动AI语音技术的发展，为语音助手、虚拟人等应用带来更多可能性。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

模型下载: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技术报告: https://arxiv.org/abs/2411.01156

相关推荐

荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

AI日报汇总最新行业动态：腾讯发布混元3D+3.0模型，建模精度提升3倍；昆仑万维Mureka上线音乐创作功能；阿里Qoder推出付费订阅服务；VEED Fabric 1.0实现图片转视频；OpenAI发布GPT-5-Codex革新编程；全国发布AI安全治理框架2.0；Mini-o3实现超长视觉推理；上海AI Lab推出多模态模型Lumina-DiMOO；腾讯微调技术提升图像美感300%；Meta推出轻量级MobileLLM-R1；腾讯启动AI应用繁荣计划；谷歌DeepMind�

AI日报腾讯混元3D 3D建模
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
腾讯云李力：坚持同源同构，为企业打造更贴近Agent的AI原生云

9月17日，腾讯云在2025全球数字生态大会上宣布智算全面升级，推出“更贴近Agent的AI+Infra”解决方案，包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调，“同源同构”是核心原则，确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性，助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务，降低企业技术门槛，已服务国内90%大模型厂商及千行百业。

腾讯云智算升级 Agent
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
荐方洪波迎战雷军，祭出两大Agent

家电三巨头美的、格力和海尔，正面临小米的强力挑战。小米家电连续多个季度狂飙突进，已经让三巨头感到不安。格力对于小米格外警惕。在小米攻势最凶猛的空调赛道，针对奥维云网7月空调线上市场份额数据，格力与小米各执一词，争执不下。海尔同样感受到压力:去年7月，小米以12%的全渠道份额，超越海尔跻身前三。到了今年7月，海尔收复失地，市场份额升至15%，

家电三巨头小米挑战空调市场份额
DeepSeek-V3.2-Exp正式发布

DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp，该模型基于V3.1-Terminus升级，引入创新的稀疏注意力机制DSA，首次实现细粒度稀疏注意力，在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面，官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整：输入缓存0.2元、输入未缓存2元、输出3元，开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

DeepSeek-V3.2-Exp 稀疏注意力机制 DSA
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型

今日大家都在搜的词：

热文

3 天
7天

Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

腾讯云李力：坚持同源同构，为企业打造更贴近Agent的AI原生云

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

荐方洪波迎战雷军，祭出两大Agent

DeepSeek-V3.2-Exp正式发布

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机