Fish Audio发布OpenAudio S1：媲美专业配音演员的AI语音新标杆

2025-06-04 09:25 · 来源： AIbase基地

Fish Audio正式推出其最新一代语音生成模型——OpenAudio S1，以其高度自然的声音、丰富的语气控制和强大的指令跟随能力，号称达到专业配音演员的表现力和自然度。这一模型在TTS-Arena排行榜中荣登第一，成为文本转语音（TTS）领域的新标杆。AIbase为您深入解析OpenAudio S1的突破性功能及其潜在影响。

OpenAudio S1:重塑AI语音生成体验

OpenAudio S1是Fish Audio在Fish Speech系列基础上的全新升级，凭借先进的架构设计和大规模训练数据，实现了前所未有的语音自然度和表现力。核心亮点包括:

高度自然的声音:生成的声音流畅、逼真，几乎与人类配音无异，适用于专业场景如视频配音、播客和游戏角色语音。

丰富的语气控制:支持超过50种情绪和语气标记，如（愤怒）、(高兴)、(悲伤)、(低语)、(同情)等，用户可通过自然语言指令灵活调整语音表达。

强大的指令跟随能力:通过简单的文本指令，用户可以控制语音的语速、音量、停顿甚至笑声等细节，打造高度个性化的语音输出。

得益于200万小时的音频训练数据，OpenAudio S1在语音生成的质量和多样性上取得了显著突破，覆盖英语、中文、日语、韩语、法语、德语、阿拉伯语、西班牙语等13种语言，展现了强大的多语言能力。

视频来自官方，翻译：小互

TTS-Arena排名第一:专业水准的认证

在TTS-Arena的最新评测中，OpenAudio S1以“Anonymous Sparkle”之名荣登榜首，击败众多开源和专有模型。TTS-Arena通过用户投票比较不同TTS模型的自然度和表现力，OpenAudio S1以其逼真的语音质量和细腻的情感表达获得广泛认可。

此外，OpenAudio S1在Seed TTS评估中表现出色，英语单词错误率（WER）低至0.008，字符错误率(CER)仅为0.004，远超传统模型，证明其在语音准确性上的领先地位。

技术亮点:Dual-AR架构与RLHF训练

创新的Dual-AR架构

OpenAudio S1采用了独特的双自回归（Dual-AR）架构，结合快速和慢速Transformer模块，优化了语音生成的稳定性和效率。该架构通过分组有限标量矢量量化(GFSQ)技术提升了代码本处理能力，确保高保真语音输出，同时降低计算成本。

RLHF驱动的情感表达

OpenAudio S1通过在线**强化学习与人类反馈（RLHF）**技术，显著增强了语音的情感表达能力。相比传统TTS模型，S1能够更精准地捕捉语音的音色和语调，生成的情感表达更加自然。例如，用户可通过标记如(兴奋)、(紧张)或(喜悦)实现细腻的情绪控制，满足从广告到虚拟助手的多样化需求。

实际应用:从创意到商业的无限可能

OpenAudio S1的多功能性和高性能使其在多个领域展现出巨大潜力:

内容创作:为视频、播客和有声书生成专业级配音，显著提升生产效率。

虚拟助手:打造个性化语音导航或客服系统，支持多语言交互。

游戏与娱乐:为游戏角色生成逼真的对话和旁白，增强沉浸式体验。

教育与无障碍:为视障用户提供高质量的文本转语音服务，或为教育平台生成多语言学习内容。

语音克隆的便捷性

OpenAudio S1支持零样本和少样本语音克隆，仅需10-30秒的音频样本即可生成高保真的克隆语音，过程简单且耗时不到1分钟。这一功能尤其适合需要快速生成个性化语音的场景，如定制化播音员或名人语音模拟。

开源与商业并重:灵活的部署选择

OpenAudio S1提供**S1（4B参数，专有模型）和S1-mini(0.5B参数，开源模型)**两个版本，满足不同用户需求。S1-mini已完全开源，开发者可通过GitHub自由访问和定制，适合研究和教育场景;而S1则通过云服务提供高性能支持，采用平价定价模式，确保成本可控。

用户反馈显示，OpenAudio S1在语音真实性和情感细腻度上超越了竞品如ElevenLabs，尤其在多语言支持和生产效率上表现突出。云端处理速度极快，平均20秒即可生成高质量语音，且支持批量处理，适合大规模商业应用。

未来展望:语音交互的新篇章

Fish Audio表示，OpenAudio S1的发布只是起点。未来，团队计划推出实时语音交互功能，支持与语音库角色的无缝对话，进一步提升交互体验。此外，通过持续扩展训练数据和优化RLHF，S1有望支持更多语言和更复杂的情感表达，巩固其在TTS领域的领先地位。

AIbase认为，OpenAudio S1的推出标志着AI语音技术向专业化、普惠化的重要转变。其强大的多语言支持和情感控制能力，不仅为开发者提供了创新空间，也为普通用户带来了更自然的语音交互体验。随着实时交互功能的临近，OpenAudio S1有望重塑虚拟助手、内容创作和游戏产业的语音应用格局。

体验地址：https://fish.audio/zh-CN/

相关推荐

《英勇之地》手游S1赛季7月25日开启宝石之海震撼启航

《英魂之地》S1赛季"宝石之海"7月25日上线，带来全新海洋主题玩法。包含糖果甜心岛和阳光海域两张新地图，玩家将化身潜艇探索海底世界，挑战圣代霸主、甜心女王等全新BOSS。新增英雄"海女"掌控潮汐之力，独特天赋系统让玩家自由搭配BD套路。这是游戏首次尝试赛季制，主打高沉浸感冒险体验，从甜美糖果到深海暗流，每个设计都体现玩法创新。

英勇之地宝石之海糖果甜心
普渡机器人发布大载重工业配送机器人PUDU T600系列，助力工业物流市场革新

普渡机器人7月24日发布全新工业配送机器人PUDU T600系列，提供标准版和潜伏版两种形态。该系列具备600kg超大运载能力，支持智能货架识别、自主乘梯调度和多机协作功能，兼容VDA5050通信协议。创新配备灾害避险模块，支持私有化部署保障数据安全。产品适用于电子、半导体、新能源等工业场景，助力构建高效智能物流体系。作为全球服务机器人领军企业，普渡科技专注移动�

配送机器人普渡科技工业物流
普渡机器人发布AI扫吸推机器人PUDU MT1 Vac，重新定义智能吸尘新标准

普渡科技7月15日发布AI扫吸推机器人PUDU MT1Vac，专为大面积吸尘场景设计。产品采用双独立风道系统，吸尘效率提升200%，配备20L超大容量尘污分离系统，单次作业可覆盖1000㎡酒店地毯清洁需求。机器人具备55cm超宽吸尘宽度，集成HEPA级过滤系统，能识别不同地面材质自动调节吸力。搭载激光SLAM+视觉VSLAM融合定位系统，适应酒店、商超等复杂场景。该产品填补了大容量高效吸尘机器人市场空白，推动行业智能化升级。
全能旗舰 | KSCAN-E重塑工业计量效率与精度新标杆

思看科技推出旗舰级KSCAN-E智能无线三维扫描仪，具备0.02mm超高精度和8,290,000点/秒扫描速度，支持6种工作模式。该设备采用嵌入式运算模块和双供电系统，实现无线数据采集，适用于航空航天、汽车制造等工业领域。配备4×27蓝光激光线和高性能相机，支持180fps高速扫描，可精准捕捉复杂表面特征。内置强大计算模块，支持无线传输和双网卡设计，满足户外作业需求。搭配DefinSight计量软件平台，提供全场景三维数字化解决方案，重新定义工业计量效率与精度的新标准。
应对VMware转型挑战！腾讯云x Omdia发布业内首个《从VMware到分布式云：企业虚拟化转型实战指南》

腾讯云联合Omdia发布《从VMware到分布式云：企业虚拟化转型实战指南》，针对博通收购VMware后73%企业加速迁移计划的情况，提出"平替-升级-演进"三阶段路径。方案覆盖IaaS层替换、全栈云升级到云原生演进全场景，提供分布式云与专有云解决方案，支持5000vCPU规模下TCO降低30%。指南包含迁移策略、工具链及金融、制造等行业案例，如某银行8小时完成130套系统迁移并通过三级认证。腾讯云通过热迁移、数据同步等20余种工具，助力企业实现业务连续性保障和平滑过渡。

云计算虚拟化转型企业迁移
绘王发布新款蓝牙单手键盘Keydial Remote K40

7月15日，绘王推出专为ACG创作者设计的单手键盘Keydial+Remote K40。该产品仅152×56×13.5mm大小，配备8个自定义按键和2个切换键，采用U型布局。支持6组软件专属快捷键设置，创新双编码器采用内外圈嵌套设计，全键无冲。配备OLED屏实时显示键值/电量，蓝牙5.0支持PC/移动端双通道切换，约30小时续航满足多场景创作需求。
逗哥配音重磅推出“AI分角”功能，革新多角色配音创作体验

短视频配音工具"逗哥配音"推出革命性"AI分角"功能，通过先进AI算法自动识别剧本中的不同角色及上下文关系，智能分配最适合的发音人进行演绎。该功能将原本需要数小时的人工分拆标注工作缩短至几分钟完成，大幅提升小说推文、沙雕动画等多角色配音内容的创作效率，确保角色配音连贯自然。平台还整合近千种优质发音人、声音克隆等技术，构建覆盖音频创作全流程的一站式智能解决方案，标志着AI语音技术在内容创作领域取得关键突破。
itc保伦股份无纸化会议、高清录播等系统全面应用于中煤平朔集团平朔宾馆，赋能打造「智慧酒店」新标杆！

ITC保伦股份参与的中煤平朔集团平朔宾馆修缮改造项目于2025年1月24日通过竣工验收。此前双方已开展深度合作，为集团总部及多个核心区域提供全场景音视频系统解决方案，助力智慧矿山建设。此次合作聚焦宾馆会议系统智能化升级，部署无纸化会议、远程视频会议等系统，实现会议全流程数字化管理。项目配备双面屏智能终端、专业扩声系统等设备，显著提升会议效率和服务质量。作为山西省首家涉外五星级宾馆，平朔宾馆通过ITC的智慧化改造，进一步强化了高端会议接待能力，赢得客户高度赞誉。此次合作彰显了ITC在音视频领域的综合实力。

智慧矿山建设音视频系统解决方案数字化转型
小米汽车发布语音控制专利：车外也能精准唤醒

日前，国家知识产权局中国专利公布公告网发布更新，小米汽车科技有限公司、北京小米移动软件有限公司、北京小米松果电子有限公司申请的车外语音控制方法、装置、存储介质及电子设备” 专利位列其中。该专利申请于 2025 年 4 月 17 日，申请号为 2025104893047，申请公布号为 CN120375822A，发明人包括何琪琪、吴俊楠、范利春、于博仑、王露明、王鹏、李炯亮、高鹏。该专�

小米汽车语音控制人工智能
荐AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；OpenAI即将发布 GPT-5

【AI日报】今日AI领域重要动态：1)Coze推出网页AI设计功能，5分钟生成网页；2)通义千问发布Qwen-MT翻译模型，支持92种语言；3)ChatGPT全面推出Agent功能；4)阿里云Wan2.2视频生成AI即将上线；5)Anthropic推出审计Agent提升AI对齐测试；6)OpenAI计划8月发布GPT-5；7)谷歌发布无代码AI应用开发工具Opal；8)南洋理工与上海AI Lab推出PhysX-3D项目，为3D模型添加物理属性；9)快手开源KAT-V1大模型，40B版本性能接近DeepSeek-R1；10)讯飞星火X1升级版上线，在多语言和语音处理方面显著提升。(140字)

人工智能网页设计 AI技术

今日大家都在搜的词：

热文

3 天
7天

Fish Audio发布OpenAudio S1：媲美专业配音演员的AI语音新标杆

《英勇之地》手游S1赛季7月25日开启宝石之海震撼启航

普渡机器人发布大载重工业配送机器人PUDU T600系列，助力工业物流市场革新

普渡机器人发布AI扫吸推机器人PUDU MT1 Vac，重新定义智能吸尘新标准

全能旗舰 | KSCAN-E重塑工业计量效率与精度新标杆

应对VMware转型挑战！腾讯云x Omdia发布业内首个《从VMware到分布式云：企业虚拟化转型实战指南》

绘王发布新款蓝牙单手键盘Keydial Remote K40

逗哥配音重磅推出“AI分角”功能，革新多角色配音创作体验

itc保伦股份无纸化会议、高清录播等系统全面应用于中煤平朔集团平朔宾馆，赋能打造「智慧酒店」新标杆！

小米汽车发布语音控制专利：车外也能精准唤醒

荐AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；OpenAI即将发布 GPT-5

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

全球第一网红野兽先生计划中国行比甲亢哥更火

京东首家自营外卖门店开业宣布 3 年内建设 1 万家七鲜小厨

站长商机