首页 > AI头条  > 正文

李沐团队发布 Higgs Audio v2,开创语音合成新纪元

2025-07-24 09:25 · 来源: AIbase基地

知名 AI 创业者李沐与他的团队 Boson.ai 最近推出了全新的开源文本转语音(TTS)大模型 ——Higgs Audio v2。这款模型不仅可以将文本转换为语音,还具备多语言对话生成、韵律自动调整和声音克隆等多种功能,堪称语音合成领域的一次重大突破。

Higgs Audio v2的强大之处在于其多模态能力,它不仅能够处理文本信息,还能理解和生成语音,完成复杂任务。例如,它可以写一首歌并用特定的声音演唱,同时还可以配上背景音乐,这在以前的 TTS 技术中是不可想象的。

image.png

该模型融合了多达1000万小时的语音数据进行训练,确保其在各种基准测试中的优异表现。根据 EmergentTTS-Eval 测试,Higgs Audio v2在 “情绪” 和 “问题” 两个类别中,胜率分别超过了 GPT-4o-mini-tts 高达75.7% 和55.7%。在传统的 TTS 测试中,该模型同样展现了超凡的性能,成为行业标杆。

image.png

技术上,Higgs Audio v2采用先进的数据处理方式,每秒25帧的语音信号通过离散化音频分词器转化为编号序列,从而精准捕捉语义与声学特征。同时,模型架构利用了预训练的大型语言模型,使其在理解语言和上下文方面具备了强大的能力。此外,该模型还具备上下文学习能力,能通过简单提示快速适应新的任务,实现零样本的语音克隆。

image.png

在应用场景上,Higgs Audio v2能够实现实时语音聊天,提供低延迟和情感表达的自然互动,非常适合用在虚拟主播和实时语音助手中。同时,音频内容创作方面,它能够生成自然对话和旁白,为有声读物、互动培训及动态故事讲述等提供强大支持。最后,语音克隆功能让它能够复制特定人物的声音,开启娱乐和创意领域的新可能性。

这款模型的代码已经全部开源,用户可以在 GitHub 和 Hugging Face 平台上找到,支持在本地安装,用户需准备 GPU 版的 PyTorch 或使用 Docker 进行简化安装。

  • 相关推荐
  • 小尾巴开创者,华海良及lifeme魅蓝声学团队的深耕

    2025年Q1消费电子报告显示,魅族、lifeme魅蓝品牌在解码耳放品类占据37.2%市场份额,累计用户评价超86万条,好评率达95.3%。华海良团队推出的HiFi产品在专业音频领域表现突出,但传播度较低。华海良2004年加入魅族,2021年创立蓝辰科技,专注声学领域。2019年推出全球首款Type-C HIFI解码耳放,解决手机取消3.5mm接口后的音质问题。2022年推出79元入门级HiFi耳放,2023年升级专业款,2024年推出更mini的EA2T型产品。2025年5月发布HS1系列和HD2pro,采用经典架构,实现音色可玩性。团队专注声学领域21年,持续深耕HiFi市场。

  • 共探AI视频新纪元:讯飞“绘镜开放麦”全回顾

    7月12日,科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行,汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划",邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验,讯飞工程师详解了AI视频生成技术原理,强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术,提升视频生成质量。活动还展示了AI视频挑战赛优秀作品,6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区,将持续推动AI创作生态发展。

  • 从“修图师”到“艺术总监”,图灵精修:AI赋能摄影创作新纪元

    文章介绍AI修图工具"图灵精修"如何革新商业摄影后期流程。该工具融合达芬奇电影级调色引擎和16位色彩管理技术,能智能处理皮肤瑕疵、衣物褶皱等常见问题,将传统25分钟的修图时间缩短至30秒内。通过与影楼管理系统无缝对接,实现从拍摄到交付的全流程效率提升30%,降低成本60%。CEO表示该工具旨在解放修图师的重复劳动,让其转型为视觉创意专家。数据显示,使用后影楼创意时间增加3小时,客单价提升25%。图灵精修以亲民价格提供顶级修图质量,正推动行业从"修图"向"创意"转型。

  • 小米汽车发布语音控制专利:车外也能精准唤醒

    日前,国家知识产权局中国专利公布公告网发布更新,小米汽车科技有限公司、北京小米移动软件有限公司、北京小米松果电子有限公司申请的 车外语音控制方法、装置、存储介质及电子设备” 专利位列其中。 该专利申请于 2025 年 4 月 17 日,申请号为 2025104893047,申请公布号为 CN120375822A,发明人包括何琪琪、吴俊楠、范利春、于博仑、王露明、王鹏、李炯亮、高鹏。 该专�

  • 小红书支持发布语音评论 官方回应:内测中

    近日,小红书平台悄然上线语音评论功能引发网友广泛关注。部分用户在评论区发现可发送语音消息的新选项,但更多用户反馈其App更新后仍未获得该功能入口。 据小红书官方客服回应,语音评论功能目前处于内测阶段,仅向特定用户群体开放测试权限,尚未支持主动申请开通。 这一说法与用户反馈的“部分账号可见”现象相吻合,平台或通过分层测试评估功能稳定性与用�

  • FlymeAuto合作车型单月新增超10万 总销量超过127万辆

    在竞争激烈的智能座舱领域,魅族FlymeAuto成绩亮眼。 最新数据显示,其合作车型6月单月新增超10万辆,总销量已突破127万辆大关。 自推出以来,FlymeAuto以独特的设计和强大的功能吸引众多车企合作。其核心优势在于将消费电子领域的成熟交互理念融入汽车座舱,实现流畅的多设备互联互通。 比如,用户可以轻松将手机上的应用无缝流转到车机屏幕上,实现信息的跨设备同�

  • 年轻人终究是被丑鞋“夺舍”了:审美转向 舒适个性成新宠

    近日,时尚界掀起一股“丑鞋”热潮,VOGUE更将2024年定义为“丑鞋之年”。曾经备受追捧的高跟鞋逐渐被年轻人冷落,取而代之的是洞洞鞋、勃肯鞋等造型独特、舒适度高的鞋款,这些鞋款虽被戏称为“丑鞋”,却意外赢得了年轻消费者的青睐。 这股风潮下,年轻人对鞋履的选择不再局限于传统审美,而是更加注重舒适与个性表达。洞洞鞋、勃肯鞋等“丑鞋”因其独特的造型

  • 颠覆自我,涅槃重生 | ETest V5.0 重磅发布!

    国内领先的仿真测试开发环境ETest推出V5.0版本,在测试全流程管理、系统灵活性、开发效率等方面实现全面突破。新增测试需求管理功能,支持需求与测试用例动态关联;资源管理模块支持复杂系统配置;ICD管理升级为独立核心功能,支持多维协议设计;新增用例库与测试序列管理,支持Python生态集成;引入AI引擎实现自然语言转测试脚本功能,提升需求分析效率70%。该版本已在航空、汽车电子、工业测控等领域成功应用,支持国产高端装备测试技术国产化发展。

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • 最年轻华人宇航员!孙宇晨首登太空开创区块链新篇章

    90后华人企业家孙宇晨将搭乘蓝色起源"新谢泼德号"火箭实现太空梦想,成为最年轻的华人商业宇航员。他2021年以2800万美元竞得该席位,并将全部资金捐赠支持青少年STEM教育。此次10分钟亚轨道飞行将体验4分钟失重状态,飞越100公里卡门线。作为区块链领域领军人物,孙宇晨此次太空之旅不仅实现个人梦想,更彰显华人科技创新精神,为全球青少年树立追求科学梦想的榜样。

今日大家都在搜的词: