首页 > AI头条  > 正文

超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频

2025-01-02 10:52 · 来源: AIbase基地

在人工智能领域,文本音频生成技术正逐渐成为研究的热点。最近,研究者们推出了一款名为 TANGOFLUX 的全新模型,该模型在性能和效率上均表现出色。

TANGOFLUX 是一种高效的文本到音频生成模型,拥有515百万个参数,能够在短短3.7秒内生成最长可达30秒的44.1kHz 音频,这一速度让其在单个 A40GPU 上的表现非常出色。

image.png

TANGOFLUX主要是特色是可以生成各种音效,例如鸟叫、口哨、爆炸等声音,另外也支持生成音乐不过效果就不那么理想了。

文本音频生成模型的一个主要挑战在于如何创建偏好配对。与大型语言模型(LLMs)不同,文本音频生成模型缺乏可验证的奖励机制或金标准答案。为了解决这个问题,研究团队提出了一种名为 CLAP-Ranked Preference Optimization(CRPO)的新框架。该框架通过迭代生成和优化偏好数据,以提升文本音频生成模型的对齐性能。研究表明,使用 CRPO 生成的音频偏好数据在性能上优于现有的替代方案。

通过这一框架,TANGOFLUX 在多项客观和主观基准测试中都取得了领先的表现。此外,研究团队还决定将所有代码和模型开源,以支持更多人对文本音频生成的研究。对于需要音频生成的应用场景,TANGOFLUX 无疑是一项具有重要意义的技术进展。

在实际效果方面,TANGOFLUX 在音频生成质量上优于其他模型,展现出更清晰的事件声音、更好的事件顺序再现以及更高的音频质量。通过对多个示例的比较,用户可以直观地感受到 TANGOFLUX 在音频生成中的优势。

提示词:人类悠扬的口哨声与自然鸟鸣和谐共存,生成的效果如下:

随着这一新技术的问世,文本到音频生成的应用前景愈加广阔,未来可能会在影视制作、游戏音效等领域发挥重要作用。

项目入口:https://tangoflux.github.io/

划重点:

🎧 TANGOFLUX 是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。  

🔧 提出了 CLAP-Ranked Preference Optimization(CRPO)框架,以优化模型性能和音频偏好数据。  

🌍 所有代码和模型已开源,旨在推动文本音频生成的研究与应用。  

  • 相关推荐
  • 30秒挑战火热上线,联想极光键鼠整套装备同步上桌!

    联想在小红书、抖音发起“极光键帽挑战赛”,要求30秒内安装26个键帽,看似简单实则考验玩家手速与熟练度。活动吸引众多用户花式参与,从轻松整活到高手竞速,将机械键盘的“装”与“玩”推向新高度。参与者可赢取联想极光键盘、耳机等外设好礼,通过沉浸式互动重拾对桌面设备的掌控感。配合双十一优惠,极光系列外设以灵活连接、强悍性能与灯效联动,成为打造高效高颜值桌搭的刚需选择。

  • 男子20.67秒立6个鸡蛋破吉尼斯世界纪录!本人:练平衡术30年 物品上手就能找到重心

    近日,一位来自河北唐山的男子,用时20.37秒将6个鸡蛋立在桌面上,打破了吉尼斯世界记录。 男子回应称,自己是一名平衡术爱好者,擅长瓶子、石头、杯子等物品平衡立于水平面之上。

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 火山引擎:豆包大模型日均tokens使用量突破30万亿

    今日在FORCE LINK AI创新巡展武汉站上,字节跳动旗下火山引擎披露最新大模型token调用数据。 火山引擎总裁谭待现场表示,豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。 在企业市场,据IDC9月报告,2025年上半年,中国公有云大模型调用量达536.7万亿tokens。

  • 什么样的内容最容易被AI引用?GEO(生成引擎优化)时代的核心命题

    随着AI问答时代到来,用户从“搜索”转向直接向AI“提问”,生成引擎优化(GEO)应运而生。文章指出,易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可,并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测,通过模拟真实用户提问,提供品牌在AI回答中的曝光度、排名等数据分析及优化建议,帮助品牌提升AI可见度,抢占智能问答时代先机。

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

  • 生成式 AI 搜索优化(GEO)完全指南:从入门到落地

    随着生成式AI工具普及,用户更倾向直接提问而非传统搜索,导致优质内容可能被AI忽略。本文介绍生成式引擎优化(GEO)策略,帮助内容被AI理解、引用并整合进答案。核心包括:优化内容结构(如摘要、问答块、列表)、使用Schema标记、构建权威性,并推荐AIBase等工具监控引用效果。GEO是SEO的演进,需重塑写作方式以适应AI阅读逻辑。

  • 雪豹“凌小蛰”恢复顺利 胖了30斤:能跑能跳

    2025年3月,青海玉树治多县生态管护员在巡护时发现一只生命垂危的雪豹幼崽,经鉴定为不足半岁的雌性个体,体重仅9.7公斤,远低于同期幼崽健康标准。这只被命名为“凌小蛰”的雪豹因高空坠落导致脊椎损伤,被紧急送往西宁野生动物救护繁育中心救治。截至10月23日“世界雪豹日”,其体重已增至25公斤,七个月内增重超15公斤,康复进展引发广泛关注。 据救护中心专家�

  • GEO如何优化?GEO生成式引擎优化平台推荐

    在数字化浪潮席卷的当下,品牌在AI平台中的可见度成为众多企业关注的焦点。AIBase推出的GEO优化分析工具(https://app.aibase.com/zh/tools/geo)为品牌主提供了一站式AI平台品牌可见度检测与优化服务。 核心功能:该工具的核心功能是智能检测品牌在AI平台中的曝光情况,覆盖豆包、Deepseek、通义千问、腾讯元宝、文心一言等五大主流AI平台。用户通过简单操作,即可模拟真实用户搜�

  • 生成式引擎优化(GEO)是什么?从0到1理解新一代SEO

    本文系统介绍了生成式引擎优化(GEO)这一新兴概念。GEO旨在通过优化内容结构、提升语义丰富度和权威性,增强内容在AI生成答案中的可见性和引用率。与关注关键词排名的传统SEO不同,GEO聚焦三大转变:从排名思维转向引用思维,从关键词优化转向语义优化,从流量思维转向信任思维。文章详细解析了GEO的三大核心逻辑(结构化内容、权威信号、语义丰富度)、五大实用技巧(构建FAQ、数据支撑、场景化建议、时效维护、内容网络),并指出当前面临的算法黑盒、效果滞后等挑战。最后强调GEO需通过专业检测工具持续验证优化效果,是企业抢占AI时代流量红利的关键利器。

今日大家都在搜的词: