首页 > 业界 > 关键词  > RTFS-Net最新资讯  > 正文

清华大学团队推出RTFS-Net:革新视听语音分离,百万参数实现高效性能

2024-03-06 17:14 · 稿源:站长之家

**划重点:**

1. 🎙️ RTFS-Net首个采用少于100万个参数的视听语音分离方法,通过压缩-重建策略显著减少计算复杂度。

2. 🌐 针对传统视听语音分离方法的问题,RTFS-Net创新性地解决了时域和时频域方法的挑战,提高了在复杂环境中的性能。

3. 🚀 在三个基准多模态语音分离数据集上,RTFS-Net在大幅降低模型参数和计算复杂度的同时,接近或超越了当前最先进的性能。

站长之家(ChinaZ.com)3月6日 消息:清华大学的胡晓林团队最近推出了一项创新性的视听语音分离方法,称为RTFS-Net。这一方法通过采用压缩-重建的策略,不仅实现了百万参数以下的视听语音分离,而且显著减少了计算复杂度,为音视频分离领域带来了新的视角。

image.png

传统的视听语音分离方法通常依赖于复杂的模型和大量的计算资源,尤其在嘈杂背景或多说话者场景下性能受到限制。RTFS-Net通过创新性地解决时域和时频域方法的挑战,突破了这些限制。时域方法提供高质量的音频分离效果,但计算复杂度高,而时频域方法虽然计算效率更高,却一直面临缺乏独立建模、未充分利用多个感受野的视觉线索和对复数特征处理不当等问题。

RTFS-Net的关键在于引入了RTFS块,该块通过双路径架构在时间和频率两个维度上对音频信号进行有效处理。具体来说,RTFS块首先进行时间和频率维度的压缩,然后在压缩后的维度上进行独立建模,最后通过融合模块将两个维度的信息合并。这一策略不仅减少了计算复杂度,还保持了对音频信号的高度敏感性和准确性。

此外,RTFS-Net还引入了跨维注意力融合(CAF)模块,有效融合音频和视觉信息,提高了语音分离效果。CAF模块采用深度和分组卷积操作生成注意力权重,动态调整输入特征的重要性,通过对视觉和听觉特征应用注意力权重,实现在多个维度上聚焦于关键信息。

最终,RTFS-Net的实验结果表明,在三个基准多模态语音分离数据集上,该方法在大幅降低模型参数和计算复杂度的同时,接近或超越了当前最先进的性能。通过不同数量的RTFS块的变体展示了在效率和性能之间的权衡,其中RTFS-Net-6在性能与效率方面取得了良好的平衡,而RTFS-Net-12在所有测试的数据集上表现最佳,证明了时频域方法在处理复杂音视频同步分离任务中的优势。

这一创新性的视听语音分离方法为提高AVSS性能提供了新的思路,不仅降低了计算复杂度和参数数量,而且在保持显著性能提升的同时,为音视频分离领域注入了更多创新和高效的架构。

  • 论文地址:https://arxiv.org/abs/2309.17189

  • 代码地址:https://github.com/spkgyk/RTFS-Net(即将发布)

举报

  • 相关推荐
  • 清华大学一教师遇“百万保险”骗局:保卫处紧急提醒

    清华大学保卫处近日发布提醒,称近日接到公安机关通报,有多起冒充客服实施的网络诈骗案件,目标直指高校师生群体。诈骗手段:诈骗分子常采用电话或短信的方式,假冒淘宝、京东、抖音等平台客服,以退款、账户安全等事由为幌子,诱使受害者提供银行账户信息,或者引导其进行转账操作。6.强化账户安全:定期更新账户密码,且尽量使用复杂密码,以此提高账户的安全性。

  • 用上车规级UFS 4.0,让出行变得高效且可靠

    2025年上海国际车展显示,汽车智能化、电动化趋势加速,车载存储需求激增。随着大尺寸中控屏、HUD、流媒体等配置普及,单车存储容量将从35GB提升至数百GB甚至TB级别。车规级UFS 4.0存储成为关键,其传输速度达4,640MB/s,可快速加载高清地图和AI模型。严苛的车规认证(如AEC-Q100、IATF16949)要求存储芯片在极端温度、振动环境下稳定工作。行业正从单一ECU向域控制器架构转型,高性能车规存储需兼具大容量、高可靠性和宽温工作特性,以满足智能驾驶和车载娱乐系统的数据需求。

  • 亚马逊十大ERP系统推荐:助力卖家高效运营

    在亚马逊电商市场竞争日益激烈的背景下,如何高效管理库存、订单、财务等业务环节,成为卖家提升竞争力的关键。ERP系统作为卖家运营的核心工具,能够集成各环节数据,实现业务流程的自动化与智能化管理。通过有效利用ERP系统,卖家可实现业务流程的优化和智能化管理,从在激烈的市场竞争中脱颖出。

  • 腾讯“物种之眼”AI全新升级 高效识别数千物种

    AI系统“物种类辨”通过少量数据学习,显著提升了对多种生物的识别准确率与召回率,尤其在高精度识别多类生物方面表现出色,推动生态保护与智能技术发展。腾讯开放平台“野生生物多态数据协作”项目助力野生动物监测及保护工作,促进公众科学参与。

  • 弧面紧贴、深度杀根——飞科F8重塑高效净剃新标杆

    4 月 16 日,中国个人护理电器国民品牌飞科重磅发布新一代“高速弧面剃须系统”剃须刀F8(以下简称飞科F8),这款集“弧面不锈钢刀网、高速追频直线电机、AI胡须感应科技“于一体的创新产品……

  • 小屏性能续航王!一加13T今日发布:参数汇总

    一加13T将于4月24日14:30发布,主打"小屏大魔王"概念。配备6.32英寸1.5K LTPO直屏,2460*1216分辨率,120Hz刷新率,支持HDR10+和杜比视界。搭载骁龙8至尊版处理器,安兔兔跑分达303万,支持原生120帧游戏体验。内置6260mAh电池支持80W快充,重量仅185g。后置5000万IMX906主摄+5000万长焦双摄。具备金属中框、光学屏下指纹、X轴马达和IP65防水等配置,71.7mm宽度设计符合人体工学。

  • 11.5天高效完成!我国超深水钻井周期纪录刷新

    快科技4月16日消息,中国海油宣布,在我国南部海域某超深水探井作业中,仅用11.5天就高效完成钻井作业,创造了3500-4000米超深水钻井周期的新纪录。这一突破标志着我国自主深水钻完井技术体系已具备国际先进水平。此次技术突破验证了我国在超深水钻完井领域的优智技术实力,对推动深水油气资源规模化开发具有重要意义。数据显示,十四五以来,我国深水井钻完井作业量较十三五增长超74%,有力支撑了多个大型深水油气项目的建成投产。为加快深海油气开发,中国海油在深水、超深水、高温高压、超高温超高压等多个高技术、高难度领域开展钻完?

  • 记忆重塑,讲真学堂打造《高效记忆训练营》助力学员记忆升级

    在日常生活中,许多人常遇到这样的场景:随手放置的物品难以找回,刚刚想要做的事情转眼就忘,老板和同事的交代也时常在脑海中消失无踪……这些记忆力减退的现象,不禁让人担忧自己是否提前步入了记忆力衰退的阶段。面对这一挑战,深入了解记忆与记忆消退的机制显得尤为重要。讲真学堂将继续秉承科学赋能、终身学习的理念,不断优化和完善《高效记忆训练营》课程,为更多学员提供高质量的记忆训练服务,助力他们打造坚实的记忆基石,迎接更加美好的人生。

  • 通过技术赋能与生态构建 一品威客提供高效的创意解决方案

    在数字经济高速发展的今天,中小企业普遍面临资源分散、成本高企、人才匹配困难等挑战。一品威客作为国内知名的数智化创意设计交易服务平台,通过技术赋能与生态构建,为中小企业提供了从创意需求发布到服务交付的全链路、数字化的创意解决方案。跨地域“技术输血”,破解本地资源困局江西景德镇的吴总在 2025 年 3 月计划开发商城小程序和网站时,面临本地技术�

  • 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

    亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。