首页 > AI头条  > 正文

英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超 84 倍!

2025-06-10 15:17 · 来源: AIbase基地

近日,香港大学与英伟达共同研发了一种新的视觉注意力机制,名为广义空间传播网络(GSPN),该机制在高分辨率图像生成方面取得了显著的突破。

传统的自注意力机制虽然在自然语言处理和计算机视觉领域取得了不错的效果,但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为 O (N²),这使得处理长上下文时非常耗时,并且将二维图像转化为一维序列会导致空间关系的丢失。

image.png


为了解决这些问题,GSPN 采用了创新的二维线性传播方法,并结合 “稳定性–上下文条件” 理论,将计算复杂度降低到√N 级别,同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率,并在多个视觉任务上刷新了性能纪录。

GSPN 的核心技术包括两大部分:二维线性传播和稳定性 - 上下文条件。通过逐行或逐列的线扫描,GSPN 能够实现对二维图像的高效处理。与传统的注意力机制相比,GSPN 不仅减少了参数量,还保持了信息的完整传播。此外,研究人员还提出了稳定性 - 上下文条件,确保在长距离传播时系统的稳定性与可靠性。

在实验中,GSPN 展现出了卓越的性能。在图像分类任务中,GSPN 在5.3GFLOPs 的计算量下,实现了82.2% 的 Top-1准确率,超越了多种现有模型。在图像生成方面,GSPN 在处理256×256的任务时,生成速度提升了1.5倍。尤其在文本到图像生成任务中,GSPN 能够在16K×8K 分辨率下进行快速生成,推理时间加速超过84倍,展示了其在实际应用中的巨大潜力。

综上所述,GSPN 通过独特的设计理念和结构,使得视觉注意力机制在保持空间连贯性的同时,实现了计算效率的显著提升,为未来的多模态模型和实时视觉应用开辟了新的可能。

项目主页: https://whj363636.github.io/GSPN/

代码:https://github.com/NVlabs/GSPN

划重点:

🌟 GSPN 通过创新的二维线性传播机制,将高分辨率生成速度提升超过84倍。

💡 该机制解决了传统自注意力在高分辨率图像处理中的计算复杂度和空间结构损失问题。

🚀 GSPN 在多个视觉任务中刷新了性能纪录,为未来的应用提供了新方向。

  • 相关推荐
  • 英伟达重夺全球市值第一头衔 再度超越微软

    去年6月19日,英伟达股价曾以135.58美元创下历史新高,当时总市值达3.335万亿美元,一举超越微软和苹果,首次登上全球市值最高上市公司的宝座。此后,在全球市值排名中,英伟达与苹果、微软展开激烈角逐,三者轮番登顶。上一次英伟达成为市值最高的公司是在今年1月24日。 从英伟达自身的财务表现来看,其业绩也相当亮眼。根据英伟达2026财年第一季度财报,该季度公司

  • 英伟达纵深扩展量子计算版图,微软/微美全息共发力奔赴技术革命新征程!

    英伟达CEO黄仁勋在COMPUTEX2025发表主题演讲,宣布推出企业AI计算平台NVIDIA RTX PRO服务器,搭载RTX PRO6000 Blackwell GPU,专为驱动AI工厂和加速企业AI工作负载设计。同时英伟达布局量子计算,设立全球量子AI技术研发中心G-QuAT,并投资量子计算初创公司PsiQuantum。微软宣布将后量子密码学技术整合到Windows系统,谷歌高管预测量子计算应用或将在五年内实现。微美全息作为量子产业先锋,通过量子计算与AI超算融合实现技术突破。全球科技巨头正加速布局量子计算领域,英伟达引领AI产业向纵深发展,在新竞争格局下进军量子计算,押注下一代技术浪潮。

  • AI机器人赛道竞速,英伟达/微美全息GPU+AI全栈布局双轮驱动产业化浪潮!

    英伟达CEO黄仁勋在Computex2025电脑展发表主题演讲,宣布公司转型为AI基础设施提供商。重点展示了四大方向:消费级RTX显卡、B300服务器芯片、Omniverse软件平台及自动驾驶/机器人技术。推出全新GB300 Blackwell Ultra AI平台,提升训练和推理能力。黄仁勋强调机器人技术将引领下一场工业革命,推出Isaac GR00T机器人开发平台和Jetson Thor处理器。摩根士丹利预测人形机器人市场规模将达60万亿美元,中国到2050年市场规模或达6万亿元。微美全息等企业正加速布局该领域,通过AI视觉、自然语言处理等技术提升机器人环境感知与决策能力。黄仁勋指出智能体(Agent)、模型(Model)和机器人(Robot)将成为未来十年技术话语权争夺的关键。

  • 微信小店,悄悄推出新功能

    微信电商,瞄准了拼多多。 2025年6月,不少用户发现微信小店悄悄上线“跟朋友一起买”功能(以下简称“一起买”功能),面向九牧王、东方甄选等品牌开放内测。 “一起买”功能类似于拼多多的拼团功能,但仅有金额要求,并没有人数要求。用户发起拼单后,只需邀请好友凑满指定金额即可成团,如果拼团超时未达到目标金额,系统则会自动退款。

  • 王腾晒出REDMI K80至尊版的超宽频赛博马达:体积庞大 成本提升4倍

    今天下午,REDMI总经理王腾晒出了K80至尊版搭载的超宽频赛博马达。 王腾介绍,马达和相机传感器类似,体积越大性能越强,我们实拍了K80至尊版搭载的超宽频赛博马达,可以看到体积几乎是行业主流型号的两倍,我们还为这颗超大马达配备了独立的驱动IC,确保带来最佳的振感体验。

  • 用户总收不到推送?EngageLab黑科技让消息直达,送达率提升40%

    EngageLab AppPush SDK提供消息增强功能,通过自有长连接通道将通知转为应用内消息,确保用户关闭系统通知时仍能收到重要信息。其技术架构基于TCP长连接,当检测到通知权限关闭且应用在前台时,消息会直接渲染为应用内弹窗或横幅。相比FCM,该方案在用户活跃度低时送达率可提升40%。开发者只需简单配置即可实现该功能,适用于电商订单提醒、网约车派单等时效性场景。最佳实践建议采用极简设计、用户可控机制,并利用测试工具优化推送策略,平衡消息触达与用户体验。

  • 国产高边开关,稳先微推出12/24/48V近百款型号

    随着汽车行业向智能化、电动化发展,传统12V电气系统因功率不足难以满足商用车辆、工业设备等多样化应用场景需求。稳先微电子推出WST6+/WST5+系列智能高边开关芯片,专为24V/48V电控平台设计,具有高精度电流检测(2%精度)、高雪崩耐量(优于竞品20%)、低功耗待机模式(功耗仅为竞品1/40)等技术优势。产品采用单芯片设计,集成驱动、MOSFET、多重保护功能,覆盖单/双/四通道配置,导通电阻10mΩ-140mΩ,兼容多种封装。适用于商用车、工业机器人、无人机等领域,能有效提升系统能效和可靠性,支持自动驾驶功能开发。24V平台相比12V系统可减少线束直径和能量损耗,兼容多种电气设备,满足ASIL-D功能安全标准,未来市场规模将快速增长。

  • 微星升级电源售后服务,推出“连带损伤全额赔付”机制

    微星科技宣布升级中国区金牌及以上电源产品售后服务,推出"因电源质量问题导致硬件连带损伤"全额补偿机制。用户可凭购买凭证和损坏部件申请第三方鉴定,确认责任后可选三种补偿方案:直接更换同等级产品、更换相同硬件或按使用年限比例折价赔偿(首年100%,2-3年90%,4年起75%)。该方案覆盖产品全生命周期,将赔付责任延伸至电源可能引发的连带风险。微星表示,此次升级是"用户至上"理念的实践,旨在通过完善售后体系消除用户后顾之忧,在DIY硬件同质化市场中树立服务新标杆。

  • 299元!小米推出新款米家无线直发梳:满电用3-4次 能上飞机

    小米去年发布了一款米家无线直发梳,当时只有一款配色,现在推出了全新的云瑾紫”配色,将于明天正式开售,定价299元。 配置上与此前保持同步,最大的特点是无线,使用更方便。 内置两节3200mAh电池,充满电可使用3-4次,并且还设计了飞行模式,可以一键锁定放置误触开启,出差、旅游等都能随身携带,随时随地做造型。 支持160/180/200℃三挡调温,发热体采用MCH陶瓷�

  • 潮际好麦亮相大湾区国际女装展,AI商拍重构服装电商视觉生产力

    2025大湾区国际女装展上,潮际好麦(杭州潮际汇旗下品牌)展示其自主研发的智能商拍系统,30秒极速生成专业商品图,颠覆传统拍摄流程。系统特点:AI虚拟模特可一键生成独特形象,解决版权问题;智能匹配体型保留工艺细节;支持多场景背景切换;快速生成多样化风格草图。技术优势:多模态AI引擎确保图像质感;支持全尺码自动调整;单张商拍成本降至0.8元(行业平均10元+),效率提升40倍。展会期间与国内外多家服装企业达成合作,并宣布推出欧美/东南亚本土化模特库,助力国货出海。未来将持续深耕AI+服装垂直场景,推动"中国商拍"走向世界舞台。

今日大家都在搜的词: