首页 > 业界 > 关键词  > 正文

微软亚洲研究院推轻量级视觉网络新主干 AFF Token Mixer

2023-08-24 10:02 · 稿源:站长之家

文章要点:

  • 微软研究人员发现傅里叶变换可以实现Token融合,计算代价远低于大内核卷积。

  • 基于该发现设计了Adaptive Fourier Filter(AFF) Token Mixer,将计算复杂度降为O(NlogN)。

  • 使用AFF Token Mixer构建了轻量级神经网络AFFNet,在ImageNet上取得79.8%准确率。

站长之家(ChinaZ.com)8月24日 消息:微软亚洲研究院的研究人员最近在 ICCV2023上发表了一篇论文,提出了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,可以显著降低视觉神经网络的计算复杂度。论文显示,通过傅立叶变换可以等效地实现 Token 的融合,而计算量远小于直接使用大内核卷积进行 Token 融合。基于该核心思想,研究员设计了 AFF Token Mixer,可以将 Token 融合的计算复杂度从 O(N^2) 降低到 O(NlogN),同时实现全局自适应的 Token 融合。

image.png

论文地址:https://arxiv.org/abs/2307.14008

论文的主要贡献包括:1)证明了频域卷积可以实现与大内核卷积等效的 Token 融合,但计算量更低;2)设计了 AFF Token Mixer,可以高效全局融合 Token;3)基于 AFF Mixer 构建了轻量级神经网络 AFFNet。

image.png

AFF Token Mixer 的设计思路是:首先通过 FFT 把 Token 映射到频域,然后在频域学习一个内容自适应的滤波掩模,最后对频域进行滤波来实现 Token 的自适应融合。根据频域卷积定理,这在数学上等价于在原始域使用一个与 Token 集大小相同的大动态卷积核进行卷积。但频域滤波的计算量仅为 O(NlogN),远小于 O(N^2) 的空间卷积。

image.png

基于 AFF Token Mixer,研究人员构建了轻量级的全卷积网络 AFFNet,以其作为主干网络。在 ImageNet 图像分类任务上,AFFNet 仅使用550万参数就达到了79.8% 的准确率,优于其他轻量级模型如 VoVNet 和 RegNet 等。更令人惊讶的是,AFFNet 在多个下游任务上也展现出色的性能,如在 COCO 检测和 ADE20K 分割上明显超过了使用相近复杂度的模型。

本研究验证了频域变换在降低 Token 融合计算复杂度方面的有效性。AFF Token Mixer 为轻量级全局信息融合提供了新的有效途径。基于该 Token Mixer 构建的 AFFNet 作为新的轻量级 CNN 主干网络,有望推动更多视觉模型在边缘设备上的应用。本研究为探索有效的轻量级视觉网络结构提供了新的思路和范式。

举报

  • 相关推荐
  • 「6月27日AI日报」腾讯开源轻量级混元-A13B模型;可灵AI推“视频音效”功能

    AI日报主要内容: 1. 腾讯开源混元A13B模型,采用MoE架构,总参数量800亿,激活参数130亿,支持低端GPU部署 2. 可灵AI推出"视频音效"功能,实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext,支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini,支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜,集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务,一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent,几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n,手机也能运行云端AI性能

  • 对话智源研究院王仲远:做具身智能的“安卓系统”,而非专用的“iOS”

    大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的AI模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为AI发展的下一个重要方向。 在2025北京智源大会上,智源研究院发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现所谓的物理AGI。这一系�

  • 抖音宣布治理网络黑话烂梗

    近日,抖音平台针对网络环境中出现的不规范用语现象,尤其是“黑话烂梗”的传播,进一步加大了整治力度。抖音一直致力于倡导记录真实而美好的生活,并鼓励用户以规范、准确的文字进行表达。在《抖音社区自律公约》中,平台已明确提出建议用户重视文字的正确使用,减少错别字和拼音首字母缩写表达,自觉遵守语言文字规范。

  • 红魔电竞平板3 Pro支持网络共享:直接用手机网络 出门也能开黑

    红魔电竞平板3 Pro将于6月11日19:00正式发布,搭载了9英寸OLED小屏幕,是行业第一款采用9英寸屏的机型。 拥有行业最窄四等边,边框宽度仅有4.9mm,带来90.1%屏占比。 还把护眼属性拉到了极致,行业首发5280Hz超高频PWM调光,并且获得了SGS低蓝光无频闪护眼认证。此外,红魔电竞平板3 Pro还采用了纯平背壳方案,摄像头区域没有任何凸起,是目前行业中的唯一清流了。 而且摄像�

  • 100%签约!优刻得加码乌兰察布“Token之都”建设

    6月初,优刻得在乌兰察布智算中心B栋约2300个机柜正式启动交付,目前所有客户已完成签约,机柜资源被全面抢订。B栋主要服务大型通信设备厂商,重点聚焦AI大模型训练推理场景,平均设计功率达12kW,满足大模型训练等高算力需求。依托当地充沛绿电、优惠电价等优势,乌兰察布正发展成为全国重要大数据产业聚集区。优刻得作为代表企业,在当地自建14万平方米智算中心,可容纳12000个机柜,持续为AI训练、智能驾驶等领域提供算力支持。乌兰察布正加快从"能源输出地"向"AI生产力输出地"转型,打造特色"Token之都"。优刻得将持续推进AI智算资源布局,助力当地产业升级。

  • 暑期海外游,无惧网络环境!时空壶新T1首次实现“真离线”翻译

    随着暑期旅游旺季到来,海外游客面临语言不通和网络信号不稳定两大难题。时空壶T1翻译机创新性地内置AI大模型,实现真正离线翻译,在无网络环境下仍能提供优质翻译体验。其支持31种语言互译,覆盖全球98%主流旅游地,离线翻译准确率高达90%,大幅领先行业水平。T1还具备拍照翻译、实时汇率换算、紧急求助等实用功能,并内置eSIM卡提供两年全球免费流量。这款翻译机彻底解决了海外旅游中的语言障碍,让游客能畅享异国旅程。

  • Soul推出“假人设风险提醒”功能,净化网络环境

    社交平台Soul App针对"假人设"现象推出治理措施,通过"瞬间假人设风险提醒"功能识别虚假账号,准确率超95%。该功能可识别盗用他人照片、伪造身份信息等行为,已发送提醒超57万次。平台还升级图片识别模型,实现全网图片比对,并建立专项小组监控文字、语音等内容中的矛盾点。数据显示,虚假人设背后常隐藏诈骗风险,Soul将持续净化网络环境,打造安全可

  • AI网络,好用领航 | 信锐总部新展厅云参观直播精彩回顾!

    6月13日,信锐以"AI网络·好用领航"为主题举办总部新展馆"云参观"直播活动。市场部总经理张锐通过镜头带领观众沉浸式参观全新数字化展馆,围绕"好用"核心主题,展示无线、交换机、物联网、信锐锐灵四大产品线最新成果。重点呈现2021年首款搭载独立AI芯片的无线AP、2017年独创"瘦架构"模式的交换机系列、基于大模型技术的"小信GPT"智能运维方案,以及智慧空间解决方案。信锐通过"以用户为中心"的创新理念,致力于打造"零中断、零管理、高安全"的网络体验,提供全场景一致性的极致体验。

  • 唯一满配旗舰小折叠!TCL华星宣布独供小米MIX Flip 2内外屏

    日前,小米MIX Flip2发布,这是目前唯一满配旗舰小折,体验看齐直板旗舰。 新机发布后,TCL华星宣布,小米MIX Flip2的内外屏幕均由TCL华星独家提供。 小米MIX Flip2屏幕采用TCL华星C9发光材料,内外屏拥有一致的1.5K分辨率、460PPI,峰值亮度达3200nits,120Hz高刷新率,色彩还原精准自