首页 > 业界 > 关键词  > 正文

微软亚洲研究院推轻量级视觉网络新主干 AFF Token Mixer

2023-08-24 10:02 · 稿源:站长之家

文章要点:

  • 微软研究人员发现傅里叶变换可以实现Token融合,计算代价远低于大内核卷积。

  • 基于该发现设计了Adaptive Fourier Filter(AFF) Token Mixer,将计算复杂度降为O(NlogN)。

  • 使用AFF Token Mixer构建了轻量级神经网络AFFNet,在ImageNet上取得79.8%准确率。

站长之家(ChinaZ.com)8月24日 消息:微软亚洲研究院的研究人员最近在 ICCV2023上发表了一篇论文,提出了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,可以显著降低视觉神经网络的计算复杂度。论文显示,通过傅立叶变换可以等效地实现 Token 的融合,而计算量远小于直接使用大内核卷积进行 Token 融合。基于该核心思想,研究员设计了 AFF Token Mixer,可以将 Token 融合的计算复杂度从 O(N^2) 降低到 O(NlogN),同时实现全局自适应的 Token 融合。

image.png

论文地址:https://arxiv.org/abs/2307.14008

论文的主要贡献包括:1)证明了频域卷积可以实现与大内核卷积等效的 Token 融合,但计算量更低;2)设计了 AFF Token Mixer,可以高效全局融合 Token;3)基于 AFF Mixer 构建了轻量级神经网络 AFFNet。

image.png

AFF Token Mixer 的设计思路是:首先通过 FFT 把 Token 映射到频域,然后在频域学习一个内容自适应的滤波掩模,最后对频域进行滤波来实现 Token 的自适应融合。根据频域卷积定理,这在数学上等价于在原始域使用一个与 Token 集大小相同的大动态卷积核进行卷积。但频域滤波的计算量仅为 O(NlogN),远小于 O(N^2) 的空间卷积。

image.png

基于 AFF Token Mixer,研究人员构建了轻量级的全卷积网络 AFFNet,以其作为主干网络。在 ImageNet 图像分类任务上,AFFNet 仅使用550万参数就达到了79.8% 的准确率,优于其他轻量级模型如 VoVNet 和 RegNet 等。更令人惊讶的是,AFFNet 在多个下游任务上也展现出色的性能,如在 COCO 检测和 ADE20K 分割上明显超过了使用相近复杂度的模型。

本研究验证了频域变换在降低 Token 融合计算复杂度方面的有效性。AFF Token Mixer 为轻量级全局信息融合提供了新的有效途径。基于该 Token Mixer 构建的 AFFNet 作为新的轻量级 CNN 主干网络,有望推动更多视觉模型在边缘设备上的应用。本研究为探索有效的轻量级视觉网络结构提供了新的思路和范式。

举报

  • 相关推荐
  • 腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》,筑牢智能体应用安全基座

    腾讯云与Gartner联合发布《企业级智能体产业落地研究报告》,提出智能体场景罗盘评估模型,覆盖金融、零售等14大行业100+应用场景。报告指出智能体正从辅助工具演进为关键业务引擎,同时企业面临安全、成本等落地挑战。腾讯云安全提供全生命周期技术保障,通过华住集团、绝味食品等案例展示智能体在提升效率、优化服务方面的显著成效,助力企业构建“高可靠、强防护”的智能体体系。

  • 网信办宣布开展“整治网络直播打赏乱象”专项行动

    中央网信办自即日起开展为期2个月的"清朗·整治网络直播打赏乱象"专项行动,重点整治四类问题:严查低俗团播诱导打赏行为;深入治理虚假人设欺骗打赏现象;严格管控诱导未成年人打赏问题;着力遏制刺激用户非理性打赏倾向。专项行动要求各地网信部门细化工作措施,督促平台完善审核标准、打赏规则和限额管理,健全投诉举报机制。对屡教不改的账号、平台及MCN机构将依法严惩并曝光典型案例,推动形成网络直播打赏问题常态化治理格局。

  • 孩子们满嘴“包的”“666”该怎么办引热议 小学老师:喜欢说网络热梗是偷懒

    江西一位小学教师因引导学生用"我很有信心""我势在必得"等优美表达替代网络热梗"包666"引发热议。她认为依赖网络用语是思维懒惰,希望学生掌握文明优美的语言表达。媒体指出网络热梗虽有趣实用,但会限制语言表达和深度思考能力。网友观点两极:有人认为课堂应规范语言,网络用语可保留生活趣味;另一些人强调需培养青少年在不同语境自如切换的表达能力。

  • 2025视觉中国&500px视觉盛典青岛站开启招募!

    本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动:至誉科技提供免费笔记本屏幕校色服务,关注小红书可领取贴纸等礼品;东芝通过问卷赠送手机挂绳;索尼展出新品相机镜头;适马打卡送周边;永诺展示神秘新品镜头;雷克沙关注社媒可领专属礼物;富图宝有识脚架互动游戏;神牛到场即送周边;艺卓体验专业显示器;唯卓仕可参与新品抽奖;斯丹德提供免费抽奖与补光灯体验;明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

  • 游族网络前三季度营收与净利润双增长,全球化游戏研运质效双升,AI生态布局全面加速

    游族网络2025年三季报显示,公司前三季度营收101.9亿元,同比增长2.20%;净利润7.64亿元,同比大幅增长1374.60%。第三季度业绩延续增长态势,主要得益于全球化战略推进、AI技术深度融合及产品精细化运营。旗下《少年三国志》《新盗墓笔记》等产品通过版本迭代与跨界联动提升用户粘性。公司积极布局AI业务,推出智能平台YOOZOO.AI,并拓展算力合作,强化研发效能。同时,游族持续践行社会责任,开展公益项目并推动中华文化数字化传承。

  • 苹果前员工因名叫“三星”走红网络:最终他选择改名

    苹果前员工因撞名三星走红网络,他最终选择改名。 据媒体报道,2012年,一位名叫Sam Sung的苹果零售店员工意外走红,因他的名字Sam Sung跟苹果竞争对手三星的英文(Samsung)字母一致,而且二者的发音接近。 Sam Sung在接受采访时详细讲述了那段经历以及自己最终决定改名的原因。2012年,有人在社交平台上发布了Sam Sung的苹果工作名片,相关内容迅速传播开来。苹果方面随即�

  • 燃爆蓉城!快手王者之战暨街霸6CPT亚洲白金赛圆满收官

    10月31日至11月2日,“快手王者之战VI暨CAPCOM PRO TOUR 2025亚洲白金赛”在成都成功举办。日本选手HINAO从566名选手中脱颖而出,决赛中以3:2逆转夺冠,成为CPT史上最年轻白金赛冠军。赛事汇聚全球顶尖选手,覆盖亚太多赛区,冠军直通CAPCOM CUP总决赛。快手通过独家内容策划与线上线下联动,打造“电竞+文旅”融合模式,结合成都本地文化,推动电竞赛事破圈传播,彰显游戏生态布局优势。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 锐捷极简以太彩光网络4.0再添新翼,“超融合”方案创新而来

    锐捷发布“极简以太彩光4.0-超融合方案”,针对高职院校宿舍高密接入场景,实现“一套架构、超聚/超融双模式融合”设计。方案延续极简理念,核心侧部署超融合模块,弱电间采用无源融合设备,接入侧配备Wi-Fi 7光无线接入点,支持单设备接入11264间宿舍。具备四大创新:融合时分复用技术提升接入密度;统一以太网二层架构简化运维;有线无线一体化OAP提升部署灵活性;核心多场景融合部署适配不同业务需求。该方案不仅破解宿舍网络建设难题,更展现全光网络在医疗、普教等场景的适应能力。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

今日大家都在搜的词: