首页 > 业界 > 关键词  > 正文

中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性

2023-10-02 15:55 · 稿源:站长之家

要点:

1、DualToken-ViT将卷积和自注意力联合使用,分别提取局部和全局信息,再将两者输出融合形成有效的注意力结构。

2、使用位置感知全局令牌提升全局信息质量,令牌中还包含图像位置信息,有利于视觉任务。

3、在相同FLOPs下,DualToken-ViT在图像分类、目标检测和语义分割任务上表现最好

站长之家(ChinaZ.com)10月2日 消息:最近,视觉Transformer(ViT)成为各类视觉任务如物体识别和图片分类的有效架构。这是因为自注意力可以从图片中提取全局信息,而卷积核大小限制了卷积神经网络(CNN)只能提取局部信息。随着ViT模型和数据集规模的增大,相比CNN具有更好的扩展性。但在轻量级模型上,由于缺乏某些归纳偏置,CNN优于ViT。

自注意力的二次复杂度导致ViT计算成本潜在很高,构建轻量高效的ViT并不容易。为此,提出金字塔结构,将模型分为多个阶段,每阶段令牌数减少,通道数增加,以构建更轻量高效的ViT。简化自注意力结构以减轻其复杂度,但以牺牲注意力有效性为代价。一个典型策略是下采样自注意力的key和value,减少参与注意力过程的令牌数。

image.png

论文地址:https://arxiv.org/abs/2309.12424

本研究中,华东师范大学和阿里巴巴集团的研究人员提出了紧凑高效的视觉Transformer模型DualToken-ViT。他们的方法使用卷积和自注意力联合提取局部和全局信息,再将两者输出融合形成有效的注意力结构。尽管窗口自注意力也可以提取局部信息,但他们发现,在轻量模型上卷积更有效。他们采用逐步下采样的方式生成key和value特征图,在下采样过程中保留更多信息,降低自注意力在传播全局信息时的计算成本。

此外,他们在每个级别使用位置感知全局令牌来提高全局数据质量。与标准全局令牌不同,他们的位置感知全局令牌还可以维护和传递图像位置信息,在视觉任务中为模型提供优势。如图1所示,图像中的关键令牌与位置感知全局令牌中的对应令牌产生了更大的相关性。

总之,他们的贡献有:1)提出了紧凑高效的视觉Transformer模型DualToken-ViT,通过卷积和自注意力的优势实现有效的注意力结构;2)提出位置感知全局令牌,通过图像位置信息来增强全局信息;3)DualToken-ViT在相同FLOPs下在多个视觉任务上表现最好

举报

  • 相关推荐
  • 为何你的小米SU7 Ultra跑不出标称的CLTC续航:官方解答来了

    在最新一期的答网友问中,小米汽车回答了一许多人都困惑的问题:为什么我的小米SU7Ultra跑不出来标称的CLTC续航成绩?小米汽车解答到:首先,CLTC续航里程是基于国家相关部门制定的CLTC标准,在理想测试环境下测试出的数据。预估续航在标称工况的基础上,加入了高低温环境和实际驾驶行为的影响”,融合成更贴近实际使用的工况,续航拟合度提高了18%,更加真实的表显续航里程会让您的驾驶更安心。

  • 友商沉默!vivo X200 Ultra为何拍照这么强:图像传感器平均面积大幅领先

    vivo举办新品发布会,推出X200+Ultra新机。该机搭载超大底传感器、全焦段覆盖及防抖能力提升显著,并配备两颗蓝玻璃滤光片LYT-818。此外,还提供外挂镜头头,搭配联合研发的2.35倍增距镜头,突破远摄极限,影像性能强大。

  • 为什么小米SU7 Ultra跑不出标称的CLTC续航成绩 官方:实际使用条件不同导致

    小米汽车官微带来了新一期网友问答,有网友问,为什么我的小米SU7Ultra跑不出来标称的CLTC续航成绩?小米汽车官微解释,CLTC续航里程是基于国家相关部门制定的CLTC标准,在理想测试环境下测试出的数据。最后小米提醒,车主可在车辆设置-充放电中,将剩余续航里程的显示模式切换为预估续航,预估续航在标称工况的基础上,加入了高低温环境和实际驾驶行为的影响”,融合成更贴近实际使用的工况,续航拟合度提高了18%,更加真实的表显续航里程会让您的驾驶更安心。

  • 微美全息(WIMI.US)探索量子图像压缩算法,引领图像处理领域颠覆创新

    量子计算作为信息技术领域的颠覆性力量,其在量子图像处理和图像压缩领域也显示出巨大的技术潜力。随着数字图像处理技术的不断演进,传统图像处理算法,本质上依赖于并行计算,然,随着图像数量和分辨率的快速增长,这些经典算法在计算资源和时间消耗上存在局限性。量子图像压缩技术的深入研究也将促进量子算法和量子信息处理理论的进一步发展,为量子信息技术的广泛应用奠定坚实基础,推动数字图像处理技术迈向新的高度,实现更高效、更智能的图像处理和压缩。

  • 视觉引擎 + Expert Raw:三星Galaxy S25 Ultra 提升创作自由度

    在影像系统愈发成为智能手机核心竞争力的当下,旗舰机型如何突破“硬件同质化”瓶颈,实现从技术能力到创作体验的全面跃升,成为关键命题。三星GalaxyS25Ultra作为本年度影像旗舰的代表作之一,不仅有着高规格的镜头模组,更通过AI赋能的超视觉引擎与专业级的ExpertRaw应用,打通从拍摄、处理到后期创作的完整链条,显著提升内容创作者的自由度与掌控力。无论是旅途中的抓拍是内容工作者对动态影像的精细把控,三星GalaxyS25Ultra都能兼顾“自动拍好”与“专业掌控”,让每一次创作都从灵感到成片,游刃有余。

  • 努比亚Z70S Ultra摄影师版官宣:今年唯一真全面屏Ultra

    快科技4月18日消息,今天,努比亚宣布努比亚AI双旗舰新品发布会将于4月28日举行,努比亚Z70S Ultra摄影师版和努比亚首款神秘新品将同时亮相。本次发布会的重头戏是努比亚Z70S Ultra摄影师版,对比其它Ultra机型,Z70S Ultra摄影师版采用1.5K真全面屏形态,是今年唯一一款真全面屏Ultra。据悉,这块屏幕采用全屏蓝钻排列,通过FIAA极致压缩走线技术实现超高屏占比,加上内置UDC Ultra

  • Trae国内版怎么用?Trae IDE 内置 MCP 市场配置使用指南

    字节跳动旗下Trae+IDE发布新版本,通过MCP协议实现AI智能体与外部工具的深度集成。MCP作为标准化桥梁,让开发者能灵活接入Supabase、FireCrawl等第三方服务,只需@符号即可调用智能体完成数据库操作、文档搜索等复杂任务。新版本内置MCP市场,支持Token快速配置,并演示了如何通过Figma+AI自动生成前端代码。该技术可应用于Blender建模、K8s管理等多元场景,显著提升开发效率。Trae+IDE将持续扩展工具生态,推动AI协作开发新时代。

  • 小米送Ultra Club首批会员礼盒:含金车模、纽北成绩限定车牌等

    快科技4月19日消息,小米汽车今天宣布,为Ultra Club首批会员,准备了一份限定礼盒。该礼盒包含小米SU7 Ultra 1:43合金车模、纽北成绩限定车牌、纽北成绩冰箱贴、专属会员卡。官方表示,限定礼盒每一处都充满细节,希望车主打开礼盒的这一刻,能感受到小米汽车最真挚的心意。据了解,小米Ultra Club会员俱乐部于今年2月27日成立,该俱乐部的年费为3999元,首批限量2000人。入会可享60000积分,可享受以下专属服务:专属赛道服务:免费存胎服务,免费赛道救援,赛道耗材88折等;独享官方活动:德国纽北赛道之旅,专属官方赛道日等。

  • 最有诚意的Ultra!努比亚Z70S Ultra摄影师版外观公布:真全面屏形态 同档罕见

    快科技4月18日消息,努比亚宣布,努比亚Z70S Ultra摄影师版将于4月28日正式发布,倪飞称这是今年最有诚意的Ultra。根据官方公布的外观,努比亚Z70S Ultra摄影师版后壳采用了原生复古经典相机设计元素,相机模组通过一条富有动感的分割线一分为二,上方是全新35mm大底主摄,下方是潜望长焦以及超广角。与此同时,影像模组右上角延续了经典相机的红圈设计,Neovision图章致敬专

  • 小米SU7 Ultra首个OTA升级:升级能量管理和超充桩体验

    今日,小米SU7Ultra汽车迎来了其首个OTA升级,版本号为1.5.10。此次升级主要涉及两项功能优化:一是优化能量管理策略,旨在提升驾驶体验;二是优化第三方超充桩的充电体验,以提高充电效率和便捷性。2025年2月推送的1.5.5版本新增端到端全场景智能驾驶”,实现从车位启动到目标泊车的全程自动驾驶,覆盖高速、城市道路及停车场场景,并支持跨楼层路线记忆。