首页 > 业界 > 关键词  > 正文

中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性

2023-10-02 15:55 · 稿源:站长之家

要点:

1、DualToken-ViT将卷积和自注意力联合使用,分别提取局部和全局信息,再将两者输出融合形成有效的注意力结构。

2、使用位置感知全局令牌提升全局信息质量,令牌中还包含图像位置信息,有利于视觉任务。

3、在相同FLOPs下,DualToken-ViT在图像分类、目标检测和语义分割任务上表现最好

站长之家(ChinaZ.com)10月2日 消息:最近,视觉Transformer(ViT)成为各类视觉任务如物体识别和图片分类的有效架构。这是因为自注意力可以从图片中提取全局信息,而卷积核大小限制了卷积神经网络(CNN)只能提取局部信息。随着ViT模型和数据集规模的增大,相比CNN具有更好的扩展性。但在轻量级模型上,由于缺乏某些归纳偏置,CNN优于ViT。

自注意力的二次复杂度导致ViT计算成本潜在很高,构建轻量高效的ViT并不容易。为此,提出金字塔结构,将模型分为多个阶段,每阶段令牌数减少,通道数增加,以构建更轻量高效的ViT。简化自注意力结构以减轻其复杂度,但以牺牲注意力有效性为代价。一个典型策略是下采样自注意力的key和value,减少参与注意力过程的令牌数。

image.png

论文地址:https://arxiv.org/abs/2309.12424

本研究中,华东师范大学和阿里巴巴集团的研究人员提出了紧凑高效的视觉Transformer模型DualToken-ViT。他们的方法使用卷积和自注意力联合提取局部和全局信息,再将两者输出融合形成有效的注意力结构。尽管窗口自注意力也可以提取局部信息,但他们发现,在轻量模型上卷积更有效。他们采用逐步下采样的方式生成key和value特征图,在下采样过程中保留更多信息,降低自注意力在传播全局信息时的计算成本。

此外,他们在每个级别使用位置感知全局令牌来提高全局数据质量。与标准全局令牌不同,他们的位置感知全局令牌还可以维护和传递图像位置信息,在视觉任务中为模型提供优势。如图1所示,图像中的关键令牌与位置感知全局令牌中的对应令牌产生了更大的相关性。

总之,他们的贡献有:1)提出了紧凑高效的视觉Transformer模型DualToken-ViT,通过卷积和自注意力的优势实现有效的注意力结构;2)提出位置感知全局令牌,通过图像位置信息来增强全局信息;3)DualToken-ViT在相同FLOPs下在多个视觉任务上表现最好

举报

  • 相关推荐
  • 用AI图像融合工具创造无缝图像融合,带来震撼视觉体验!

    AI图像融合工具正式上线,为您带来最先进的AI图像融合技术。借助这款工具,用户可以轻松地将多张图片融合成一张创意十足的视觉作品,展现无与伦比的艺术效果。

  • iQOO 15 Ultra首曝:首款骁龙8 Elite 2 Ultra旗舰

    iQOO将于年底推出iQOO 15系列旗舰手机,包含标准版和Ultra版。iQOO 15 Ultra将采用2K LIPO直屏,首批搭载骁龙8 Elite 2平台,配备潜望长焦镜头,支持无线充电和IP68防尘防水。相比上代,Ultra版回归直屏设计,新增主动散热风扇和潜望长焦,影像和性能大幅提升。采用全新LIPO封装工艺,通过优化显示驱动芯片和电路布局,大幅收窄边框。LIPO技术采用高密度连接设计,减少信号传输通道数量和长度,在保证信号稳定性的同时缩小边框宽度。iQOO 15 Pro预计10月亮相,将成为行业首款骁龙8 Elite 2 Ultra旗舰机型。

  • 迎接颠覆性创新 Ultra新篇章即将展开

    三星Galaxy系列以用户需求为核心,通过折叠屏设计、AI技术和专业级相机等创新功能,打造颠覆性体验。新品Galaxy Ultra整合行业领先硬件配置,优化折叠屏形态下的AI应用,满足用户对轻薄便携和高效办公的需求。产品亮点包括:1)折叠状态下可作为高效办公平台;2)AI语音助手实现智能推荐和信息处理;3)专业摄影系统捕捉精彩瞬间;4)多任务处理提升工作效率。这些创新功能均由专为折叠屏优化的Galaxy AI深度赋能,重新定义智能设备与日常生活的交互方式。

  • 黑格 UltraCraft Reflex RS Turbo 携全新“琥珀屏”震撼上市

    5月29日,黑格科技在成立十周年之际推出UltraCraft Reflex RS Turbo 3D打印机。作为畅销款Reflex RS的升级版,RS Turbo在保持快速打印的同时,通过增强型琥珀色屏幕延长了使用寿命,打印精度和表面质量显著提升。关键升级包括:1)566:1高对比度屏幕,新增光学膜减少杂散光;2)C5级Z轴模块将运动误差控制在±2微米内;3)动态运动算法3.0使打印速度最高提升33%。新品推出限时首发优惠,购买可享8折并赠送打印耗材。该产品已上线黑格天猫旗舰店。

  • 雷军回应小米SU7 Ultra被《GT赛车》收录:希望未来能看到更多中国汽车

    日前,小米与《GT赛车》游戏开发商Polyphony Digital达成合作。 小米SU7 Ultra将被游戏《GT赛车7》收录,这是《GT赛车》游戏史上首款收录的中国品牌汽车。 根据Gran Turismo官网发布的新闻稿,小米CEO雷军表示,小米十分认同山内一典先生的先进理念,即通过技术构建更美好的人类社会,小米也一直在追求通过技术让全球每个人都能享受科技带来的美好生活,双方在此基础上不谋而�

  • 雷军预告!小米·中国汽车耐力锦标赛 SU7 Ultra 将漂移表演

    今日午间,小米创始人雷军在社交平台发文,为即将拉开帷幕的小米中国汽车耐力锦标赛打call! 雷军透露,中国汽车耐力锦标赛将于明日正式鸣锣开赛。在此次赛事中,小米SU7Ultra将肩负重任,分别以安全车和医疗车的身份为赛事全程保驾护航。 不仅如此,它还将在开幕式上带来精彩绝伦的漂移表演,为赛事增添一抹亮色。

  • 解码HTC VR大空间版图:重塑中国文旅与科技创新融合新范式

    近年来VR大空间沉浸式体验成为文旅产业新方向,HTC通过《消失的法老》等项目推动行业转型。该体验结合800平米自由移动空间、毫米级数字还原等技术,11个月吸引11万人次参与,票房破3000万。HTC布局硬件、软件和内容生态,与全球50多家顶尖博物馆合作开发文化IP内容。2025年全球VR大空间市场规模预计突破120亿美元。国内VR大空间面临内容同质化挑战,需深耕文化IP开发,如HTC与陕文投合作的《尘封的帝国》秦陵项目。国家电影局将VR大空间纳入"虚拟现实电影"新片种,为行业带来新机遇。

  • 谷歌推出 250 美元的 AI Ultra 套餐,重新定义“高端”

    谷歌或许想把 AI Ultra 打造成一个精英创作者工具包,但它也可能正在重新定义“高端”:只是贵而已……

  • 史上最强nova!华为nova 14 Ultra搭载Mate 70同款红枫原色镜头

    华为5月19日发布nova14系列及鸿蒙电脑新品。nova14 Ultra搭载全新红枫原色镜头,由Mate70系列首发,能精准测量全局光谱信息,大幅提升色彩还原度。配备三颗5000万像素RYYB镜头:F2.2潜望长焦支持3.7倍光学变焦、100倍数码变焦及OIS+AIS防抖;F1.4-F4.0十档物理可变光圈防抖镜头;120°超广角微距镜头支持2.5厘米微距。影像系统全面升级,堪称史上最强nova。

  • 卢伟冰:小米平板7 Ultra对标苹果最高端的iPad Pro

    小米集团总裁卢伟冰5月20日发文介绍即将发布的小米平板7 Ultra。该产品定位高端旗舰,配备14英寸OLED大屏、3.95mm超窄边框、5.1mm超薄机身和12000mAh大电池,搭载基于台积电3nm工艺的玄戒O1芯片(10核CPU设计,单核/多核跑分突破3000/9000分),性能对标高通骁龙8至尊版。卢伟冰强调其设计质感和移动生产力属性,配备专属键盘和手写笔,宣称在性能、视觉体验等方面全面对标最高端iPad Pro,重新定义安卓平板标准。