首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

2023-10-27 17:43 · 稿源:站长之家

核心要点:

1. 最近的研究表明,卷积神经网络(ConvNets)在大规模数据集上可以与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。

2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练,发现随着计算资源的增加,ConvNets的性能可以与视觉变换器相匹敌,达到了令人印象深刻的ImageNet Top-1准确度。

3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素,以及ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。

站长之家(ChinaZ.com)10月27日 消息:最新研究表明,卷积神经网络(ConvNets)在大规模数据集上能够与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域,ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而,近年来,视觉变换器逐渐崭露头角,逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色,但在面对大规模数据集时,视觉变换器占据了优势。

image.png

论文地址:https://arxiv.org/pdf/2310.16764.pdf

一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估,这种架构被称为NFNet模型,该模型在大规模数据集上进行了预训练。研究结果显示,ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。

研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像,涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后,ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型,被称为F7+,在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度,达到了惊人的90.3%。

image.png

为了更清楚地了解验证损失与预训练计算之间的关系,研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势,与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加,最佳模型大小和训练时期的预算也随之增加。此外,人们还注意到,调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。

有趣的是,研究人员还调查了NFNet系列的三种不同模型(F0、F3、F7+)在一系列时期预算下的最佳学习率。他们的研究结果表明,当受到较小的时期预算限制时,所有这些模型都表现出相似的最佳学习率(约为1.6)。然而,随着时期预算的增加,最佳学习率减小,较大的模型经历了更快的下降。

总的来说,这项研究强调了在计算机视觉领域,合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出,ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性,为计算机视觉研究的未来带来了新的启示。

举报

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 2025 PMI项目管理大会|多个活动板块首发,早鸟报名通道开启

    自2008年起,PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家,分享洞见与实践,启发数十万参与者。当前,生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象,项启新篇”为主题,聚焦科技带来的颠覆性变革与机遇,通过行业趋势、跨界交流等多维度活动,打造最具影响力的共创平台,推动合作突破边界。报名已开启,微信搜索“2025PMI项目管理大会”即可参与。

  • 中国AI算力突围:东方超算Deep X算力盒子超国际竞品82%,重新定义行业标准

    中国公司东方超算发布Deep X G20系列AI工作站,在MLPerf测试中性能超越NVIDIA DGX Spark达82%,价格持平,实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡,AI算力达1824 TOPS,体积仅2.7L。通过三大技术创新实现突破:智能异构计算引擎提升资源利用率40%;统一推理运行时支持多框架;深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断,已在量化金融、医疗影像等领域实现显著投资回报,标志着中国AI硬件实现重要突破。

  • MissPep携手《温暖的客栈》,与奥运冠军陈梦共启品质慢生活

    2025年10月16日,美国健康品牌MissPep蜜思派与江苏卫视综艺《温暖的客栈》达成战略合作,成为节目官方合作伙伴。双方通过内容与品牌价值的结合,在健康生活理念传播领域深度探索。节目以“慢生活”为主题,由蒋梦婕、陈梦、黄圣依等嘉宾通过沉浸式体验展现现代人对品质生活的追求。MissPep明星产品补铁小红条在节目中获嘉宾推荐,其“免冲泡直接吃”的创新设计解决了传统营养品使用不便的痛点。此次合作标志着健康产业与文娱产业融合发展的新趋势,通过内容植入实现品牌价值的软性传递。

  • REDMI首次!REDMI K90 Pro Max搭载5倍光学变焦潜望镜

    红米K90 Pro Max于10月23日发布,影像系统大幅升级。主摄搭载1/1.31英寸超大底"光影猎人950"传感器,具备13.5EV高动态范围,支持DXG动态技术,采用1G+6P混合镜片可有效抑制眩光。首次配备5倍光学变焦潜望长焦镜头,成为红米首款支持5X光学变焦的旗舰机型。另配备5000万像素超广角镜头,f/2.4大光圈。整体影像能力实现史诗级提升。

  • 陈奕迅喜提REDMI K90 Pro Max:担任REDMI声学大使

    10月21日,陈奕迅宣布成为Redmi声学大使,并透露Redmi K90 Pro Max将搭载2.1立体声系统,首次在手机中实现低音带。该机配备两颗超线性扬声器及超大独立低音单元,由Redmi与Bose联合调音,实现低音饱满、细节丰富、人声清晰。新品将于10月23日亮相,开启移动声学新时代。

  • 兰博基尼联名!REDMI K90 Pro Max冠军版官宣

    Redmi K90系列将于10月23日19:00发布,推出K90与K90 Pro Max两款机型。其中K90 Pro Max冠军版与兰博基尼SQUADRA CORSE联名,采用白色机身与Y字腰线设计,配备定制壁纸、主题及礼盒(含充电器、取卡针等)。硬件搭载骁龙8至尊版处理器、AI独显芯片D2,主摄为光影猎人950传感器,支持5X光学变焦,内置7560mAh电池与100W有线快充。新机以赛道美学与强劲性能为核心亮点。

  • REDMI与Bose达成合作:REDMI K90 Pro Max要做行业第一音频

    Redmi与声学巨头Bose达成深度合作,基于Bose 60年声学技术积淀,在K90 Pro+Max机型上实现重大突破:创新集成立体声扬声器系统,通过增大发声单元体积与优化腔体结构,动态范围提升30%,瞬态响应速度提高50%,实现零失真输出。该机还搭载骁龙8 Gen3处理器、7560mAh硅碳负极电池、100W快充及专业影像系统,经2000小时专业调音达到行业领先水准,旨在重新定义移动设备音频标准,即将开启全球预售。

  • REDMI电视X 2026今晚发布!REDMI首款高阶分区Mini LED电视

    小米10月23日宣布,Redmi电视X 2026系列新品今晚发布,这是Redmi首款高端分区Mini LED电视。相比传统液晶,Mini LED控光更精细,画面明暗对比度高,无烧屏风险,色彩还原更真实。85英寸版本官方定价4799元,补贴后3839.2元,配备640分区、1200nits峰值亮度,支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED,但相比普通液晶提升显著,适合普通消费者,将推动Mini LED普及。今晚还将发布全新投影仪产品。

今日大家都在搜的词: