DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

2023-10-27 17:43 · 稿源：站长之家

核心要点:
1. 最近的研究表明，卷积神经网络（ConvNets）在大规模数据集上可以与视觉变换器(Vision Transformers)媲美，挑战了以往认为视觉变换器在这方面具有卓越性能的观点。
2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练，发现随着计算资源的增加，ConvNets的性能可以与视觉变换器相匹敌，达到了令人印象深刻的ImageNet Top-1准确度。
3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素，以及ConvNets，特别是NFNet架构，具备在以往认为是视觉变换器领域的规模上竞争的能力。

站长之家（ChinaZ.com）10月27日消息:最新研究表明，卷积神经网络（ConvNets）在大规模数据集上能够与视觉变换器(Vision Transformers)媲美，挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域，ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而，近年来，视觉变换器逐渐崭露头角，逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色，但在面对大规模数据集时，视觉变换器占据了优势。

论文地址:https://arxiv.org/pdf/2310.16764.pdf

一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估，这种架构被称为NFNet模型，该模型在大规模数据集上进行了预训练。研究结果显示，ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。

研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像，涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后，ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型，被称为F7+，在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度，达到了惊人的90.3%。

为了更清楚地了解验证损失与预训练计算之间的关系，研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势，与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加，最佳模型大小和训练时期的预算也随之增加。此外，人们还注意到，调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。

有趣的是，研究人员还调查了NFNet系列的三种不同模型（F0、F3、F7+）在一系列时期预算下的最佳学习率。他们的研究结果表明，当受到较小的时期预算限制时，所有这些模型都表现出相似的最佳学习率(约为1.6)。然而，随着时期预算的增加，最佳学习率减小，较大的模型经历了更快的下降。

总的来说，这项研究强调了在计算机视觉领域，合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出，ConvNets，特别是NFNet架构，具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性，为计算机视觉研究的未来带来了新的启示。

（举报）

相关推荐

关键词：

DeepMind

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

自2008年起，PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家，分享洞见与实践，启发数十万参与者。当前，生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象，项启新篇”为主题，聚焦科技带来的颠覆性变革与机遇，通过行业趋势、跨界交流等多维度活动，打造最具影响力的共创平台，推动合作突破边界。报名已开启，微信搜索“2025PMI项目管理大会”即可参与。

项目管理前沿科技行业趋势
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。
MissPep携手《温暖的客栈》，与奥运冠军陈梦共启品质慢生活

2025年10月16日，美国健康品牌MissPep蜜思派与江苏卫视综艺《温暖的客栈》达成战略合作，成为节目官方合作伙伴。双方通过内容与品牌价值的结合，在健康生活理念传播领域深度探索。节目以“慢生活”为主题，由蒋梦婕、陈梦、黄圣依等嘉宾通过沉浸式体验展现现代人对品质生活的追求。MissPep明星产品补铁小红条在节目中获嘉宾推荐，其“免冲泡直接吃”的创新设计解决了传统营养品使用不便的痛点。此次合作标志着健康产业与文娱产业融合发展的新趋势，通过内容植入实现品牌价值的软性传递。
REDMI首次！REDMI K90 Pro Max搭载5倍光学变焦潜望镜

红米K90 Pro Max于10月23日发布，影像系统大幅升级。主摄搭载1/1.31英寸超大底"光影猎人950"传感器，具备13.5EV高动态范围，支持DXG动态技术，采用1G+6P混合镜片可有效抑制眩光。首次配备5倍光学变焦潜望长焦镜头，成为红米首款支持5X光学变焦的旗舰机型。另配备5000万像素超广角镜头，f/2.4大光圈。整体影像能力实现史诗级提升。

REDMI K90 Pro
陈奕迅喜提REDMI K90 Pro Max：担任REDMI声学大使

10月21日，陈奕迅宣布成为Redmi声学大使，并透露Redmi K90 Pro Max将搭载2.1立体声系统，首次在手机中实现低音带。该机配备两颗超线性扬声器及超大独立低音单元，由Redmi与Bose联合调音，实现低音饱满、细节丰富、人声清晰。新品将于10月23日亮相，开启移动声学新时代。

陈奕迅 REDMI声学大使 2.1立体声
兰博基尼联名！REDMI K90 Pro Max冠军版官宣

Redmi K90系列将于10月23日19:00发布，推出K90与K90 Pro Max两款机型。其中K90 Pro Max冠军版与兰博基尼SQUADRA CORSE联名，采用白色机身与Y字腰线设计，配备定制壁纸、主题及礼盒（含充电器、取卡针等）。硬件搭载骁龙8至尊版处理器、AI独显芯片D2，主摄为光影猎人950传感器，支持5X光学变焦，内置7560mAh电池与100W有线快充。新机以赛道美学与强劲性能为核心亮点。

REDMI K90系列 REDMI
REDMI与Bose达成合作：REDMI K90 Pro Max要做行业第一音频

Redmi与声学巨头Bose达成深度合作，基于Bose 60年声学技术积淀，在K90 Pro+Max机型上实现重大突破：创新集成立体声扬声器系统，通过增大发声单元体积与优化腔体结构，动态范围提升30%，瞬态响应速度提高50%，实现零失真输出。该机还搭载骁龙8 Gen3处理器、7560mAh硅碳负极电池、100W快充及专业影像系统，经2000小时专业调音达到行业领先水准，旨在重新定义移动设备音频标准，即将开启全球预售。
REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

小米10月23日宣布，Redmi电视X 2026系列新品今晚发布，这是Redmi首款高端分区Mini LED电视。相比传统液晶，Mini LED控光更精细，画面明暗对比度高，无烧屏风险，色彩还原更真实。85英寸版本官方定价4799元，补贴后3839.2元，配备640分区、1200nits峰值亮度，支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED，但相比普通液晶提升显著，适合普通消费者，将推动Mini LED普及。今晚还将发布全新投影仪产品。

小米 REDMI电视X 2026

今日大家都在搜的词：

热文

3 天
7天

DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek开源3B OCR模型：长文本识别达97%精度

2025 PMI项目管理大会|多个活动板块首发，早鸟报名通道开启

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

MissPep携手《温暖的客栈》，与奥运冠军陈梦共启品质慢生活

REDMI首次！REDMI K90 Pro Max搭载5倍光学变焦潜望镜

陈奕迅喜提REDMI K90 Pro Max：担任REDMI声学大使

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

REDMI与Bose达成合作：REDMI K90 Pro Max要做行业第一音频

REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

今日大家都在搜的词：

热文

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

华为nova Flip S小折叠开售：首发3388元起

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机