首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

2023-10-27 17:43 · 稿源:站长之家

核心要点:

1. 最近的研究表明,卷积神经网络(ConvNets)在大规模数据集上可以与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。

2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练,发现随着计算资源的增加,ConvNets的性能可以与视觉变换器相匹敌,达到了令人印象深刻的ImageNet Top-1准确度。

3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素,以及ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。

站长之家(ChinaZ.com)10月27日 消息:最新研究表明,卷积神经网络(ConvNets)在大规模数据集上能够与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域,ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而,近年来,视觉变换器逐渐崭露头角,逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色,但在面对大规模数据集时,视觉变换器占据了优势。

image.png

论文地址:https://arxiv.org/pdf/2310.16764.pdf

一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估,这种架构被称为NFNet模型,该模型在大规模数据集上进行了预训练。研究结果显示,ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。

研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像,涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后,ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型,被称为F7+,在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度,达到了惊人的90.3%。

image.png

为了更清楚地了解验证损失与预训练计算之间的关系,研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势,与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加,最佳模型大小和训练时期的预算也随之增加。此外,人们还注意到,调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。

有趣的是,研究人员还调查了NFNet系列的三种不同模型(F0、F3、F7+)在一系列时期预算下的最佳学习率。他们的研究结果表明,当受到较小的时期预算限制时,所有这些模型都表现出相似的最佳学习率(约为1.6)。然而,随着时期预算的增加,最佳学习率减小,较大的模型经历了更快的下降。

总的来说,这项研究强调了在计算机视觉领域,合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出,ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性,为计算机视觉研究的未来带来了新的启示。

举报

  • 相关推荐
  • 科龙云朵猫Ultra上手:星闪雷达+DeepSeek语音,智能柜机选它就对了

    买空调最易踩的坑不是匹数选小,而是花大几千买回家却发现风只往一个方向吹、角落的人感受不到凉意、调温还得满屋找遥控器。科龙云朵猫Ultra在3000-5000元价位,用星闪雷达和双语音大模型给出了够聪明、够舒适的答案:星闪雷达2.0能精准感知6米内多人位置,实现风避人、风随人、人近柔风、人离节能四大模式;内置DeepSeek与星海大模型,支持6种方言识别和离线语音控制;170°超广角送风搭配216种风感组合,APF值高达5.30,远超新一级能效标准26%,AI懒人省电模式再省35%。对比美的酷省电PRO和TCL智炫风,它在人体感知、复杂语音指令和柔风技术上优势明显,全生命周期性价比极高,尤其适合有孩有宠或多代同堂家庭。

  • 收费才是DeepSeek的“成人礼”

    DeepSeek首次融资的“金主”名单,逐渐浮出水面。 6月3日,媒体报道称,DeepSeek计划募集约500亿元人民币,投后估值达3500亿至4000亿元。相比上月底传闻的700亿元,最新传出的融资规模略有收缩。 除了DeepSeek创始人梁文锋承诺投入200亿元外,腾讯考虑投资100亿元,宁德时代也可能投资50亿元。综合多方消息,其他潜在投资方包括国家集成电路产业投资基金、网易、京东、砺思资�

  • DeepSeek首轮募资500亿元 腾讯、宁德时代拟战略参投

    DeepSeek即将完成规模约500亿元人民币(约合74亿美元)的首轮融资,腾讯控股与宁德时代有望成为本轮最大的外部投资方。 据知情人士透露,本轮融资完成后,DeepSeek的整体估值将攀升至3500亿至4000亿元人民币(约合520亿至590亿美元)。 在资金募集构成方面,DeepSeek创始人梁文锋个人已承诺出资200亿元。作为外部财务与战略支持方,腾讯正考虑注资100亿元,而电池行业龙头宁德

  • 腾讯云加入价格战!DeepSeek-V4系列明起降价:最高降97.5%

    腾讯云宣布自6月3日起下调旗下DeepSeek-V4系列两款大模型调用价格,覆盖推理输入、输出及缓存命中三类计费项。其中Pro版三项费用统一下降75%,缓存命中费用降幅达97.5%;Flash版仅下调缓存命中费用,降幅90%。该系列于4月24日上线,采用混合专家架构,支持百万级上下文输入。此次调价为平台接入后的成本优化,企业及个人开发者使用成本同步降低。

  • 流量变天了!如何用“GEO搜索优化品牌监控”锁死豆包、DeepSeek的红利入口?

    2026年,AI搜索(如豆包、DeepSeek)正取代传统SEO,成为流量新战场。企业需通过GEO(生成式引擎优化)抢占大模型推荐位。AIBase推出GEO排名监控工具,以多轮重复查询消除AI随机性,支持批量场景监控、竞品对标和实时预警,帮助企业高效管理品牌在AI中的曝光率,避免被边缘化。

  • 小米MiMo要蹭着DeepSeek蹦上牌桌

    ​5月27日,小米把 MiMo-V2.5系列 API 永久降价。 MiMo-V2.5-Pro 的输入缓存命中价格降到0.025元/百万 tokens,输入未命中价格3元/百万 tokens,输出价格6元/百万 tokens。普通版 MiMo-V2.5更低:缓存命中0.02元,输入未命中1元,输出2元。 这不是一次常规促销。 因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek。 MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5对 DeepSeek V4-Flash�

  • 稳住基本盘的小米,紧追DeepSeek

    ​小米一季度财报发布后第二天,MiMo先有了新动作。 就在刚刚,小米宣布MiMo-V2.5系列API永久降价,最高降幅99%,Token Plan同价位用量提升至5至8倍。几天前,DeepSeek刚把V4-Pro的2.5折优惠改成永久价。小米这次跟进,意味着MiMo正在以更低门槛加速参与大模型竞争。 “从短期来看,我们面对成本周期、需求周期和竞争周期三重周期叠加的挑战;长期来看,我们正进入AI重构人车家全

  • 本月第四次!DeepSeek又崩了约半小时 现已修复

    今日上午,AI平台DeepSeek再度发生服务中断,这是其本月第四次出现大规模异常故障。 据用户反馈,当日10时21分起,DeepSeek网页对话服务与API接口均无法正常使用,出现服务器繁忙” 等提示。 官方状态页面将本次故障定级为部分中断”,并于10时27分确认已定位故障原因,随即开展修复工作。 至10时50分,所有受影响服务均恢复正常运行,本次中断时长约29分钟。

  • 全球AI大模型周调用量五连涨 DeepSeek-V4-Flash登顶

    根据OpenRouter最新数据测算,上周(5月18日至5月24日),全球AI大模型总调用量达28.9万亿Token,较此前一周增长7.4%,连续五周上涨,大模型调用需求仍在持续释放。 在主要上榜模型中,中国AI大模型周调用量达9.223万亿Token,环比增长19.89%;同期美国AI大模型周调用量为4.93万亿Token,环比增长16.27%。中国大模型周调用量已连续四周超过美国,稳居全球首位,表明中国模型正更深入

  • 可靠是一切的前提!ROBOMIND的产品哲学

    文章强调,机器人进入家庭市场的关键在于“可靠”而非“聪明”。INDEMIND的ROBOMIND产品以可靠性为第一原则,采用纯视觉方案和低算力(10TOPS)实现稳定认知与安全决策。通过端云协同架构,端侧负责实时安全,云侧处理复杂智能,确保物理与心理安全。产品已在清洁、养老等场景规模化落地,覆盖全球多国,以长期主义理念推动智能机器人普及。

今日大家都在搜的词: