首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

2023-10-27 17:43 · 稿源:站长之家

核心要点:

1. 最近的研究表明,卷积神经网络(ConvNets)在大规模数据集上可以与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。

2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练,发现随着计算资源的增加,ConvNets的性能可以与视觉变换器相匹敌,达到了令人印象深刻的ImageNet Top-1准确度。

3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素,以及ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。

站长之家(ChinaZ.com)10月27日 消息:最新研究表明,卷积神经网络(ConvNets)在大规模数据集上能够与视觉变换器(Vision Transformers)媲美,挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域,ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而,近年来,视觉变换器逐渐崭露头角,逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色,但在面对大规模数据集时,视觉变换器占据了优势。

image.png

论文地址:https://arxiv.org/pdf/2310.16764.pdf

一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估,这种架构被称为NFNet模型,该模型在大规模数据集上进行了预训练。研究结果显示,ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。

研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像,涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后,ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型,被称为F7+,在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度,达到了惊人的90.3%。

image.png

为了更清楚地了解验证损失与预训练计算之间的关系,研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势,与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加,最佳模型大小和训练时期的预算也随之增加。此外,人们还注意到,调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。

有趣的是,研究人员还调查了NFNet系列的三种不同模型(F0、F3、F7+)在一系列时期预算下的最佳学习率。他们的研究结果表明,当受到较小的时期预算限制时,所有这些模型都表现出相似的最佳学习率(约为1.6)。然而,随着时期预算的增加,最佳学习率减小,较大的模型经历了更快的下降。

总的来说,这项研究强调了在计算机视觉领域,合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出,ConvNets,特别是NFNet架构,具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性,为计算机视觉研究的未来带来了新的启示。

举报

  • 相关推荐
  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • 免费使用!腾讯地图已接入DeepSeek-V3.1

    DeepSeek V3.1于2025年8月21日发布并开源,腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升:思考效率更高,响应更快;上下文理解更强,支持多轮连贯对话;智能体调用更精准,尤其在中文网页理解和跨领域搜索方面表现突出。依托升级,AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务,让导航升级为全程智能生活陪伴。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • 检出率超95%,支持透明液体识别!INDEMIND脏污识别:更快、更准、更智能

    扫地机器人技术正从“盲目清扫”向“智能识别”进化。INDEMIND推出立体视觉污染识别方案,能精准识别固态、液态、粉末及混合四类污渍,检出率超95%。该技术结合智能决策引擎,实现自主调整清洁参数,避免二次污染。同时提供单目、双目及三目模块矩阵,支持快速适配升级,推动行业迈向精准化智能清洁新阶段。

  • INDEMIND:高需求和低渗透之间,服务机器人为何规模化落地难?

    在全球经济面临劳动力短缺的背景下,加之疫情的进一步催化,服务机器人取得了蓬勃发展,预计 2022 年,全球服务机器人市场规模将达到 217 亿美元,然而尽管如此,在高速发展之下,机器人的行业渗透率却并未明显提高,究其原因在于红利之后,机器人的规模化商业落地过程走的并不顺利...作为国内领先的机器人关键AI技术供应商,INDEMIND在机器人的导航、避障、决策、AI交

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

今日大家都在搜的词: