首页 > 业界 > 关键词  > DINOv2最新资讯  > 正文

DINOv2:Meta AI 开源的自监督计算机视觉模型

2023-05-25 08:40 · 稿源:站长之家

站长之家(ChinaZ.com) 5月25日消息:Meta AI Research 发布了 DINOv2 开源项目,这是一款用于计算机视觉(CV)任务的基础模型。DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。

Meta,元宇宙,Facebook

Meta 基于 Vision Transformer(ViT)架构构建了该模型,并对其进行了自监督学习目标的修改。团队建立了一个自动化流程,从网络上获取图像并构建了一个筛选数据集来训练模型。其中一个重要的贡献是改进了训练过程,该方法的速度是之前方法的两倍,内存使用量减少了三分之一。在计算机视觉基准测试中,DINOv2 优于其他自监督学习(SSL)模型,并显示出与弱监督模型相媲美或更好的性能。根据 Meta 的说法:

展望未来,团队计划将该模型整合到一个更大、更复杂的人工智能系统中,该系统可以与大型语言模型进行交互。具备丰富图像信息的视觉骨干模型将使复杂的人工智能系统能够对图像进行比单一文本描述更深入的推理。以文本监督进行训练的模型最终受限于图像标题的内容。而使用 DINOv2,则没有这样的内置限制。

计算机视觉任务的深度学习模型通常依赖于带有人工注释的大型图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个使用弱监督训练方法的计算机视觉基础模型,其中的注释是通过爬取与源图像相关的 html 标签和其他网络元数据自动生成的。同年,Google 发布了 ViT 模型,它使用自监督学习进行训练。Meta 也发布了 DINO 的原始版本的研究成果,将 ViT 模型与知识蒸馏相结合,从而获得了性能相当但更小的模型。

对于 DINOv2,Meta 专注于收集更多训练数据并扩大训练过程。对于训练数据,Meta 从互联网上收集了 1.2B 个独特的图像,然后根据它们与 ImageNet 数据集中图像的相似性对它们进行聚类,以获得最终的 142M 图像集。为了扩大训练规模,Meta 实施了自定义版本的 FlashAttention,并使用 PyTorch 进行完全分片数据并行 (FSDP) 训练。总体而言,该项目消耗了大约 20 万个 GPU 日的计算量。

为了评估 DINOv2 作为基础模型的性能,该团队在各种 CV 任务上对其进行了测试,并将其与几个基线 SSL 模型以及 CLIP 等弱监督模型进行了比较。在 ImageNet-1k 分类任务上,DINOv2 与其他 SSL 模型相比表现出「非常显著的改进」,并且表现优于弱监督模型。它还在三个视频动作识别基准测试中创造了新的 SSL 最先进记录,并在实例级识别基准测试和三个单眼深度估计基准测试中表现优于基线。

在 Hacker News 关于这项工作的讨论中,一些用户称赞了 Meta 最近在计算机视觉方面的工作以及 PyTorch 等过去的贡献。有人确实注意到 Meta 围绕他们的工作进行交流的转变:

作为该领域的研究生,在 Yann LeCun 的内部倡导下,Meta 一直为开源机器学习工作做出了不小的贡献。最近发生变化的是他们的公关策略:[OpenAI] 基本上已经向所有人表明,如果你的宣传很糟糕,那么你是否有最好的模型并不重要。

GitHub 上提供了 DINOv2 代码和模型。该项目站点托管了使用 DINOv2 的多个计算机视觉任务的交互式演示。

DINOv2 开源模型 GitHub 地址:https://github.com/facebookresearch/dinov2

DINOv2 开源项目: https://dinov2.metademolab.com/

举报

  • 相关推荐
  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • Meta拟重金加码AI赛道,传将斥资超百亿美元投资Scale AI

    Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资,金额可能高达或超过 100 亿美元……

  • Meta 抢占AI霸权争夺加剧,微美全息(WIMI.US)布局产业生态应对市场竞争

    Meta斥资数十亿美元争夺AI领域主导权,包括从OpenAI挖走三名研究员,甚至开出1亿美元签约费。同时,Meta同意以148亿美元收购AI初创公司Scale AI 49%股份,这是其史上最大外部投资。中国AI领域也快速发展,已有433款大模型完成备案上线。专家指出,开源模式推动了大模型创新生态,形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地,集成国际先进�

  • 山姆·奥特曼称Meta用上亿美元“挖角”失败:OpenAI顶尖人才没人跳槽

    “Meta已经开始向我们团队很多人提出超级夸张的报价,”奥特曼在节目中表示,“比如 1 亿美元的签约金,还有更高的年薪……”

  • BYDFi 亮相首尔Meta Week 2025,聚焦Web3愿景与全球合规战略

    韩国首尔,2025年6月26日 —— 全球领先的加密货币交易平台 BYDFi 将参与2025年首尔 Meta Week:METACON(SMW2025),活动于6月26–27日在首尔 COEX 会展中心三楼礼堂举行。BYDFi 是 SMW2025官方合作伙伴之一,同列的还有三星、谷歌、英特尔、Spotify、Kakao、NAVER Cloud 和 GitHub 等知名科技公司。BYDFi 在 SMW2025 的参展亮点作为 SMW2025官方合作伙伴之一,BYDFi 的参与体现了其在不断发展的 Web3和数字�

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • 19岁曾从麻省理工辍学创业!Meta用150亿美元收购华裔“天才少年”公司

    近日,Meta完成一项高达近150亿美元的收购,创下该公司历史上的规模第二大交易。 而收购的标的是由华裔天才少年”亚历山大王创立的AI初创公司Scale AI。 据媒体报道,Meta将获得Scale AI公司49%的无投票权股份,而作为交易的核心部分,亚历山大王将加盟Meta,有望领导Meta的超级智能”部门。 据悉,亚历山大王1997年出生于美国新墨西哥州,为华人移民的后裔。

  • AI时代的营销答卷:淘宝天下摘得TopDigital桂冠

    淘宝天下凭借AI技术在营销领域的创新实践,在第十三届TopDigital创新营销盛典上斩获两项大奖。其获奖案例《淘宝蛇年"一起上春晚"云参演证互动传播》通过AIGC技术生成个性化"云参演证",结合明星联动和裂变式传播策略,实现超45亿曝光量,累计生成1.18亿张参演证,重塑了传统春节文化互动模式。同时,与神州租车合作的小米SU7 Ultra上新营销案例,通过头部KOL传播和社交化内容裂变,达成2.36亿+曝光量,获"社会化营销"铜奖。淘宝天下已布局AI驱动的全链路营销解决方案"淘天智家平台",支持从创意生成到多媒介内容生产的全流程,持续推动数字营销创新。