首页 > 业界 > 关键词  > DINOv2最新资讯  > 正文

DINOv2:Meta AI 开源的自监督计算机视觉模型

2023-05-25 08:40 · 稿源:站长之家

站长之家(ChinaZ.com) 5月25日消息:Meta AI Research 发布了 DINOv2 开源项目,这是一款用于计算机视觉(CV)任务的基础模型。DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。

Meta,元宇宙,Facebook

Meta 基于 Vision Transformer(ViT)架构构建了该模型,并对其进行了自监督学习目标的修改。团队建立了一个自动化流程,从网络上获取图像并构建了一个筛选数据集来训练模型。其中一个重要的贡献是改进了训练过程,该方法的速度是之前方法的两倍,内存使用量减少了三分之一。在计算机视觉基准测试中,DINOv2 优于其他自监督学习(SSL)模型,并显示出与弱监督模型相媲美或更好的性能。根据 Meta 的说法:

展望未来,团队计划将该模型整合到一个更大、更复杂的人工智能系统中,该系统可以与大型语言模型进行交互。具备丰富图像信息的视觉骨干模型将使复杂的人工智能系统能够对图像进行比单一文本描述更深入的推理。以文本监督进行训练的模型最终受限于图像标题的内容。而使用 DINOv2,则没有这样的内置限制。

计算机视觉任务的深度学习模型通常依赖于带有人工注释的大型图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个使用弱监督训练方法的计算机视觉基础模型,其中的注释是通过爬取与源图像相关的 html 标签和其他网络元数据自动生成的。同年,Google 发布了 ViT 模型,它使用自监督学习进行训练。Meta 也发布了 DINO 的原始版本的研究成果,将 ViT 模型与知识蒸馏相结合,从而获得了性能相当但更小的模型。

对于 DINOv2,Meta 专注于收集更多训练数据并扩大训练过程。对于训练数据,Meta 从互联网上收集了 1.2B 个独特的图像,然后根据它们与 ImageNet 数据集中图像的相似性对它们进行聚类,以获得最终的 142M 图像集。为了扩大训练规模,Meta 实施了自定义版本的 FlashAttention,并使用 PyTorch 进行完全分片数据并行 (FSDP) 训练。总体而言,该项目消耗了大约 20 万个 GPU 日的计算量。

为了评估 DINOv2 作为基础模型的性能,该团队在各种 CV 任务上对其进行了测试,并将其与几个基线 SSL 模型以及 CLIP 等弱监督模型进行了比较。在 ImageNet-1k 分类任务上,DINOv2 与其他 SSL 模型相比表现出「非常显著的改进」,并且表现优于弱监督模型。它还在三个视频动作识别基准测试中创造了新的 SSL 最先进记录,并在实例级识别基准测试和三个单眼深度估计基准测试中表现优于基线。

在 Hacker News 关于这项工作的讨论中,一些用户称赞了 Meta 最近在计算机视觉方面的工作以及 PyTorch 等过去的贡献。有人确实注意到 Meta 围绕他们的工作进行交流的转变:

作为该领域的研究生,在 Yann LeCun 的内部倡导下,Meta 一直为开源机器学习工作做出了不小的贡献。最近发生变化的是他们的公关策略:[OpenAI] 基本上已经向所有人表明,如果你的宣传很糟糕,那么你是否有最好的模型并不重要。

GitHub 上提供了 DINOv2 代码和模型。该项目站点托管了使用 DINOv2 的多个计算机视觉任务的交互式演示。

DINOv2 开源模型 GitHub 地址:https://github.com/facebookresearch/dinov2

DINOv2 开源项目: https://dinov2.metademolab.com/

举报

  • 相关推荐
  • 十方融海小智AI:以科技温度诠释“人工智能+”时代的人文关怀

    近日,小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目,更展现了AI技术的情感温度。十方融海团队迅速响应,跨越600公里为女孩送上定制版机器人作为生日礼物,并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵,彰显科技企业的人文关怀与社会担当,成为“技术向善”的生动实践。

  • 市值一日暴增近3000亿港元,阿里迈向超级人工智能之路

    9月24日,阿里巴巴股价创下四年新高,单日涨超9%,市值达到约3.32万亿港元,一日增加近3000亿港元。 引爆股价的,是阿里集团每年一度的云栖大会。在会上,阿里释放多条重磅消息,尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后,阿里的股价表现就出现了明显的拉升。

  • 微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术

    微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术,通过创新队列机制和深度强化学习优化CNN推理过程,结合分布式计算与隐私保护机制,在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点,减少数据传输范围,实现高效推理与隐私安全的平衡,为智能医疗、交通等领域提供可靠解决方案。

  • 重磅预告:全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

    灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析,覆盖数据获取、建模到可视化全流程。用户可用自然语言交互,系统自主规划任务并输出可维护结果,支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手,旨在降低分析门槛,助力企业高效挖掘数据价值,适用于数据分析师、营销人员等各类用户。

  • Razer清姬V2亮相: 4K影像,AI赋能

    雷蛇发布新一代清姬V2与V2X摄像头,将4K超清画质与自适应AI软件结合,为主播及创作者带来高效内容创作体验。清姬V2支持4K 30fps专业级影像,搭载Sony STARVIS™传感器,通过AI自动优化曝光、对焦及取景,实现一键画面增强。集成Camo Studio平台,提供智能背景虚化、光线校正等功能。清姬V2X支持1440P 60fps,配备一体式麦克风,即插即用。两款产品均强调简化操作,助力用户专注内容创作。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 铭凡MS-S1 MAX正式发布:126TOPS总算力的AI工作站,提供 USB4 v2、PCle 4插槽

    印凡MS-S1MAX迷你AI工作站体积仅3.3升,集成126TOPS算力,搭载AMD锐龙AI Max处理器与Radeon 8060核显,支持本地运行1280亿参数大模型。配备128GB LPDDR5X内存、双M.2插槽及高速USB4接口,采用先进散热设计实现130W稳定输出。紧凑机身支持灵活部署,为企业本地AI与边缘计算提供高效解决方案。

  • “人工智能+”时代,企业做对什么才能抢占先机?

    国务院8月26日发布《关于深入实施“人工智能+”行动的意见》,提出加快AI技术与实体经济深度融合,推动产业智能化升级。到2035年,我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商,以“AI优先”为战略,将AI技术深度融入SaaS产品与服务,推出金蝶云·星空EMA平台及多款智能产品,覆盖财务、供应链、差旅等场景,助力企业构建“AI+业务”新能力,实现高效管理与创新发展。

  • iOS 26液态玻璃效果能关了 苹果iOS 26.1 Beta 4新增液态玻璃开关

    苹果公司10月21日向iPhone用户推送iOS 26.1开发者预览版Beta4更新,新增Liquid Glass液态玻璃透明度切换开关,用户可将界面调整为“色调”模式以增强通知可读性。此次更新延续iOS 26的液态玻璃设计语言,带来更沉浸的视觉体验。同时支持关闭锁屏滑动相机功能避免误触,并扩展Apple Intelligence对丹麦语、荷兰语、繁体中文等七种语言的支持,让更多地区用户享受智能服务。

  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

今日大家都在搜的词: