Meta 开源计算机视觉基础模型DINOv2

2023-09-01 10:10 · 稿源：站长之家

文章概要:

1. Meta公司以Apache2.0许可证发布计算机视觉模型DINOv2开源版本。
2. DINOv2可用于各种计算机视觉任务，是灵活通用的工具。
3. Meta计划将DINOv2与大规模语言模型结合，创造更强大的图像分析系统。

Meta 在 Apache2.0许可下发布其计算机视觉模型 DINOv2，为开发人员和研究人员提供下游任务的更大灵活性。Meta 还发布了一系列基于 DINOv2的密集预测模型，用于语义图像分割和单目深度估计。

Meta 还引入了FACET，这是一个评估计算机视觉模型在分类和分割等任务中的公平性的基准。该数据集包含50，000人的32，000张图像，除了身体特征之外，还具有感知性别和年龄组等人口统计属性。FACET旨在成为评估计算机视觉模型公平性的标准基准，并鼓励设计和开发考虑更多人的模型。

DINOv2是一种自监督学习训练的模型，在各种视觉任务上的表现可与当前主流的专用系统可相媲美甚至更好。该模型可以为下游任务提供更大的灵活性，是一种通用的计算机视觉工具。

DINOv2经过1.42亿张图像的训练，可以直接作为各种视觉任务的输入特征使用，包括图像级任务（图像分类、实例检索、视频理解等）和像素级任务(深度估计、语义分割等)。DINOv2模型可能在各种应用中发挥作用，如森林绘图、动物密度估计、生物学研究等。

DINOv2核心特色功能包括:

基于PyTorch实现的DINOv2自监督学习方法的代码和预训练模型
不需要任何标签或注释即可在包含1.42亿张图像的数据集上进行预训练
产生高性能的视觉特征，可以直接与简单的线性层组合在各种计算机视觉任务上使用
预训练模型效果强劲，在不进行微调的情况下也能跨域泛化
提供多个预训练模型 BACKBONE（ViT-S/14、ViT-B/14等）可通过PyTorch Hub加载
提供了对应预训练任务头，如图像分类、深度估计、语义分割等
代码模块化，可以方便训练、评估和微调
模型和代码均基于Apache2.0许可证开源

Meta公司计划将DINOv2与大规模语言模型相结合，创造出更强大的图像分析和处理系统。语言模型受输入字幕限制，而DINOv2可以为复杂的AI系统提供更丰富的图像信息，实现更深层次的图像推理。DINOv2的开源发布是计算机视觉领域的重要进展。

DINOv2项目网址:https://github.com/facebookresearch/dinov2
FACET官方介绍:https://ai.meta.com/datasets/facet/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta悄然发布Llama 2 Long AI模型

Meta最近发布了Llama2LongAI模型，该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术，Meta的研究人员提高了这个AI模型的性能，使其能够更好地处理长文本和复杂任务。强调了合作的重要性，指出不是每个企业都拥有高级的数据工程和数据科学技能，因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

Meta
Meta发布Llama 2-Long模型处理长文本计算量需求减少40%

Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下，保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

Meta AI头条
开放模型权重被指将导致AI失控，Meta遭举牌抗议，LeCun：开源AI社区如火如荼

AI尤其是大模型时代的开源与闭源，有利有弊，重要的是如何在使用的过程中做好文章。人们在AI领域的开源与闭源选择上存在着分歧在大模型时代，开源这股强大的力量已经悄然崛起。关于开源与闭源的分歧会一直延续下去，但开源已经无法阻挡。

开源
Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法，用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性，特别是在涉及大规模外部知识源的场景中。
Meta 斥巨资打造明星AI数字人

Meta最近宣布将在名人AI领域投入巨资，以打造名人AI双胞胎。根据TheInformation的一份报道，Meta公司已经签下了一位顶级创作者，为其提供了高达500万美元合同，合同期限为两年，包括六小时的工作时间。这也可能鼓励其他科技巨头进一步投资类似的项目。

Meta AI数字人 AI头条
荐Meta开源数字水印Stable Signature，极大增强生成式AI安全

全球社交、科技巨头Meta在官网宣布，开源数字水印产品StableSignature，并公开论文。StableSignature是由Meta和INRIA联合开发成，可将数字水印直接嵌入到AI自动生成的图片中，防止其非法用途。通过StableSignature将数字水印嵌入到AI图片中，可极大避免此类事件的发生。

数字水印
Meta视Llama为主导开源领域的人工智能生态系统

在莱克斯·弗里德曼的播客中，马克·扎克伯格透露Llama2的成功远超预期。尽管关于Llama3的具体计划还未公布，但扎克伯格表示新的模型版本正在训练中，同时明确表示Llama3的推出还没那么近。据说Llama3也将免费开源。
Meta AI提出视频抠图新方法OmnimatteRF:结合动态2D前景图层和3D背景模型

Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景，因此只适用于背景为平面或仅有旋转运动的视频。它也可助力构建沉浸式的虚拟环境。

Meta
利亚德虚拟动点成为华为云“Meta Studio AIGC内容创新计划”创始成员

华为全联接大会2023在上海顺利召开。利亚德·虚拟动点作为华为云“MetaStudioAIGC内容创新计划”的创始成员受邀出席大会，并与合作伙伴共同开启“共建AIGC媒体基础设施，共创数字原生新视界”等话题讨论。虚拟动点将携手华为云，在AI、虚拟现实领域展开深度合作，聚焦数字人、数字内容方面共同探索，共同创新，用数字技术助力内容创新，加速产业应用落地，赋能千行百业！
荐OpenAI、Google和Meta 的当红华人研究员们在想些什么｜对话实录

甚至你会以为这是一场明星见面会。当我从博士毕业时候，我的导师给了一个建议——AI研究者要拉长到未来很多年的时间维度来思考研究，也就是不只是考虑对现在的一些东西的改进是未来可能带来彻底改变的技术理念。

OpenAI

今日大家都在搜的词：

热文

3 天
7天

Meta 开源计算机视觉基础模型DINOv2

今日大家都在搜的词：

热文

站长商机