微软研究推新型视觉基础模型Florence-2:基于统一提示，适用各种计算机视觉和视觉语言任务

2023-11-23 10:37 · 稿源：站长之家

**划重点:**
1. 🌐 人工智能系统向使用预训练、可调整表示的方向发展，Florence-2是一款灵活的视觉基础模型，通过统一提示式表示，成功解决了空间层次和语义细粒度的挑战。
2. 📊 通过多任务学习和大规模数据集，Florence-2实现了灵活的通用表示，取得了在多个视觉任务上的零样本表现和超越专业模型的成果。
3. 🛠️ 采用序列到序列结构，Florence-2不需要特定任务的架构调整，支持目标识别、字幕生成等多种视觉任务，是一种具有统一基础的灵活模型。

站长之家（ChinaZ.com）11月23日消息:近来，人工智能领域的趋势是采用预训练、可调整表示的方法，为各种应用提供任务不可知的优势。与此趋势相呼应，微软研究推出了Florence-2，这是一款灵活的视觉基础模型，通过统一提示式表示成功应对了计算机视觉中的挑战。

在自然语言处理（NLP）中，我们看到了这种趋势的明显体现，先进的模型展示了在多个领域和任务上灵活性的同时，能够通过简单的指令进行深入的知识覆盖。NLP的流行鼓励在计算机视觉中采用类似的策略，但计算机视觉面临更多挑战，因为它需要处理复杂的视觉数据，如特征、遮挡轮廓和物体位置。为了实现通用表示，模型必须熟练处理二维排列的各种具有挑战性的任务。

Florence-2通过统一的预训练和网络设计，引领了在计算机视觉中整合空间、时间和多模态特征的潮流。该模型通过任务特定的微调和使用嘈杂的文本-图像对进行预训练，在转移学习方面取得了显著的进展。然而，由于对大型任务特定数据集和适配器的依赖，存在解决空间层次和语义细粒度两个主要问题的差距。研究人员通过使用富有视觉标注的多任务学习，提供了一个通用的骨干，实现了基于提示的统一表示，成功解决了数据不完整和缺乏统一架构的问题。

在实现多任务学习时，大规模、高质量的标注数据是必不可少的。为了克服人工标注的瓶颈，研究团队创建了一个名为\fld 的广泛的视觉数据集，其中包含对126M张照片的5.4B注释。通过使用专门的模型共同和自主地注释照片，该数据引擎的第一个模块跳出了传统的单一手动注释策略。与众多模型合作，共同创建共识，形成更公正和可信的图片解释。第二个模块使用学习到的基本模型，反复改进和过滤这些自动注释。

Florence-2采用序列到序列（seq2seq）结构，通过整合图像编码器和多模态编码器-解码器，利用这个大型数据集。这种架构支持多种视觉任务，无需任务特定的架构调整，符合NLP社区创建具有统一基础的灵活模型的目标。数据集中的每个注释都被一致地标准化为文本输出，从而实现了使用相同损失函数的单一多任务学习策略的一致优化。结果是一个灵活的视觉基础模型，可以处理一系列功能，包括目标识别、字幕生成和定位，都在单一模型的统一参数控制下。文本提示被用来激活任务，与大型语言模型(LLMs)采用的方法一致。

该方法实现了通用表示，并在许多视觉任务中具有广泛的应用。关键发现包括:

- 该模型是一种灵活的视觉基础模型，在诸如RefCOCO的任务中实现了新的零样本性能，包括引用表达理解、Flick30k上的视觉定位和COCO上的字幕生成。

- 尽管体积较小，但在使用公开可用的人工标注数据进行微调后，与更专业的模型竞争。值得注意的是，改进后的模型在RefCOCO上创下了新的基准最先进得分。

- 预训练的骨干在下游任务中超越了监督和自监督模型，在COCO对象检测和实例分割以及ADE20K语义分割上取得了显著的增长。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K数据集上分别取得了6.9、5.5和5.9个点的显著增加，同时将在ImageNet上预训练模型的训练效率提高了四倍。

这项研究的全部功劳归功于该项目的研究人员。如果您喜欢他们的工作，请查看论文，并加入他们的社交媒体群体，获取最新的人工智能研究新闻和有趣的项目。

论文网址:https://arxiv.org/abs/2311.06242

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin，专为视觉语言时代设计。更多大模型算法相关岗位开放中。

字节
更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

HuggingFace首次发布了其Idefics视觉语言模型，该模型于2023年首次亮相，采用了最初由DeepMind开发的技术。Idefics迎来了升级，新版本Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别能力。Idefics2的发布是AI繁荣持续推出的许多多模态模型之一，包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。

Idefics2 视觉语言模型 AI头条
比利时计算机视觉初创公司RoboVision获4200万美元融资

站长之家（ChinaZ.com）4月9日消息:比利时计算机视觉初创公司RoboVision最近宣布成功获得4200万美元的融资，这笔资金将用于推进其AI-enabled视觉平台在全球范围内的发展和拓展。这轮A轮融资由Target Global、Astanor Ventures和Red River West领投，使RoboVision的总融资额达到6500万美元。RoboVision的首席执行官Thomas Van den Driessche表示，公司将利用这笔投资加强全球业务，并“进一步巩固我们在AI�

RoboVision
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
智界S7首发华为视觉智驾：性能远超“视觉鼻祖”特斯拉

快科技4月11日消息，在华为鸿蒙生态春季沟通会上，余承东表示，华为的高阶智驾体验非常好，为业内天花板的存在，但在30万以下的车上使用，存在着亏损的情况。为此，智界S7首发华为视觉智驾”，搭载3个毫米波雷达、10个视觉感知高清摄像头组及12个超声波雷达，实现不依赖激光雷达的视觉智驾方案。智界的视觉智驾，可以在全国高速和城市快速路实现NCA智驾领航辅助，�

华为鸿蒙智驾
小米SU7两套智驾系统公布：纯视觉版、视觉雷达版

在今晚小米SU7的发布会上，雷军正式公布了小米SU7两套智驾系统。这两套智驾系统分别为：Pro纯视觉版、Max视觉激光雷达版。全部采用变焦BEV感知技术和端到端大模型，高低配都基于同一技术方案，并且全部能够支持体验领先的智能辅助驾驶功能。

智驾系统小米SU7 NVIDIA
吉娃娃or松饼难题被解决！IDEA研究院新模型T-Rex2打通文本视觉Prompt，连黑客帝国的子弹都能数清楚

还记得黑客帝国经典的子弹时间吗?IDEA研究院最新检测模型T-Rex2，可以齐刷刷给全部识别出来~面对难倒一众大模型「吉娃娃or松饼」的难题，它只需被投喂一张吉娃娃的照片，就能瞬间迎刃解。也是同样的团队，推出了基于视觉提示的检测模型T-Rex。T-Rex2让通用物体检测又迈出了新的一步。

Prompt AI头条
微软研究人员指出，并非所有token都符合需求

微软研究人员挑战了语言模型预训练的传统方法，该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1，该模型利用选择性语言建模。SLM可以扩展到监督微调，以解决数据集中的噪声和分布不匹配，并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

AI数据 AI头条
Archetype AI发布可深入理解世界的基础模型Newton

ArchetypeAI推出的Newton是一个革命性的人工智能平台，专为理解和推理物理世界设计。与传统的文本和图像分析AI模型不同，Newton结合了实时传感器数据和自然语言处理技术，使用户能够对周围环境提出开放式问题，并据此做出明智的决策。Newton支持与各种传感器结合使用，支持实时或预录数据流。

Newton AI头条
生物计算领域，为什么超算安腾比通用超级计算机算得还要快？

超级计算机因其无可匹敌的运算实力在科研界享有“巨擘”之称，大众耳熟能详的莫过于那些荣登全球超算Top500排行榜的翘楚品牌，如Frontier和神威·太湖之光等，它们展现出了卓越的通用高性能计算能力。在生物计算这一细分领域中，即便是这些巨头也会显得有些“力不从心”，难以全面应对诸如大规模分子动力学模拟、蛋白质三维结构预测等极具挑战性的任务。在生物制药、生命科学、新能源新材料等前沿科技火热发展的重点垂直领域，我们应当加强全栈式的软硬件协同创新，挖掘在特定计算难题上的重大产业和创新机会，不断提升在全球超算竞赛中的竞争力与影响力。

超级计算机生物计算专用计算机

今日大家都在搜的词：

热文

3 天
7天

微软研究推新型视觉基础模型Florence-2:基于统一提示，适用各种计算机视觉和视觉语言任务

今日大家都在搜的词：

热文

站长商机