首页 > 业界 > 关键词  > Florence-2最新资讯  > 正文

微软研究推新型视觉基础模型Florence-2:基于统一提示,适用各种计算机视觉和视觉语言任务

2023-11-23 10:37 · 稿源:站长之家

**划重点:**

1. 🌐 人工智能系统向使用预训练、可调整表示的方向发展,Florence-2是一款灵活的视觉基础模型,通过统一提示式表示,成功解决了空间层次和语义细粒度的挑战。

2. 📊 通过多任务学习和大规模数据集,Florence-2实现了灵活的通用表示,取得了在多个视觉任务上的零样本表现和超越专业模型的成果。

3. 🛠️ 采用序列到序列结构,Florence-2不需要特定任务的架构调整,支持目标识别、字幕生成等多种视觉任务,是一种具有统一基础的灵活模型。

站长之家(ChinaZ.com)11月23日 消息:近来,人工智能领域的趋势是采用预训练、可调整表示的方法,为各种应用提供任务不可知的优势。与此趋势相呼应,微软研究推出了Florence-2,这是一款灵活的视觉基础模型,通过统一提示式表示成功应对了计算机视觉中的挑战。

在自然语言处理(NLP)中,我们看到了这种趋势的明显体现,先进的模型展示了在多个领域和任务上灵活性的同时,能够通过简单的指令进行深入的知识覆盖。NLP的流行鼓励在计算机视觉中采用类似的策略,但计算机视觉面临更多挑战,因为它需要处理复杂的视觉数据,如特征、遮挡轮廓和物体位置。为了实现通用表示,模型必须熟练处理二维排列的各种具有挑战性的任务。

Florence-2通过统一的预训练和网络设计,引领了在计算机视觉中整合空间、时间和多模态特征的潮流。该模型通过任务特定的微调和使用嘈杂的文本-图像对进行预训练,在转移学习方面取得了显著的进展。然而,由于对大型任务特定数据集和适配器的依赖,存在解决空间层次和语义细粒度两个主要问题的差距。研究人员通过使用富有视觉标注的多任务学习,提供了一个通用的骨干,实现了基于提示的统一表示,成功解决了数据不完整和缺乏统一架构的问题。

在实现多任务学习时,大规模、高质量的标注数据是必不可少的。为了克服人工标注的瓶颈,研究团队创建了一个名为\fld 的广泛的视觉数据集,其中包含对126M张照片的5.4B注释。通过使用专门的模型共同和自主地注释照片,该数据引擎的第一个模块跳出了传统的单一手动注释策略。与众多模型合作,共同创建共识,形成更公正和可信的图片解释。第二个模块使用学习到的基本模型,反复改进和过滤这些自动注释。

image.png

Florence-2采用序列到序列(seq2seq)结构,通过整合图像编码器和多模态编码器-解码器,利用这个大型数据集。这种架构支持多种视觉任务,无需任务特定的架构调整,符合NLP社区创建具有统一基础的灵活模型的目标。数据集中的每个注释都被一致地标准化为文本输出,从而实现了使用相同损失函数的单一多任务学习策略的一致优化。结果是一个灵活的视觉基础模型,可以处理一系列功能,包括目标识别、字幕生成和定位,都在单一模型的统一参数控制下。文本提示被用来激活任务,与大型语言模型(LLMs)采用的方法一致。

该方法实现了通用表示,并在许多视觉任务中具有广泛的应用。关键发现包括:

- 该模型是一种灵活的视觉基础模型,在诸如RefCOCO的任务中实现了新的零样本性能,包括引用表达理解、Flick30k上的视觉定位和COCO上的字幕生成。

- 尽管体积较小,但在使用公开可用的人工标注数据进行微调后,与更专业的模型竞争。值得注意的是,改进后的模型在RefCOCO上创下了新的基准最先进得分。

- 预训练的骨干在下游任务中超越了监督和自监督模型,在COCO对象检测和实例分割以及ADE20K语义分割上取得了显著的增长。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K数据集上分别取得了6.9、5.5和5.9个点的显著增加,同时将在ImageNet上预训练模型的训练效率提高了四倍。

这项研究的全部功劳归功于该项目的研究人员。如果您喜欢他们的工作,请查看论文,并加入他们的社交媒体群体,获取最新的人工智能研究新闻和有趣的项目。

论文网址:https://arxiv.org/abs/2311.06242

举报

  • 相关推荐
  • ColorOS 16 Beta开启尝鲜招募 首批机型含一加13等

    今日,ColorOS开启Beta测试版本招募,数码博主数码闲聊站”透露,此次Beta测试为全新ColorOS 16。 本次招募首批机型为一加13、一加13T、OPPO Find X8系列、OPPOFind N5,每款机型均招募300人,符合机型条件的可在8月12日17:00之前报名。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • WEEX亮相里约热内卢Blockchain.RIO:以社区为核心驱动全球化进程

    拉美地区Web3盛会Blockchain.RIO在巴西里约热内卢成功举办,WEEX交易所作为铂金赞助商亮相。WEEX首席运营官Andrew发表主题演讲,重点介绍WXT经济设计理念和平台生态发展战略,强调"流动性建设与平台生态发展"的运营思路。此次活动标志着WEEX全球化战略在拉美市场的深化推进,通过"技术稳健、社区参与、合规发展"三位一体策略构建品牌竞争力。WEEX将持续强化本地�

  • 第四代革新视觉体验!技嘉魔鹰Q280G WOLED显示器正式上市

    技嘉科技2025年8月18日发布旗舰电竞显示器魔鹰Q280G,搭载LG Display第四代WOLED Meta3.0面板。该27英寸专业显示器采用全新光源架构,峰值亮度达1500尼特(较上代提升50%),通过VESA DisplayHDR TrueBlack500认证,支持280Hz高刷与0.03ms响应,配备99.5% DCI-P3色域和原生1,500,000:1对比度。接口含双HDMI2.1、DP1.4及USB-C,支持KVM切换功能。首发优惠价2899元(原价3399元),前50名下单赠蓝牙音箱,8月18日晚8点正式开售。

  • 内外双屏 随心定义 快用Good Lock“打扮”你的三星Galaxy Z Flip7

    三星Galaxy Z Flip7折叠屏手机凭借精致设计和出色体验获得消费者青睐。文章重点介绍了通过"Good Lock"应用深度定制手机的方法:1)Home Up和主题公园提供主屏幕布局和主题综合定制;2)LockStar可自定义锁屏界面,添加常用APP快捷入口;3)Keys Cafe打造个性化键盘效果;4)ClockFace为外屏时钟添加文字/图片/GIF动图;5)MultiStar新增FlipShot功能,为自拍用户提供动态背景特效。这些工具让用户能根据个人喜好,从界面布局到细微功能进行全面定制,将手机打造成彰显个性的专属设备。

  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • CCF HPC China 2025 | KunLun HPC解决方案赋能多行业创新升级 并获全国产异构创新HPC解决方案奖

    8月13-16日,第21届CCF全国高性能计算学术年会在鄂尔多斯召开。本届大会以"绿动计算 超智融合"为主题,汇聚顶尖学术阵容,展示全产业链成果与前沿趋势。河南昆仑技术有限公司重点展示双生态硬件平台、极致性能软件平台、应用迁移调优服务等HPC全栈解决方案。其KunLun HPC解决方案实现100%国产化,兼容x86设备,具备东西方双生态兼容、高性能、高能效等五大特点,并获全国产异构创新HPC解决方案奖。昆仑技术同期发布KunLun V2系列服务器产品,助力科研转化和行业智能化升级。多位专家在主题论坛分享国产超算软件生态建设经验,强调需持续投入构建自主可控的超算软件生态。昆仑技术表示将持续深耕高性能计算领域,推动行业向智能高效方向发展。

今日大家都在搜的词: