首页 > 业界 > 关键词  > Florence-2最新资讯  > 正文

微软研究推新型视觉基础模型Florence-2:基于统一提示,适用各种计算机视觉和视觉语言任务

2023-11-23 10:37 · 稿源:站长之家

**划重点:**

1. 🌐 人工智能系统向使用预训练、可调整表示的方向发展,Florence-2是一款灵活的视觉基础模型,通过统一提示式表示,成功解决了空间层次和语义细粒度的挑战。

2. 📊 通过多任务学习和大规模数据集,Florence-2实现了灵活的通用表示,取得了在多个视觉任务上的零样本表现和超越专业模型的成果。

3. 🛠️ 采用序列到序列结构,Florence-2不需要特定任务的架构调整,支持目标识别、字幕生成等多种视觉任务,是一种具有统一基础的灵活模型。

站长之家(ChinaZ.com)11月23日 消息:近来,人工智能领域的趋势是采用预训练、可调整表示的方法,为各种应用提供任务不可知的优势。与此趋势相呼应,微软研究推出了Florence-2,这是一款灵活的视觉基础模型,通过统一提示式表示成功应对了计算机视觉中的挑战。

在自然语言处理(NLP)中,我们看到了这种趋势的明显体现,先进的模型展示了在多个领域和任务上灵活性的同时,能够通过简单的指令进行深入的知识覆盖。NLP的流行鼓励在计算机视觉中采用类似的策略,但计算机视觉面临更多挑战,因为它需要处理复杂的视觉数据,如特征、遮挡轮廓和物体位置。为了实现通用表示,模型必须熟练处理二维排列的各种具有挑战性的任务。

Florence-2通过统一的预训练和网络设计,引领了在计算机视觉中整合空间、时间和多模态特征的潮流。该模型通过任务特定的微调和使用嘈杂的文本-图像对进行预训练,在转移学习方面取得了显著的进展。然而,由于对大型任务特定数据集和适配器的依赖,存在解决空间层次和语义细粒度两个主要问题的差距。研究人员通过使用富有视觉标注的多任务学习,提供了一个通用的骨干,实现了基于提示的统一表示,成功解决了数据不完整和缺乏统一架构的问题。

在实现多任务学习时,大规模、高质量的标注数据是必不可少的。为了克服人工标注的瓶颈,研究团队创建了一个名为\fld 的广泛的视觉数据集,其中包含对126M张照片的5.4B注释。通过使用专门的模型共同和自主地注释照片,该数据引擎的第一个模块跳出了传统的单一手动注释策略。与众多模型合作,共同创建共识,形成更公正和可信的图片解释。第二个模块使用学习到的基本模型,反复改进和过滤这些自动注释。

image.png

Florence-2采用序列到序列(seq2seq)结构,通过整合图像编码器和多模态编码器-解码器,利用这个大型数据集。这种架构支持多种视觉任务,无需任务特定的架构调整,符合NLP社区创建具有统一基础的灵活模型的目标。数据集中的每个注释都被一致地标准化为文本输出,从而实现了使用相同损失函数的单一多任务学习策略的一致优化。结果是一个灵活的视觉基础模型,可以处理一系列功能,包括目标识别、字幕生成和定位,都在单一模型的统一参数控制下。文本提示被用来激活任务,与大型语言模型(LLMs)采用的方法一致。

该方法实现了通用表示,并在许多视觉任务中具有广泛的应用。关键发现包括:

- 该模型是一种灵活的视觉基础模型,在诸如RefCOCO的任务中实现了新的零样本性能,包括引用表达理解、Flick30k上的视觉定位和COCO上的字幕生成。

- 尽管体积较小,但在使用公开可用的人工标注数据进行微调后,与更专业的模型竞争。值得注意的是,改进后的模型在RefCOCO上创下了新的基准最先进得分。

- 预训练的骨干在下游任务中超越了监督和自监督模型,在COCO对象检测和实例分割以及ADE20K语义分割上取得了显著的增长。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K数据集上分别取得了6.9、5.5和5.9个点的显著增加,同时将在ImageNet上预训练模型的训练效率提高了四倍。

这项研究的全部功劳归功于该项目的研究人员。如果您喜欢他们的工作,请查看论文,并加入他们的社交媒体群体,获取最新的人工智能研究新闻和有趣的项目。

论文网址:https://arxiv.org/abs/2311.06242

举报

  • 相关推荐
  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

  • 20周年款iPhone将配自研相机 并搭载自研定制LOFIC传感器

    为庆祝iPhone诞生20周年,苹果计划推出特别版机型。该机将首次搭载苹果定制图像传感器及LOFIC技术,通过横向溢出积分电容收集溢出光电子,有效避免高光过曝,显著提升动态范围和光影还原能力。今年7月苹果已提交相关专利,目前正优化原型机。相比传统索尼双层传感器,新技术集成度更高、占用空间更小,有望为iPhone影像系统带来突破性提升。

  • OPPO ColorOS 16发布:Find X9等机型将全球首发

    10月15日,OPPO正式发布ColorOS 16系统,由Find X9系列、一加15、一加Ace6及OPPO Pad5等机型首发。系统在流畅度、AI功能和生态互联实现重大突破:三大引擎提升流畅度,系统重载流畅度提升37%,功耗降低13%;新增一键闪记、智能场景识别等便捷功能;小布助手升级,提供个性化推荐;AI实景对话支持声纹识别;生态互联打通与Apple Watch壁垒,实现跨设备信息显示与操作迁移,全面提升用户体验。

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • ColorOS 16正式版升级计划公布:OPPO Find X8系列率先尝鲜

    据ColorOS官微消息,OPPO全新系统ColorOS 16正式版升级适配计划今日公布,OPPO Find X8系列、一加13系列会在本月率先升级ColorOS 16正式版,具体如下。 2025年10月30日 OPPO Find N5、OPPO Find N5卫星通信版、OPPO Find X8 Ultra、OPPO Find X8 Ultra卫星通信版、OPPO Find X8s 、OPPO Find X8s、OPPO Find X8 Pro、OPPO Find X8 Pro卫星通信版、OPPO Find X8、一加13、一加13T。 2025年11月

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

今日大家都在搜的词: