首页 > 业界 > 关键词  > Florence-2最新资讯  > 正文

微软研究推新型视觉基础模型Florence-2:基于统一提示,适用各种计算机视觉和视觉语言任务

2023-11-23 10:37 · 稿源:站长之家

**划重点:**

1. 🌐 人工智能系统向使用预训练、可调整表示的方向发展,Florence-2是一款灵活的视觉基础模型,通过统一提示式表示,成功解决了空间层次和语义细粒度的挑战。

2. 📊 通过多任务学习和大规模数据集,Florence-2实现了灵活的通用表示,取得了在多个视觉任务上的零样本表现和超越专业模型的成果。

3. 🛠️ 采用序列到序列结构,Florence-2不需要特定任务的架构调整,支持目标识别、字幕生成等多种视觉任务,是一种具有统一基础的灵活模型。

站长之家(ChinaZ.com)11月23日 消息:近来,人工智能领域的趋势是采用预训练、可调整表示的方法,为各种应用提供任务不可知的优势。与此趋势相呼应,微软研究推出了Florence-2,这是一款灵活的视觉基础模型,通过统一提示式表示成功应对了计算机视觉中的挑战。

在自然语言处理(NLP)中,我们看到了这种趋势的明显体现,先进的模型展示了在多个领域和任务上灵活性的同时,能够通过简单的指令进行深入的知识覆盖。NLP的流行鼓励在计算机视觉中采用类似的策略,但计算机视觉面临更多挑战,因为它需要处理复杂的视觉数据,如特征、遮挡轮廓和物体位置。为了实现通用表示,模型必须熟练处理二维排列的各种具有挑战性的任务。

Florence-2通过统一的预训练和网络设计,引领了在计算机视觉中整合空间、时间和多模态特征的潮流。该模型通过任务特定的微调和使用嘈杂的文本-图像对进行预训练,在转移学习方面取得了显著的进展。然而,由于对大型任务特定数据集和适配器的依赖,存在解决空间层次和语义细粒度两个主要问题的差距。研究人员通过使用富有视觉标注的多任务学习,提供了一个通用的骨干,实现了基于提示的统一表示,成功解决了数据不完整和缺乏统一架构的问题。

在实现多任务学习时,大规模、高质量的标注数据是必不可少的。为了克服人工标注的瓶颈,研究团队创建了一个名为\fld 的广泛的视觉数据集,其中包含对126M张照片的5.4B注释。通过使用专门的模型共同和自主地注释照片,该数据引擎的第一个模块跳出了传统的单一手动注释策略。与众多模型合作,共同创建共识,形成更公正和可信的图片解释。第二个模块使用学习到的基本模型,反复改进和过滤这些自动注释。

image.png

Florence-2采用序列到序列(seq2seq)结构,通过整合图像编码器和多模态编码器-解码器,利用这个大型数据集。这种架构支持多种视觉任务,无需任务特定的架构调整,符合NLP社区创建具有统一基础的灵活模型的目标。数据集中的每个注释都被一致地标准化为文本输出,从而实现了使用相同损失函数的单一多任务学习策略的一致优化。结果是一个灵活的视觉基础模型,可以处理一系列功能,包括目标识别、字幕生成和定位,都在单一模型的统一参数控制下。文本提示被用来激活任务,与大型语言模型(LLMs)采用的方法一致。

该方法实现了通用表示,并在许多视觉任务中具有广泛的应用。关键发现包括:

- 该模型是一种灵活的视觉基础模型,在诸如RefCOCO的任务中实现了新的零样本性能,包括引用表达理解、Flick30k上的视觉定位和COCO上的字幕生成。

- 尽管体积较小,但在使用公开可用的人工标注数据进行微调后,与更专业的模型竞争。值得注意的是,改进后的模型在RefCOCO上创下了新的基准最先进得分。

- 预训练的骨干在下游任务中超越了监督和自监督模型,在COCO对象检测和实例分割以及ADE20K语义分割上取得了显著的增长。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K数据集上分别取得了6.9、5.5和5.9个点的显著增加,同时将在ImageNet上预训练模型的训练效率提高了四倍。

这项研究的全部功劳归功于该项目的研究人员。如果您喜欢他们的工作,请查看论文,并加入他们的社交媒体群体,获取最新的人工智能研究新闻和有趣的项目。

论文网址:https://arxiv.org/abs/2311.06242

举报

  • 相关推荐
  • 森赛睿科技亮相 VisionCon 2025:视觉 AI 生态链赋能工业视觉检测快速落地,引领智造升级新范式

    雅时国际商讯主办的“VisionCon视界系统设计技术大会”在武汉光谷盛大召开,聚焦工业视觉人工智能领域,展示其在视觉AI生态构建上的战略部署与创新成果,推动“AI+制造”深度融合,为全球工业视觉行业提供可复刻的智能解决方案,突破传统视觉系统的科技壁垒,打造“云-边-端”协同架构。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 中科摇橹船突破智能视觉装备研发,揭秘“首台套”技术绝招!

    中科摇橹船公司以"光+AI"为核心技术,在智能制造领域取得多项突破:1)开发出国内首套3D涂胶检测系统,检测精度达99.9%,已应用于赛力斯汽车超级工厂;2)自主研发Micro-LED晶圆检测设备,检测精度控制在1微米内,被纳入工信部创新产品目录;3)为新能源汽车打造全链条AI视觉质检系统,1分钟可完成整车万个零部件检测。公司已完成A轮2亿元融资,正在华东、西南等地布局智能视觉装备基地,未来将聚焦AI+智能制造等三大主战场,致力于成为全球领先的智能化产品综合供应商。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 国内首台视觉 AI 教学闭环教具落地,云天励飞助力芯片后备力量崛起

    在人工智能与芯片技术重塑全球竞争格局的当下,我国正通过教育创新,筑牢科技自立自强的战略根基。为提升青少年的综合素养,鼓励其在不同领域积极探索与尝试,教育部在2022年的教监管厅函〔2022〕13号文件中认证了新一批为期三年的全国性中小学生竞赛活动。云天励飞将继续深耕AI教育领域,以技术创新为驱动,以教育公平为目标,为更多青少年提供接触和学习AI的机会,为中国从教育大国迈向科技强国注入持续动能。

  • 视觉不靠谱!华为车BU CEO靳玉志:走向L3/L4自动驾驶 汽车一定要有激光雷达

    华为智能汽车BU CEO靳玉志近日表示,实现L3/L4自动驾驶必须配备激光雷达,主要原因有二:一是激光雷达无需识别障碍物即可检测,而纯视觉方案需大量数据训练,仍存在极端场景下的识别风险;二是视觉方案在暗光、暴雨等环境下清晰度受限。激光雷达结合毫米波雷达等传感器能提升极端场景下的可靠性。目前特斯拉FSD、百度Apollo Lite和Mobileye SuperVision是主流纯视觉方案代表。

  • 视觉中国发布2024年报及2025年一季报:AI赋能推动业务增长

    视觉中国(000681)发布2024年报及2025年一季报。公司深化"AI智能+内容数据+应用场景"战略,2024年营收8.11亿元(同比+3.89%),净利润1.19亿元(同比-18.17%);2025年Q1营收1.89亿元(同比+8.43%),净利润0.18亿元(同比+12.26%)。AI业务取得突破:自研视觉理解大模型与Deepseek等合作,推出智能搜索、智能审核等功能;AI创作生态签约超4900名创作者,销售超1800万元;战略投资企业AiPPT月访问量�

  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 从大模型到AI基础设施,商汤的反向求解

    大模型落地如火如荼,从上一代AI浪潮中杀出来的商汤,嗅到了这里面新的机会。在最火的具身智能赛道,这两年诞生了许多明星创业公司。这些创业公司的创始人往往拥有技术明星的光环,不少都是在学术界中某个技术领域中响当当的领头人。这些初创公司虽然在某一个单点技术上遥遥领先(大脑、小脑或者本体),但在机器人落地过程中,要突破从单一技术到整体复杂产品

热文

  • 3 天
  • 7天