首页 > 业界 > 关键词  > Griffon最新资讯  > 正文

高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

2024-03-19 09:37 · 稿源:站长之家

划重点:

🔍 最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。

🚀 团队引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。

🌟 Griffon v2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。

站长之家(ChinaZ.com) 3月19日 消息:近来,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。特别是在区域级任务,如引用表达理解(REC)中,经过图像文本理解和推理的发展之后,这一进展变得明显。诸如Griffon之类的模型在任务中表现出色,如目标检测,这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。

image.png

尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。

为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。

这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。

Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。

该团队总结了他们的主要贡献如下:

- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。

- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。

为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。

项目入口:https://github.com/jefferyZhan/Griffon

论文地址:https://arxiv.org/abs/2403.09333

举报

  • 相关推荐
  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • 向AI构建能力,用模型产出价值,让金融优质发展

    2025年云栖大会在杭州举行,聚焦“云智一体+碳硅共生”主题,展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍,“通义点金”平台全新升级,致力于构建金融行业垂直模型,打造具备业务洞察力的“专家级智能体”。核心突破包括:通过飞轮平台实现模型与业务双向螺旋上升,构建可观测、可评测、可迭代能力;赋予模型“自知之明”,精准调用工具并内化人类逻辑思维;建立多层次交叉验证测评体系,确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合,助力金融业务核心效能提升。

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 火山 AI 搜索引擎升级:大模型时代重塑用户体验与业务增长

    火山引擎近日升级企业级AI搜索助手,底层模型升级至豆包大模型1.6,全面提升搜索、推荐、问答能力。该平台支持“开箱即用”,企业可快速构建专属对话式搜索助手,已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地,帮助优化产品体验,为业务增长注入新动能。

  • Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。

    ​Sora2爆火之后,随之而来的AI视频领域的新产品。 来自我的好朋友,曹越老师的Sand.ai。 凌晨,他们终于上线了他们全新的音画同步视频模型GAGA-1,在人物表演上,我觉得,已经算是现在的TOP级了。

  • 人类的心声,被AI听见了

    过去一年里,一个看似无意义的Labubu,成为了颇具情绪号召力的符号。 这只表情夸张、眼神狡黠的小兽,从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能,也不传达身份,却让无数年轻人愿意为之排队、抽签。 而这,离不开更大的消费变迁。事后诸葛来看,Labubu的走红并非偶然,而是精准踩中了一个趋势——在这个时代,人们似乎越来越愿意为“情绪价值”付费。 与此�

  • AI防护,与时俱进:信通院X电子科大X腾讯云共话大模型安全

    大模型技术推动人工智能成为生产力核心,但也放大数字风险。专家指出AI安全需构建覆盖模型安全、交互检测、权限管控的智能底座,通过标准化体系实现全生命周期防护。腾讯云等企业正通过网关架构、红队演练等方式提升安全能力,强调需政企学研协同构建开放生态,在创新中守住安全底线。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • 优酷用AI解题,为多元营销场景提效

    AI浪潮持续奔涌,正以前所未有的速度渗透营销领域的每一处脉络。从创意发想到投放优化,AI技术已从概念探索走向规模化落地,深度融入营销工作的日常场景。 在这场深刻的变革中,技术所展现出的最硬核、最毋庸置疑的现实价值便是——提效,而这也精准命中了行业沉积已久的痛点。 比如在内容生产环节,过去一条TVC广告从策划到上线往往需要数月;即便是轻量级的信�

今日大家都在搜的词: