高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

2024-03-19 09:37 · 稿源：站长之家

划重点:
🔍 最近，大型视觉语言模型（LVLMs）在需要文本和图像理解的任务中表现出色。
🚀 团队引入了Griffon v2，这是一种统一的高分辨率模型，旨在通过文本和视觉线索提供灵活的对象引用。
🌟 Griffon v2在引用表达生成（REG）、短语定位和引用表达理解(REC)等任务中表现出色。

站长之家(ChinaZ.com) 3月19日消息:近来，大型视觉语言模型（LVLMs）在需要文本和图像理解的任务中表现出色。特别是在区域级任务，如引用表达理解(REC)中，经过图像文本理解和推理的发展之后，这一进展变得明显。诸如Griffon之类的模型在任务中表现出色，如目标检测，这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究，以改善用户界面。

尽管在细粒度对象感知方面取得了巨大进步，但由于图片分辨率的限制，LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力，尤其是在GUI代理和计数活动等领域。

为了克服这一限制，一组研究人员引入了Griffon v2，这是一种统一的高分辨率模型，旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题，他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。

这一方法通过保留细微特征和整个上下文，特别是对于低分辨率模型可能错过的小事物，极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器，并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互，例如坐标、自由文本和灵活的目标图片。

Griffon v2在各种任务中都被证明是有效的，如引用表达生成（REG）、短语定位和引用表达理解(REC)，根据实验数据显示，该模型在目标检测和对象计数方面表现优于专家模型。

该团队总结了他们的主要贡献如下:

- 高分辨率多模态感知模型:通过消除对图像进行分割的要求，该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。

- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式，引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。

为了验证模型在各种定位任务上的有效性，进行了大量实验。在短语定位、引用表达生成（REG）和引用表达理解(REC)中，都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型，证明了其在感知和理解方面的优越性。

项目入口：https://github.com/jefferyZhan/Griffon

论文地址：https://arxiv.org/abs/2403.09333

（举报）

相关推荐

关键词：

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
向AI构建能力，用模型产出价值，让金融优质发展

2025年云栖大会在杭州举行，聚焦“云智一体+碳硅共生”主题，展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍，“通义点金”平台全新升级，致力于构建金融行业垂直模型，打造具备业务洞察力的“专家级智能体”。核心突破包括：通过飞轮平台实现模型与业务双向螺旋上升，构建可观测、可评测、可迭代能力；赋予模型“自知之明”，精准调用工具并内化人类逻辑思维；建立多层次交叉验证测评体系，确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合，助力金融业务核心效能提升。

云栖大会人工智能大模型
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker
火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

火山引擎近日升级企业级AI搜索助手，底层模型升级至豆包大模型1.6，全面提升搜索、推荐、问答能力。该平台支持“开箱即用”，企业可快速构建专属对话式搜索助手，已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地，帮助优化产品体验，为业务增长注入新动能。

火山AI搜索引擎豆包大模型1.6 企业级搜推AI助手
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步
人类的心声，被AI听见了

过去一年里，一个看似无意义的Labubu，成为了颇具情绪号召力的符号。这只表情夸张、眼神狡黠的小兽，从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能，也不传达身份，却让无数年轻人愿意为之排队、抽签。而这，离不开更大的消费变迁。事后诸葛来看，Labubu的走红并非偶然，而是精准踩中了一个趋势——在这个时代，人们似乎越来越愿意为“情绪价值”付费。与此�

文章搜索核心标签情绪价值
AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

大模型技术推动人工智能成为生产力核心，但也放大数字风险。专家指出AI安全需构建覆盖模型安全、交互检测、权限管控的智能底座，通过标准化体系实现全生命周期防护。腾讯云等企业正通过网关架构、红队演练等方式提升安全能力，强调需政企学研协同构建开放生态，在创新中守住安全底线。

大模型技术智能体应用人工智能
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
优酷用AI解题，为多元营销场景提效

AI浪潮持续奔涌，正以前所未有的速度渗透营销领域的每一处脉络。从创意发想到投放优化，AI技术已从概念探索走向规模化落地，深度融入营销工作的日常场景。在这场深刻的变革中，技术所展现出的最硬核、最毋庸置疑的现实价值便是——提效，而这也精准命中了行业沉积已久的痛点。比如在内容生产环节，过去一条TVC广告从策划到上线往往需要数月;即便是轻量级的信�

AI营销创意发想投放优化

今日大家都在搜的词：

热文

3 天
7天

高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

向AI构建能力，用模型产出价值，让金融优质发展

快手进军AI Coding，开发工具、模型和Maas平台齐登场

火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

人类的心声，被AI听见了

AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

优酷用AI解题，为多元营销场景提效

今日大家都在搜的词：

热文

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为MatePad Pro流金典藏版开卖：售价7799元

华为MatePad Mini典藏版今日开售：售价5999元起

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

一加15今晚发布定位全能水桶机

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

站长商机