首页 > 业界 > 关键词  > Griffon最新资讯  > 正文

高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

2024-03-19 09:37 · 稿源:站长之家

划重点:

🔍 最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。

🚀 团队引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。

🌟 Griffon v2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。

站长之家(ChinaZ.com) 3月19日 消息:近来,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。特别是在区域级任务,如引用表达理解(REC)中,经过图像文本理解和推理的发展之后,这一进展变得明显。诸如Griffon之类的模型在任务中表现出色,如目标检测,这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。

image.png

尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。

为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。

这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。

Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。

该团队总结了他们的主要贡献如下:

- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。

- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。

为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。

项目入口:https://github.com/jefferyZhan/Griffon

论文地址:https://arxiv.org/abs/2403.09333

举报

  • 相关推荐
  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • iOS 27重磅更新:苹果允许用户自选第三方AI模型

    苹果计划在今年秋季推出的iOS 27、iPadOS 27、macOS 27中,开放Apple Intelligence底层AI模型选择权,允许用户自主选用第三方AI服务,覆盖Siri、写作工具、图像生成等核心功能。 此前,苹果在2024年推出Apple Intelligence平台,仅接入ChatGPT作为唯一第三方AI模型。 iOS 27将通过名为Extensions(扩展)的机制,打破这一独占格局,用户可在设置中选择已安装并适配的AI模型服务商,系统会提示�

  • 北京亦庄设立大模型生态服务站 助力AI产业合规发展

    2026年4月,经北京市网信办认定,亦庄模数世界大模型生态服务站正式成立,为企业提供公益大模型备案辅导、产业生态对接等一站式服务。该站由市网信办授权、经开区信息技术产业局指导、北京国际算力服务公司运营,采用“1对1精准陪跑+集中培训”模式,可将备案周期压缩50%以上,解决企业合规认知不足等行业痛点。同时,经开区对完成备案的优质大模型企业给予100万元专项奖励及1亿元算力、模型、数据券等支持,常态化开展合规培训与产业对接,助力北京经开区加快构建全域人工智能之城。

  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • AI日报:豆包披露付费订阅方案;OpenAI发布GPT-5.5Instant;苹果手机支持第三方AI模型

    今日AI领域动态:豆包推出月费68-500元三档付费订阅,推进商业化;OpenAI发布GPT-5.5 Instant,取代5.3成为ChatGPT默认模型;苹果iOS 27或支持第三方AI模型,打破封闭生态;淘宝“答题免单”上线,首次加入AI试穿玩法;魔形智能完成数亿元Pre-A轮融资,布局Token基础设施;谷歌神秘项目“Remy”曝光,打造24小时AI助教;谷歌推出Gemini Ultra Lite新订阅服务,填补中高端市场空白;ChatGPT上线广告主平台,AI商业化迎来分水岭。

  • 灵瑞集首发瑞兽AI灵宠:以IP重构AI陪伴新范式

    芯伴科技推出“灵瑞集”AI灵宠系列,以中国瑞兽文化为内核,结合自研角色性格模型与全场景交互技术,打造6款差异化IP角色(辟邪、天禄、九尾狐等),定价169元起。产品搭载4G独立联网模块、长续航与Type-C快充,实现无WiFi秒级响应;配套互动小程序与治愈经营游戏,构建“硬件+软件+内容”生态闭环。该系列旨在将传统瑞兽转化为年轻人专属的“有文化、有温度、可成长”情感陪伴伙伴,降低AI潮玩体验门槛。

  • AI转折中的红果

    横店的春天,来得比去年更早,但短剧基地却远没有往年热闹。 去年此时,这里每天有几十个短剧剧组同时拍摄,推轨道的工人从早忙到晚,盒饭摊能排到马路尽头。 而今年3月以来,大部分剧组暂时停摆,曾经月薪过万的服化道师傅们,有的去了影楼,有的回老家开汉服店。 近乎一夜之间,轰轰烈烈的行业,风声忽然变了。 这场嬗变的缔造者,无疑是AI。 而面对内容生�

  • AI眼镜,阿里求稳

    4月15日,千问AI眼镜S1现货开售,近期对硬件颇为执着的阿里,似乎又在AI眼镜赛道拿出了一款力作。 实际上,在很多人眼中,千问AI眼镜S1,有点像是夸克AI眼镜S1的二进宫。 千问S1与夸克S1,在硬件端几乎没有差异,核心零部件也都搭载了高通骁龙AR1+恒玄BES2800双旗舰芯片、双目Micro-LED双光机、索尼IMX681等等。 相比之下,最大的差别其实在于软件层面——夸克S1的默认系统为�

  • LibTV 上线 HappyHorse 1.0:携手顶级模型打造一站式 AI 视频创作平台

    4月28日,阿里巴巴ATH事业群开发的HappyHorse1.0视频生成模型首发登陆LibTV。该模型采用音视频联合生成方案,支持15秒多镜头叙事、多画幅适配及1080P输出,在画面质感、运镜流畅度和人物真实感上显著改善。LibTV是LiblibAI推出的一站式AI视频创作平台,整合剧本、分镜、剪辑等环节,提供结构化工作流,支持调用HappyHorse1.0、Seedance2.0等顶级模型。LiblibAI已成长为国内最大多模态模型与创作社区,平台上线首日访问量突破10万。

  • AI视觉智能体进入“定义即运行”时代:考拉悠然发布悠然远智大模型服务平台

    考拉悠然正式发布“悠然远智”大模型服务平台,以全栈自研大模型为基础,构建AI视觉智能体平台,具备自然语言理解、零样本视觉执行和自主迭代三大核心优势。该平台将传统CV技术数周的上线周期压缩至分钟级,赋能城市治理、智慧政务、工业智检等场景,实现“定义即运行”的新时代,并成功入选2026成都硬科技企业扑克牌榜单。

今日大家都在搜的词: