首页 > 业界 > 关键词  > Griffon最新资讯  > 正文

高分辨率AI模型Griffon v2:通过文本和视觉提示提供灵活的对象引用

2024-03-19 09:37 · 稿源:站长之家

划重点:

🔍 最近,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。

🚀 团队引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。

🌟 Griffon v2在引用表达生成(REG)、短语定位和引用表达理解(REC)等任务中表现出色。

站长之家(ChinaZ.com) 3月19日 消息:近来,大型视觉语言模型(LVLMs)在需要文本和图像理解的任务中表现出色。特别是在区域级任务,如引用表达理解(REC)中,经过图像文本理解和推理的发展之后,这一进展变得明显。诸如Griffon之类的模型在任务中表现出色,如目标检测,这表明了LVLMs内部感知的重大进步。这一发展推动了对使用文本描述之外的灵活引用进行额外研究,以改善用户界面。

image.png

尽管在细粒度对象感知方面取得了巨大进步,但由于图片分辨率的限制,LVLMs无法在复杂情景中胜过任务特定的专家。这一限制限制了它们在使用文本和视觉线索有效引用事物的能力,尤其是在GUI代理和计数活动等领域。

为了克服这一限制,一组研究人员引入了Griffon v2,这是一种统一的高分辨率模型,旨在通过文本和视觉线索提供灵活的对象引用。为了解决有效增加图像分辨率的问题,他们提出了一个简单且轻量级的降采样投影仪。这个投影仪的设计目标是克服大型语言模型输入标记所施加的限制。

这一方法通过保留细微特征和整个上下文,特别是对于低分辨率模型可能错过的小事物,极大地提高了多模态感知能力。团队基于这一基础构建了一个即插即用的视觉标记器,并将Griffon v2增强为具有视觉语言共指能力。这一特性使得可以以一种易于使用的方式与各种输入进行交互,例如坐标、自由文本和灵活的目标图片。

Griffon v2在各种任务中都被证明是有效的,如引用表达生成(REG)、短语定位和引用表达理解(REC),根据实验数据显示,该模型在目标检测和对象计数方面表现优于专家模型。

该团队总结了他们的主要贡献如下:

- 高分辨率多模态感知模型:通过消除对图像进行分割的要求,该模型提供了一种改进本地理解的独特方法。该模型处理分辨率高达1K的能力已经提高了其捕捉细节的能力。

- 视觉-语言共指结构:为了扩展模型的效用并启用多种交互模式,引入了一个将语言和视觉输入结合起来的共指结构。这一特性使用户与模型之间的交流更加灵活自然。

为了验证模型在各种定位任务上的有效性,进行了大量实验。在短语定位、引用表达生成(REG)和引用表达理解(REC)中,都获得了最先进的性能。该模型在定量和定性目标计数方面均优于专家模型,证明了其在感知和理解方面的优越性。

项目入口:https://github.com/jefferyZhan/Griffon

论文地址:https://arxiv.org/abs/2403.09333

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 点击已死?“AI引用”才是流量未来,SEO正在被SAO、AEO取代

    “随着 AI 聊天工具使用量的上升,网站访问量在下降。” 因此,他们调整了网站结构,以便让 AI 爬虫“更方便”、“更容易”地抓取内容……

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 模型驱动AI赋能:慧点科技2025用户大会成功举办

    2025年6月20日,慧点科技在中国电科太极信息科技产业园成功举办年度用户大会。大会以"模型驱动,AI赋能"为主题,探讨人工智能在企业管理和数字化转型中的应用。太极股份副总裁韩建国分析了数据要素在数字经济发展中的关键作用,多位专家分享了AI在审计、办公等领域的创新实践。慧点科技推出"慧珠"信创私域智能体平台,覆盖OA、风控等核心场景,助力企业构建智能化运营生态。会议还设置专题培训,深入讲解大模型技术、数字员工构建等前沿话题,为政企客户提供从理论到实践的数字化转型路径参考。

  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�