首页 > 业界 > 关键词  > GPT-4V最新资讯  > 正文

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

2023-10-23 14:23 · 稿源:站长之家

要点:

  • 提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。

  • SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。

  • SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。

研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。

然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。

image.png

论文地址:https://arxiv.org/pdf/2310.11441.pdf

论文主页:https://som-gpt4v.github.io/

SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。

研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。

image.png

研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。

研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。

在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。

研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 华为Pura 80系列预装鸿蒙5.1:小艺全新升级AI视觉能力 随身导游

    今天下午华为Pura 80系列正式发布,新机出厂搭载最新的鸿蒙5.1系统,为用户带来前所未有的智能体验。 其中,全新小艺再升级,新増AI视觉识别能力,能够精准捕捉并理解用户需求,识别周边的一切。

  • Staycation风潮来了:在酒店里躺平,比旅游更治愈

    “在酒店吹空调、吃西瓜、躺着追剧,不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期,时间不够远游,却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店,开启“微度假”新姿势——Staycation。 Staycation是“Stay”(停留)和“Vacation”(假期)的结合,指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说,这种

  • 猛玛携全新极影生态,支持FIRST训练营青年电影创作

    2025年6月17日,猛玛发布新一代无线图传监视器极影5,标志着"极影图传生态"进入2.0阶段。该产品配备1500nit超高亮屏、160°超广视角、双频协同+自动跳频等七大功能,专为中小型影视团队设计。极影5与极影全系图传设备和"立声PRO"通话系统共同构建无线音视频支持体系,服务青年电影人创作实践。同时,猛玛宣布成为第十九届FIRST青年电影展官方指定无线音视频技术品牌,将为42位入选青年电影人提供技术支持。猛玛自2017年推出首款专业无线图传以来,已服务《流浪地球》《长安十二时辰》等头部剧组,逐步确立"国产专业图传首选品牌"的行业地位。

  • 苹果全新AirTag即将推出:将有这几点提升

    近日,彭博社知名记者马克・古尔曼(Mark Gurman)在其《Power On》通讯中透露,传闻已久的苹果 AirTag2或已“基本准备就绪”,有望在近期与消费者见面。此前,古尔曼曾预测该产品将于2025年年中左右发布,而如今这一时间节点正逐步临近。 在通讯的问答环节中,古尔曼提到新款 AirTag 的筹备工作在过去几个月里一直在进行,但他同时表示,该产品的发布并不值得特别关注,在

  • 真我Neo7 Turbo首发全新透明机身:同档罕见

    今天下午,真我Neo7 Turbo正式亮相。 该机首发采用全新的透明机身,不惜成本实现了近乎1:1还原手机内部的精密排布,外观设计一眼倾心。

  • 更智能的Galaxy相机:懂你所见 即时互动

    本文探讨了移动设备成像技术的发展趋势。三星Galaxy设备通过硬件、软件与AI技术的深度融合,突破了传统影像工具的局限,构建了全面的技术体系。其相机不仅能"看懂"场景,还能提供实时反馈,进化成更直观的视觉信息交互界面。当这种交互与折叠屏结合时,将带来更震撼的沉浸体验。同时,三星始终重视隐私保护,确保用户数据安全。即将发布的三星折叠屏新品相机将更智能,不仅能生动记录生活瞬间,还将使日常使用体验更流畅、个性化和有意义。令人期待的Ultra体验即将在折叠屏上展开。

  • 影像更菁彩!华为 Pura80 系列全系搭载HDR Vivid菁彩影像!

    华为Pura80系列于6月11日发布,搭载行业首创"一镜双目"双焦段切换式长焦结构,实现超大底与双长焦完美结合。全系配备HDR Vivid影像技术,支持最高10000nits亮度范围,突破传统影像亮度限制。该技术通过动态元数据技术实现实时优化,结合AI实时HDR功能,能精准还原火焰等高反差场景。同时支持Audio Vivid声技术,构建全感官体验。Pura80系列已与主流视频平台深度适配,用户可畅享HDR内容。作为2025年超高清发展年的旗舰机型,该系列通过HDR Vivid和广色域技术,带来专业级光影革命。

  • 传闻中,苹果全新的 HomePad 有望“今年年底前发布”

    苹果一直被传正在开发一款专为智能家居打造的新产品。该设备将配备一个方形的 7 英寸显示屏,支持 Apple Intelligence……

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。