首页 > 业界 > 关键词  > GPT-4V最新资讯  > 正文

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

2023-10-23 14:23 · 稿源:站长之家

要点:

  • 提出了一种新的视觉提示方法 SoM,可以让 GPT-4V 在细粒度视觉任务上有更好的表现。

  • SoM 通过使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,如字母数字、掩码或框。

  • SoM 可以让 GPT-4V 适用于多种视觉任务,如开放词汇图像分割、参考分割、短语关联和视频对象分割,并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。

研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。

然而,GPT-4V 在细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。为了解决这个问题,研究人员提出了 SoM 方法,它可以让 GPT-4V 在不需要任何微调或额外数据的情况下,完成各种细粒度视觉任务。

image.png

论文地址:https://arxiv.org/pdf/2310.11441.pdf

论文主页:https://som-gpt4v.github.io/

SoM 的核心思想是使用交互式分割模型(例如 SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。

研究人员认为,这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系,并且可以利用 GPT-4V 的生成能力来产生文本之外的输出,如掩码或框。

image.png

研究人员在多个视觉任务上评估了 SoM 的效果,包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域,并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」(divide-and-conquer)的策略来运行实验和评估,即对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。

研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示,SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是,在 COCO 和 ADE20K 上的开放词汇图像分割任务上,SoM 的零样本性能接近微调后的 MaskDINO,并大幅优于 OpenSeeD。

在 RefCOCOg 上的参考分割任务上,SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上,SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上,SoM 实现了优于其他专用视觉模型的最佳追踪性能(78.8J&F)。

研究人员还进行了消融研究,探讨了标记类型和真值掩码对 SoM 的影响。结果表明,添加额外的框可以显著提升性能,而使用真值掩码可以将参考分割的性能提升14.5%(mIoU)。这些结果表明了 SoM 的有效性和灵活性,以及 GPT-4V 在细粒度视觉任务上的潜力。

举报

  • 相关推荐
  • 智谱的“GPT-4V”来了,CEO张鹏说他们就是奔着AGI去的

    时隔仅仅四个月,智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上,智谱介绍了新一代ChatGLM3大模型。主要是在在资源配置集中优化使用上需要跟各方进行协同,另外在比如算力网络、超算互联这样的新的解决方案领域,我们也还有很多研究工作需要推进。

  • 在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    最近一段时间,我们见证了大型语言模型的显著进步。生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。更多技术细节和实验结果参阅原论文。

  • GPT-4V医学考试成绩超过多数医学生 AI看病稳妥了?

    近期研究显示,GPT-4V在医学执照考试中表现优异,准确率远超过大部分医学生。这为AI在医学临床中的应用提供了新的可能性。这一研究为未来开发更精细的人工智能协作系统提供了方向,以使其成为可靠的医学辅助工具。

  • 微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

    微软AzureAI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。

  • 微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

    微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

  • 浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

    LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。

  • 零一万物API开放 多模态中文图表体验超越GPT-4V

    零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超越GPT-4V。无论是在图表识别、文本理解还是长篇文本分析方面,这些模型都展现出了令人惊叹的性能。

  • GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

    SamAltman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。正如LeCun一直以来所言,如今的AI连猫狗都不如。他还曾与何恺明大神共同提出了用于图像分类的简单、高度模块化的网络结构ResNeXt,这篇论文发表在了CVPR2017上。

  • 多模态大模型,阿里通义千问能和GPT-4V掰手腕了

    通义千问的图像推理能力,最近有了大幅提升。2024年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。随着多模态大模型技术的突破,我们将很快看到电商领域发生一场革命。

  • VimGPT:GPT-4V和Vimium的结合,让你更高效地浏览互联网

    随着互联网上的信息量不断增加,很多人都感到应接不暇。现在有一种新的工具正在GitHub上流行,它就是VimGPT。这对于那些需要处理大量信息的用户来说,无疑是一个非常有用的工具。

今日大家都在搜的词: