全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

2023-10-23 14:23 · 稿源：站长之家

要点:
提出了一种新的视觉提示方法 SoM，可以让 GPT-4V 在细粒度视觉任务上有更好的表现。
SoM 通过使用交互式分割模型将图像划分为不同区域，并在每个区域上添加标记，如字母数字、掩码或框。
SoM 可以让 GPT-4V 适用于多种视觉任务，如开放词汇图像分割、参考分割、短语关联和视频对象分割，并在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。

研究人员推出了一种新的视觉提示方法 Set-of-Mark（SoM），它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型，可以同时处理文本和图像，并生成多种类型的输出。

然而，GPT-4V 在细粒度 visual grounding（输入是图片和对应的物体描述，输出是描述物体的 box）能力相对较弱，或者尚未发挥出来。为了解决这个问题，研究人员提出了 SoM 方法，它可以让 GPT-4V 在不需要任何微调或额外数据的情况下，完成各种细粒度视觉任务。

论文地址:https://arxiv.org/pdf/2310.11441.pdf

论文主页:https://som-gpt4v.github.io/

SoM 的核心思想是使用交互式分割模型（例如 SAM）将图像划分为不同粒度级别的区域，并在这些区域上添加一组标记(mark)，例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入，以解决上述问题。

研究人员认为，这种方法可以让 GPT-4V 更好地理解图像中的物体和空间关系，并且可以利用 GPT-4V 的生成能力来产生文本之外的输出，如掩码或框。

研究人员在多个视觉任务上评估了 SoM 的效果，包括开放词汇图像分割、参考分割、短语关联和视频对象分割。他们使用不同的分割工具来提出图像区域，并使用简单的 prompt 工程来引导 GPT-4V 生成所需的输出。他们还使用了「分而治之」（divide-and-conquer）的策略来运行实验和评估，即对于每个实例，他们使用新的聊天窗口，这样一来，评估期间就不会出现上下文泄露了。

研究人员将 SoM 与以下模型进行比较:预测坐标的 GPT-4V 基线模型、SOTA 专用模型和开源 LMM。结果显示，SoM 可以让 GPT-4V 在各个数据集上取得了优于专用模型和其他开源多模态模型的性能。特别是，在 COCO 和 ADE20K 上的开放词汇图像分割任务上，SoM 的零样本性能接近微调后的 MaskDINO，并大幅优于 OpenSeeD。

在 RefCOCOg 上的参考分割任务上，SoM 击败了 PolyFormer 和 SEEM 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的开源 LMM。在 Flickr30K 上的短语关联任务上，SoM 实现了比 GLIPv2和 Grounding DINO 更强的零样本性能。在 DAVIS2017上的视频对象分割任务上，SoM 实现了优于其他专用视觉模型的最佳追踪性能（78.8J&F）。

研究人员还进行了消融研究，探讨了标记类型和真值掩码对 SoM 的影响。结果表明，添加额外的框可以显著提升性能，而使用真值掩码可以将参考分割的性能提升14.5%（mIoU）。这些结果表明了 SoM 的有效性和灵活性，以及 GPT-4V 在细粒度视觉任务上的潜力。

（举报）

相关推荐
大家在看

关键词：

GPT-4V

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐OpenAI发布全新微调API ：ChatGPT支持更详细可视化微调啦！

4月5日凌晨，OpenAI在官网宣布新增6个全新微调API功能，以扩展自定义模型，帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置和更详细的微调仪表板改进。如果对模型的请求超时或找不到模型名称，可能是因为模型仍在加载中，可在几分钟后重试。

OpenAI OpenAI
研究发现：GPT-4在临床推理中表现优于医生，但也更经常出错

在一项新研究中，美国贝斯以色列医疗中心的科学家们将一种大型语言模型与人类医生进行了临床推理能力的比较。研究人员使用了修订后的IDEA评分，这是一种常用工具，用于评估临床推理能力。尽管这些AI系统还没有准备好用于临床诊断，但仍可能利用这项技术来增强临床工作流程，特别是在保持人类控制的同时确保安全、准确的过程。

GPT-4
荐Sam Altman：GPT-5，将会比现在的大模型更智能

4月25日晚，斯坦福大学日报消息，OpenAI联合创始人兼首席执行官SamAltman，在斯坦福大学的英伟达礼堂进行了公开演讲，超过1000名学生排队参加此次活动。Altman表示，从现在的技术创新和功能迭代来看，人类远远没有达到AI的极限，如果只是聚焦现在的AI能力将会是徒劳的。Altman则希望，二者之间的羁绊友谊可以继续长存下去。

GPT 大模型
智能锁也能用上GPT技术了？大扭力电机更配中国门？这家公司再次引领行业

智能锁也能用上GPT技术了?小小智能锁电机，竟然能拉动2.5吨SUV?4月2日，中国智能锁领军品牌德施曼在北京举办2024德施曼创新技术预沟通会，德施曼技术研发中心总监桑胜伟揭秘了两项行业突破性技术——GPTfinger及龙霆电机。德施曼独家的GPTfinger为行业首次将GPT技术应用于智能锁指纹识别功能。4月11日德施曼将举行主题为“Explore未见”的2024全球新品发布会，除了GPTfinger和大扭力龙霆电机，德施曼还将发布其他领先技术，并发布搭载突破性技术的全新重磅产品，无疑将再次刷新行业的认知。

智能锁 GPT技术德施曼
重磅！GPT-4 API全面开放使用

经过漫长等待，OpenAI终于宣布全面开放GPT-4API，这一消息如同一场技术革命的宣告，为生成式AI应用的发展带来了新的契机。GPT-4不仅在创造性方面有所突破具备更强的上下文处理能力，极大地拓展了其应用场景。预计随着时间的推移，GPT-4将在各行各业发挥越来越重要的作用，推动生成式AI应用的发展进程。

GPT-4 GPT-4API AI头条
荐GPT-4化身黑客搞破坏，成功率87%，OpenAI要求保密提示词，网友复现ing

91行代码、1056个token，GPT-4化身黑客搞破坏!测试成功率达87%，单次成本仅8.8美元。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。还有人建议补充测试:当然还有人担心，这研究估计让脚本小子乐开花了，也让公司更加重视安全问题。

黑客
GPT-4化身黑客搞破坏，成功率87%！OpenAI要求保密提示词，网友复现ing

91行代码、1056个token，GPT-4化身黑客搞破坏!测试成功率达87%，单次成本仅8.8美元。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。还有人建议补充测试:当然还有人担心，这研究估计让脚本小子乐开花了，也让公司更加重视安全问题。

OpenAI
全面对标GPT4！科大讯飞副总裁：星火大模型V4.0预计6月发布

快科技3月27日消息，据媒体报道，科大讯飞副总裁、研究院院长刘聪在博鳌2024年会现场接受采访时表示，对标GPT-4当前能力的讯飞星火大模型V4.0正在训练中，预计今年6月发布。刘聪透露，讯飞星火大模型从去年5月6日首次发布以来，已迭代到星火V3.5，已经逼近GPT-4的当前水平。此前科大讯飞董事长刘庆峰曾表示，今年讯飞星火大模型将继续快速升级，不过还是要科学理性正视�

科大讯飞讯飞星火大模型 GPT-4
全面对标GPT4 Turbo！科大讯飞刘聪：6月发布星火大模型V4.0版本

科大讯飞副总裁、研究院院长刘聪在博鳌2024年会现场表示：科大讯飞计划在今年6月，正式发布对标GPT-4当前能力的星火大模型V4.0版本。讯飞星火大模型V4.0目前正在训练中。刘庆峰表示，星火大模型的背后，是科大讯飞多年的研究和技术积累，多年来研发团队不断探索和改进各种算法和模型，以解决语言理解和推理中的挑战。

科大讯飞 V4.0版本 GPT-4
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

今日大家都在搜的词：

热文

站长商机