谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

2024-01-29 10:46 · 稿源：站长之家

**划重点:**
1. 🧠 视觉语言模型（VLMs）在人工智能任务中取得显著进展，但受限于空间推理能力。
2. 🚀 谷歌DeepMind和谷歌研究团队提出SpatialVLM，通过使用大规模的空间推理数据集进行训练，显著提高了VLMs的空间推理能力。
3. 🤖 SpatialVLM不仅在空间推理任务中优于其他VLMs，还能与大型语言模型结合，广泛应用于机器人和其他需要复杂空间分析的领域。

站长之家（ChinaZ.com）1月29日消息:谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型（VLMs）空间推理能力的创新系统。

尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及它们之间的空间关系，在实际应用中，如机器人或增强现实等需要精确空间理解的领域中显得尤为重要。

研究人员发现，VLMs的空间推理的根本限制并非来自它们的架构，而是源于训练数据集中缺乏全面的三维空间知识。为了解决这一问题，他们开发了SpatialVLM，这是一个通过使用独特的大规模空间推理数据集进行训练的系统。数据集生成过程涉及一个多层次的框架，利用各种模型进行开放词汇检测、度量深度估计、语义分割和以物体为中心的标题生成。这些模型协同工作，从二维图像中提取详细的三维空间注释，从而用关键的空间信息丰富了训练数据集。

SpatialVLM代表了VLM领域的一大进步。其在丰富的空间数据中的训练显著提高了其对定性和定量空间查询的响应能力。通过实验证明，SpatialVLM在空间推理任务中持续优于其他视觉语言模型。SpatialVLM的一个显著特点是其能够准确执行定量估算，这通常是由于训练数据的噪声而变得具有挑战性的任务。这使得它成为复杂机器人重新排列任务中开放词汇奖励注释者的有价值工具。

SpatialVLM的创新应用之一是与强大的大型语言模型集成，使其能够执行空间思维链推理。这种处理和解决多步空间推理任务的能力进一步拓宽了它在机器人和其他需要复杂空间分析的领域中的适用性。研究人员在空间推理和机器人领域探索了新的下游应用，展示了SpatialVLM作为各种机器人任务的密集奖励注释者和成功检测器的潜力。

研究的关键要点可以总结如下:

- SpatialVLM提升了视觉语言模型的空间推理能力。

- 它是通过使用丰富的三维空间注释的大规模数据集进行训练的。

- 该模型在空间推理任务中表现卓越，超过了其他VLMs。

- SpatialVLM能够执行复杂的空间思维链推理，在机器人领域具有重要价值。

- SpatialVLM的开发标志着人工智能技术的重大进步。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
谷歌推出”自我发现“框架，极大增强GPT-4等大模型推理能力

随着ChatGPT的出现，大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面，面临内容不准确、安全等难题。每次只需要一个查询获得相似性能的集成方法需要40倍的查询量，也就是说可以节省很多算力资源。

GPT-4
更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

HuggingFace首次发布了其Idefics视觉语言模型，该模型于2023年首次亮相，采用了最初由DeepMind开发的技术。Idefics迎来了升级，新版本Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别能力。Idefics2的发布是AI繁荣持续推出的许多多模态模型之一，包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。

Idefics2 视觉语言模型 AI头条
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

在线文本识别模型取得了显著进展，但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting，一个专注于在线手写数学表达的数据集，包含230k人工编写和400k合成样本，超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。

MathWriting 谷歌AI AI头条
荐马斯克即将发布Grok-1.5，推理能力更强

3月29日，马斯克旗下的AI公司x.ai在官网宣布，未来几天内即将发布Grok-1.5。x.ai开源了Grok-1的权重和网络架构，成为大模型开源领域的一匹黑马。训练数据方面，Grok-1发布版本所使用的训练数据截至2023年第三季度的互联网数据以及xAI人工智能导师提供的数据。

Grok
荐GPT-4推理能力为0？开发者悬赏1万美金被打脸，神秘提示正确率直冲100%

小孩子都会的脑筋急转弯推理题，GPT-4和Claude3做不出?国外一位开发者小哥坚称这一观点，认为GPT模型在训练集外毫无推理能力，无法实现AGI，甚至悬赏1万美元，发起比赛。他当天就被光速打脸了!网友用高能的prompt，让GPT-4和Claude3几乎达到百分百的正确率。我只是互联网上的一名普通人经常犯错。

GPT-4
Tavily官网体验入口 AI研究助手使用地址

Tavily是您的AI研究助手，为您提供快速准确的洞察和全面研究。它可以帮助您的AI做出更好的决策，提供智能搜索API，以快速、准确、实时的方式获取信息。提供一站式的数据收集，从多个可信来源获取聚合和筛选的结果。

Tavily
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

今日大家都在搜的词：

热文

站长商机