首页 > 业界 > 关键词  > SpatialVLM最新资讯  > 正文

谷歌AI研究提出 SpatialVLM:一种数据合成和预训练机制,以增强视觉语言模型 VLM 空间推理能力

2024-01-29 10:46 · 稿源:站长之家

**划重点:**

1. 🧠 视觉语言模型(VLMs)在人工智能任务中取得显著进展,但受限于空间推理能力。

2. 🚀 谷歌DeepMind和谷歌研究团队提出SpatialVLM,通过使用大规模的空间推理数据集进行训练,显著提高了VLMs的空间推理能力。

3. 🤖 SpatialVLM不仅在空间推理任务中优于其他VLMs,还能与大型语言模型结合,广泛应用于机器人和其他需要复杂空间分析的领域。

站长之家(ChinaZ.com)1月29日 消息:谷歌AI研究团队最近提出了SpatialVLM,这是一种旨在增强视觉语言模型(VLMs)空间推理能力的创新系统。

尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展,但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及它们之间的空间关系,在实际应用中,如机器人或增强现实等需要精确空间理解的领域中显得尤为重要。

image.png

研究人员发现,VLMs的空间推理的根本限制并非来自它们的架构,而是源于训练数据集中缺乏全面的三维空间知识。为了解决这一问题,他们开发了SpatialVLM,这是一个通过使用独特的大规模空间推理数据集进行训练的系统。数据集生成过程涉及一个多层次的框架,利用各种模型进行开放词汇检测、度量深度估计、语义分割和以物体为中心的标题生成。这些模型协同工作,从二维图像中提取详细的三维空间注释,从而用关键的空间信息丰富了训练数据集。

SpatialVLM代表了VLM领域的一大进步。其在丰富的空间数据中的训练显著提高了其对定性和定量空间查询的响应能力。通过实验证明,SpatialVLM在空间推理任务中持续优于其他视觉语言模型。SpatialVLM的一个显著特点是其能够准确执行定量估算,这通常是由于训练数据的噪声而变得具有挑战性的任务。这使得它成为复杂机器人重新排列任务中开放词汇奖励注释者的有价值工具。

SpatialVLM的创新应用之一是与强大的大型语言模型集成,使其能够执行空间思维链推理。这种处理和解决多步空间推理任务的能力进一步拓宽了它在机器人和其他需要复杂空间分析的领域中的适用性。研究人员在空间推理和机器人领域探索了新的下游应用,展示了SpatialVLM作为各种机器人任务的密集奖励注释者和成功检测器的潜力。

研究的关键要点可以总结如下:

- SpatialVLM提升了视觉语言模型的空间推理能力。

- 它是通过使用丰富的三维空间注释的大规模数据集进行训练的。

- 该模型在空间推理任务中表现卓越,超过了其他VLMs。

- SpatialVLM能够执行复杂的空间思维链推理,在机器人领域具有重要价值。

- SpatialVLM的开发标志着人工智能技术的重大进步。

举报

  • 相关推荐
  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 算力无界,AI无距!超聚变发布FusionXpark™随身智能体开发平台

    10月24日,超聚变公司发布FusionXpark™智能体开发平台,实现AI算力从云端下沉至桌面设备。该平台搭载GB10架构,提供1PFLOPS本地算力,支持200B参数模型推理,助力开发者在边缘端运行高参数模型。发布会展示了政务、金融、工业等五大行业的30类“超级员工”智能体应用,通过私有化部署保障数据安全。专家指出,这一创新将推动AI普惠化,重塑产业生态。

  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

  • 苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回:设备更新后出错

    苹果在推送iOS 26.2和iPadOS 26.2首个开发者测试版一天后,便停止了对iPhone Air、iPhone 16e以及新款M5 iPad Pro蜂窝网络版的签名验证,这些设备暂时无法安装iOS 26.2/iPadOS 26.2 Beta版更新。 据悉,已经安装了该更新的用户反馈,他的M5 iPad Pro更新后出现问题,被迫进入恢复模式,最终他将设备恢复至iPadOS 26.1版本。 值得一提的是,上述受影响的

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

今日大家都在搜的词: