首页 > 业界 > 关键词  > SpatialVLM最新资讯  > 正文

谷歌提出模型SpatialVLM :赋予视觉语言模型空间推理能力

2024-02-18 14:22 · 稿源:站长之家

划重点:

🌐 视觉语言模型 (VLM) 在空间推理方面存在困难,谷歌提出的 SpatialVLM 能够弥补这一不足。

🚀 通过生成大规模的空间 VQA 数据集,研究者训练了 SpatialVLM,展现了显著的定性和定量空间推理能力。

🤖 SpatialVLM 不仅在视觉领域有潜在应用,还能作为密集奖励注释器和执行链式思维推理的强大工具。

站长之家(ChinaZ.com)2月18日 消息:谷歌最新论文揭示的 SpatialVLM,是一种具备空间推理能力的视觉语言模型,旨在解决当前视觉语言模型在空间推理方面的困难。视觉语言模型在图像描述、视觉问答等任务上取得显著进展,但在理解目标在三维空间中的位置或空间关系方面仍存在难题。

研究者通过生成大规模的空间视觉问答(VQA)数据集,利用计算机视觉模型提取目标为中心的背景信息,并采用基于模板的方法生成合理的 VQA 数据。经过训练,SpatialVLM表现出令人满意的能力,包括在回答定性和定量空间问题方面的显著提升。

image.png

定性空间 VQA 方面,SpatialVLM在人工注释的答案和模型输出自由形式的自然语言中展现了高成功率。在定量空间 VQA 方面,模型在两个指标上表现优越,比基线模型更为出色。

研究者强调了数据的重要性,指出常见数据集的限制是当前视觉语言模型在空间推理上的瓶颈。他们专注于从现实世界数据中提取空间信息,通过生成大规模的空间 VQA 数据集,成功地提高了VLM的一般空间推理能力。

SpatialVLM不仅在视觉领域有应用潜力,还可以作为密集奖励注释器,用于机器人任务的奖励注释。此外,结合大型语言模型,SpatialVLM能够执行链式思维推理,解锁复杂问题的解决能力。

这一研究为视觉语言模型的空间推理能力提供了新的思路,为未来在机器人、图像识别等领域的发展带来了新的可能性。

  • 论文地址:https://arxiv.org/pdf/2401.12168.pdf

  • 项目入口:https://top.aibase.com/tool/spatialvlm

举报

  • 相关推荐
  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 解锁空间潜能,罗地格RESPACE,打造智慧城市的交通新枢纽

    荷兰阿姆斯特丹运河区地下自动停车系统启用两周年,成为传统保护与现代创新融合的典范。该系统采用RESPACE混合托盘与机器人技术,在有限空间内最大化停车位,已服务超5.96万辆车。项目巧妙选址于历史悠久的运河下方,既保留文化遗产风貌,又提供便捷可持续的停车方案,实现现代功能需求与历史保护的完美平衡。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • SpaceX第10次试飞成功 马斯克:星舰这次没有空中爆炸

    新一代重型运载火箭“星舰”从得克萨斯州顺利发射升空,开启了其第十次试飞之旅。此次试飞任务备受瞩目,重点目标涵盖飞船部署模拟卫星、在太空中实施发动机重新点火测试等关键环节。 据现场情况,发射约一个小时后,“星舰”的超重型助推器在墨西哥湾精准完成溅落。与此同时,二级飞船更是首次成功模拟释放星链卫星,并在印度洋预定海区顺利溅落,最后以解体

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 比iPad mini更胜一筹!华为MatePad Mini包装盒曝光:8.8寸屏的手机 或卖4K起

    明天除了Mate XTs亮相外,还有MatePad Mini,而它到底算是平板还是手机呢? 现在有博主晒出了MatePad Mini外包装盒,从产品名称上看,华为给它定位是手机(数字移动电话机)。 对于这款新机,今天我们也报道了相关内容,比如曝光的价格是:12GB 256GB售价为3999元;12GB 512GB售价为4499元;12GB 512GB柔光版售价为4999元。

  • 妙手ERP荣膺TikTok Shop 2025年度H1优质招商服务商,携手共创跨境新未来!

    8月27日,TikTok Shop在杭州成功举办2025东南亚跨境生态服务商大会,以“生态共融·价值共生”为主题,汇聚平台业务负责人、跨境专家及近百家优秀服务商代表,共绘东南亚跨境生态发展蓝图。妙手ERP凭借专业的跨境电商店铺运营解决方案、技术实力及优质服务,荣获“TikTok Shop 2025年度H1优质招商服务商”奖项。TikTok在东南亚拥有3.25亿月活用户,用户月均使用时长超35小时,平台采用“内容+货架”双场域模式,将直播与短视频打造为核心消费场景。2025年上半年,TikTok Shop东南亚市场总GMV突破168.64亿美元,已逼近2024全年规模,其中泰国市场以54.19亿美元领跑。妙手ERP已全面接入TikTok Shop东南亚全站点,提供全流程跨境电商SaaS解决方案,全方位赋能卖家降本增效。未来,妙手将秉持初心,持续提升产品功能与服务,护航跨境卖家高效出海。

  • ​AI 测试引领者——Testin 云测荣膺“2025 数字中国 TOP100”

    近日,中国科学院主管的《互联网周刊》发布“2025数字中国TOP100”榜单,Testin云测与华为、大疆、阿里巴巴等企业共同入选。该榜单覆盖人工智能、智能制造、区块链等多个数字技术领域,旨在为各行业数字化转型提供技术参照。Testin云测作为AI测试服务商,凭借深厚技术积累,助力金融、汽车等行业突破质量瓶颈,提升测试效率3倍以上,成为支撑产业数字化的关键力量。

今日大家都在搜的词: