首页 > 业界 > 关键词  > 模型最新资讯  > 正文

谷歌推具备空间推理能力的视觉语言模型SpatialVLM

2024-02-18 15:09 · 稿源:站长之家

要点:

1、谷歌提出了SpatialVLM,旨在赋予视觉语言模型空间推理能力。

2、研究者利用现实世界数据训练SpatialVLM,弥补了常见数据集对空间信息的限制。

3、通过生成大规模空间VQA数据集,研究者成功使视觉语言模型具备直接空间推理和链式思维能力。

站长之家(ChinaZ.com)2月18日 消息:谷歌最新研究提出SpatialVLM,旨在解决视觉语言模型缺乏空间推理能力的问题。过去,视觉语言模型在理解目标在三维空间中位置或关系时存在困难,研究者通过借鉴人类空间推理能力的思路,提出了这一新方法。他们强调,当前模型的限制可能来自训练时使用的数据集的限制,因此他们专注于从现实世界数据中提取空间信息,以提升模型的表现。

image.png

项目地址:https://spatial-vlm.github.io/

研究者使用开放词汇检测、深度估计、语义分割等模型提取真实世界数据,训练SpatialVLM以增强空间推理能力。实验证明,这一模型在回答空间问题和定量估计方面表现出色,甚至在有噪声的训练数据下也能可靠工作。SpatialVLM不仅具备了常识知识,还能在复杂的空间推理任务中展现出强大的表现。

image.png

为了让视觉语言模型具备空间推理能力,研究者设计了一个全面的数据生成框架,通过提取实体信息和生成大规模空间VQA数据集来训练模型。他们指定了38种不同类型的空间推理问题,包括定性和定量问题,并创建了包含数亿个问答对的庞大数据集。通过这种方式,他们成功使模型具备了直接空间推理和链式思维的能力,提升了视觉语言模型的整体性能。

总的来说,谷歌的新研究为视觉语言模型的发展带来了新的可能性,通过赋予模型空间推理能力,使其在处理复杂空间任务时表现更为出色。这一研究成果有望推动视觉语言模型在未来的发展方向上取得更大突破,为人工智能领域带来新的进步。

举报

  • 相关推荐
  • 车主放心 小米辅助驾驶并未放弃世界模型 反而更强了

    小米汽车官方回应了车主关心的技术路线问题,明确XLA与世界模型并非二选一,而是互相配合,共同提升辅助驾驶能力。 不少用户担心小米转向XLA架构后,会放弃之前的世界模型技术。官方直接说明,两者不是对立关系,在全新的Xiaomi XLA架构里,已经无缝接入了强化学习加世界模型技术。 这里的XLA,就是小米给新一代SU7做的辅助驾驶底层大模型架构(Xiaomi XLA认知大模型)�

  • 灵初智能双模型亮相,全球最大人类手部数据集正式开源

    灵初智能发布新一代具身大模型Psi-R2与Psi-W0,并开源首个1000小时人类手部操作全模态数据集。该数据集总储备达10万小时,为当前行业最大的开源人类手部操作数据集,标志着具身智能从实验室走向产业化的关键一步。Psi-R2是首个使用10万小时量级人类数据预训练的World Action Model,输入图片和语言即可输出预测的未来视频和机器人动作。Psi-W0作为Action-Conditioned World Model,核心功能是对Policy进行评估与提升,并通过强化学习将人类数据的dynamic迁移至机器人dynamic。此次开源的数据集具备三大亮点:全模态覆盖视觉、语言、关节角度、触觉四类信息;通过自研外骨骼手套采集,3D轨迹精度达亚毫米级;涵盖工业装配、生活操作、物体抓取等多场景任务。该数据集可广泛应用于智能制造、物流仓储、商业服务等商业化场景,加速具身智能在千行百业的落地应用。

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • 3年1亿模型,年收入2.8亿:当AI大佬开始做游戏

    过去一年多,游戏行业对AI的态度渐渐回归理性。最初大家惊叹于各种大模型的生成效果,现在大家往往更关心现实问题:能嵌入开发管线吗?工作流是什么样?成本和效果又如何? Meshy AI创始人兼CEO胡渊鸣在今年GDC上用一组对比强烈的数据作为开场,向大家展示了3D生成工具Meshy(meshy.ai)的生产力: “Meshy拥有超过1000万注册用户,三年内用AI生成了超过1亿个3D模型;相比之下,在整�

  • 软硬协同的力量:新芯航途X7大算力芯片释放10倍模型参数的技术解密

    新芯航途X7大算力芯片通过原生软硬协同设计,显著提升模型参数部署效率,以效率突破重构智驾芯片核心价值。该芯片专为大模型时代智驾需求定制,采用专用超大核NPU架构与创新微架构深度融合,四项关键设计共同支持10倍模型参数释放能力:专属NPU单元精准匹配大模型需求;原生软硬协同打通效率瓶颈;车载智能调度系统保障稳定运行;安全架构兼顾性能与合规。X7单芯片满足城区NOA全栈需求,支持丰富传感器接入与处理,并通过AEC-Q100可靠性验证及国际权威双认证,树立“油电同智”标杆,推动高阶智能驾驶普及。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • AI 音乐赛道再进阶:音潮V3.0全链路自研模型突围,平民创作时代已至

    2026年,AI音乐赛道进入“好用”的专业进阶阶段,竞争焦点转向音乐审美、情感表达与创作平权。音潮音乐大模型V3.0凭借全链路自研技术与“音乐平权”理念,成为国产AI音乐工具中的全能选手。它通过三大核心技术实现演唱质量、旋律悦耳度、编曲多样性的突破,解决了AI音乐“顺畅易忘、质感单薄”的行业痛点。产品定位跳出“专业辅助”,以降低创作门槛为核心,支持文字、图片、哼唱等多模态输入,让零基础用户也能通过极简操作在短时间内生成带有人声演唱、情感饱满的完整歌曲,实现“人人皆可写歌”。音潮V3.0已完成全平台覆盖,生成歌曲版权归用户所有,通过技术实力与人文温度双线突围,重新定义了一键生成歌曲软件的体验标准。

  • 上线华为云!智谱最新模型GLM-5.1:支持8小时自主长程任务 多产品体验

    智谱AI近日发布新一代旗舰模型GLM-5.1,其Day0”版本在发布当天即正式上线华为云平台。 模型在长程任务处理上实现重大突破,单次自主持续工作长达8小时,并交付完整工程级成果。 智谱GLM-5.1在华为昇腾算力上通过Layer级MOE绝对均衡、框架优化专家Token产出均衡,并结合昇腾Attention算子与推理框架硬件协同优化,大幅提升算力均衡和HBM访存能力,经华为云系统级加速后整体推

  • 月流水破2000万美元,可灵成全球最吸金的AI视频模型

    3月25日,快手公布2025Q4及全年财报,Q4快手收入396亿元,同比增长11.8%,创历史新高,经调整净利润5.5亿元,同比增长16.2%,维持了较为强势的表现。全年业绩方面,快手2025总收入1428亿元,同比增长12.5%,经调整净利润206亿元,同比增长16.5%,经调整净利润率为14.5%。

  • 阿里发布新一代全模态大模型Qwen3.5-Omni

    站长之家(ChinaZ.com)3月31日 消息:今日,阿里巴巴正式推出了其新一代全模态大模型——千问Qwen3.5-Omni。这款大模型采用了先进的混合注意力MoE架构,能够轻松处理图片、视频、语音以及文字等多种模态内容的输入与输出,展现出强大的多模态处理能力。在多项测试中,Qwen3.5-Omni表现卓越,尤其在音视频理解、识别与交互等215项任务中,均取得了SOTA(性能最佳)的佳绩,成功�

今日大家都在搜的词: