首页 > AI头条  > 正文

李飞飞团队前瞻性研究 多模态AI模型初显空间智能

2024-12-23 14:49 · 来源: AIbase基地

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。

研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。

QQ20241223-144615.png

研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,Gemini-1.5Pro在绝对距离和房间大小估计等任务中表现突出,部分开源模型如LLaVA系列亦取得了竞争性结果。

研究还指出,使用认知地图辅助空间推理可显著提升模型在空间任务上的表现,其准确率提升达10个百分点。这表明明确生成认知地图有助于突破模型在空间理解上的瓶颈。

李飞飞表示,空间智能是AI理解物理世界的关键能力,对实现通用人工智能(AGI)至关重要。她认为,空间智能将成为AI领域的下一个前沿技术方向,甚至有望在2025年取得重要突破。

今年9月,李飞飞创办的公司World Labs宣布正式启动,专注于开发具备空间智能的AI模型。这家公司已获得包括英伟达、a16z、Adobe等知名机构的投资,目前估值超过10亿美元。

这一研究及其应用,标志着AI技术从二维信息处理向三维空间感知的关键进步,未来有望广泛应用于导航、机器人交互、增强现实等领域,为人工智能的进一步发展开辟全新道路。

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 飞渡科技以25.1%的市场份额蝉联数字孪生平台榜首 引领空间智能新浪潮

    IDC最新报告显示,飞渡科技凭借25.1%的市场份额蝉联中国数字孪生平台首位。其自主研发的DTS平台融合空间智能技术,突破行业瓶颈,在智慧城市、工业制造、水利水务等领域实现深度应用。报告指出,数字孪生市场正经历技术融合创新,飞渡科技通过垂直深耕战略,推动产业数字化升级。未来将持续加大AI融合研发,助力千行百业实现数字化转型。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 江苏首家!Aqara Space 空间智能体验馆盛大启幕

    8月15日,Aqara江苏首家智能体验馆在南通崇川区百安谊家开业。作为品牌在华东的重要战略节点,该旗舰店通过沉浸式场景展示全屋智能解决方案,深度集成Apple Home生态,打造行业领先的智能家居体验。开业庆典上,品牌方阐释了"润物细无声"的智能生活理念,现场设置Aqara Studio、方舟演示墙等创新展区,覆盖家居、办公、商业多元场景。该店将成为华东地区渠道拓展和"智能人居"建设的重要阵地,未来将持续推动智能技术在C端生活与B端项目的融合应用。

  • 前瞻布局、政策开闸,AI喜临门站上脑机接口风口

    中国脑机接口技术发展迅速,重点布局非侵入式设备。2025世界机器人大会上展示了通过意念控制机械臂等应用,凸显非侵入式方案在安全性和用户体验上的优势。七部门联合发文明确2027年关键技术突破目标,支持非植入设备量产迭代。强脑科技等领军企业已实现0.1毫米级操作精度,并与喜临门合作推出全球首款AI床垫,将技术延伸至睡眠优化领域。行业预计2025年将迎来规模化应用元年,从健康管理到医疗康复展现巨大潜力,但技术成熟度、数据安全等挑战仍需突破。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • WAIC2025圆满收官,上海码极客实力呈现多模态世界模型与空间智能技术成果!

    上海码极客在WAIC2025展会上展示了四大核心产品线:1)MAGX系列空间智能本体,赋予机器感知与行动能力,其中智能卸货机器人效率提升33%;2)UU系列多模态交互智能体,包括随身AI助手UU Holo和视频分析智能体UU Video Agent;3)工业AI检测产品,如Mini LED AOI和晶圆外观检测设备;4)城市治理空间智能体"悠然智擎",实现全域感知与智能决策。公司由申恒涛院士领衔,拥有200+自主知识产权,服务500+头部客户,致力于通过空间智能和多模态世界模型技术推动产业智能化升级。

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • 主论坛前瞻|「拥抱AI变革,点燃算网引擎」:ODCC邀您探索算网新世界

    2025年第十二届开放数据中心大会(ODCC)将于9月9-11日在北京举行。大会聚焦AI变革与算力发展,围绕算力、网络、能源、制冷、运维等全链路协同展开讨论。华为、三星、博通等企业将分享最新实践,探讨液冷技术、智能运维等关键议题。主论坛将于9月10日举行,发布年度成果并解读技术趋势。大会旨在推动算力产业标准化发展,为AI时代提供系统性解决方案。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

今日大家都在搜的词: