首页 > 业界 > 关键词  > SANPO最新资讯  > 正文

Google AI推出SANPO:多属性视频数据集助力视觉场景理解

2023-10-16 10:39 · 稿源:站长之家

划重点:

- Google AI推出了SANPO数据集,用于户外人类主观场景理解。

- SANPO包括真实世界和合成数据,具有丰富的注释和多属性特征。

- 这个数据集将有助于研究人员开发视觉导航系统,支持视障人士,并拓展先进的视觉场景理解。

站长之家(ChinaZ.com)10月16日 消息:Google AI最近推出了名为SANPO的数据集,旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于,它不仅包括真实世界的数据,还包括合成数据,以及丰富的注释和多属性特征。这个数据集的推出将有助于解决自动驾驶领域之外的人类主观场景理解的问题。

SANPO数据集的名称来源于其功能,包括“场景理解、可访问性、导航、路径规划和障碍物避免”。它由真实世界数据和合成数据组成,其中真实世界数据包括来自两个立体摄像头的视频,支持多视角方法。这个数据集还包括了11.4小时的视频,以每秒15帧的速度捕获,并具有密集的注释。

image.png

为了保护隐私,Google的研究人员在数据采集过程中遵循了当地、城市和州级的法律,并在发送数据进行注释之前,确保删除了任何个人信息,如人脸和车辆牌照。

为了克服捕捉视频时的不完美,比如运动模糊和人工评分错误,研究人员引入了SANPO-Synthetic,这是一个高质量的合成数据集,旨在与真实世界的条件相匹配。SANPO-Synthetic包括1961个会话,使用虚拟化的Zed相机录制,头部和胸部位置均衡分布。

SANPO数据集的另一个特点是对一部分真实世界数据和合成数据进行了全景实例掩模的注释,为每个像素分配了类别和ID。与真实世界数据不同,SANPO-Synthetic每帧包含更多实例。此外,SANPO是唯一一个同时具有全景分割和深度图像数据的数据集。

研究人员使用SANPO数据集训练了两个最先进的模型,分别用于深度估计和全景分割。他们发现,这一数据集对于密集预测任务来说非常具有挑战性,而合成数据的准确性要高于真实数据,这主要是因为真实世界的环境相对复杂,而合成数据的分割注释更加精确。

SANPO数据集的推出填补了人类主观场景理解领域缺乏数据集的空白,它包括真实世界和合成数据,具有丰富的注释和多属性特征,以及全景分割和深度信息的独特组合。此外,研究人员的隐私承诺使这一数据集能够支持其他研究人员开发面向视障人士的视觉导航系统,并推动先进的视觉场景理解领域的发展。

SANPO博客介绍:https://blog.research.google/2023/10/sanpo-scene-understanding-accessibility.html

举报

  • 相关推荐
  • 不止“写得快”,金仓时序数据库破解时序数据多重难题

    工业、电力、交通等场景中,时序数据系统初期运行平稳,但随着设备接入、采样频率提升和历史数据积累,会面临写入、索引、冷热混杂及扩展运维四大核心挑战。金仓时序数据库通过二维分区算法、智能元数据路由、自适应压缩及冷热分区管理,结合事务一致性与多副本高可用能力,确保系统在长期运行中稳定写入、快速查询、平滑扩展,并支持与其他数据系统关联分析,解决实际业务难题。

  • “具身数据采集难”成行业瓶颈,自变量开源数据采集方案XRZero-G0,数据成本降至原有1/20

    数据采集与治理是制约具身智能产业发展的瓶颈。相比大模型训练可用万亿级数据,具身智能所需数据需从真实物理环境采集,面临采集难、成本高、可用性低及难以跨本体迁移等问题。自变量机器人开源XRZero-G0系统,通过软硬件一体方案(头部视角、多视角交叉约束、运位和真机成功率检测)构建高效数据采集治理体系,并开放2000多小时、覆盖3000个任务的多模态全身无本体数据集G0-Dataset。实验证明,以10:1比例混合无本体数据与真机数据,可达同等规模纯真机数据效果,且模型具备零样本迁移能力,摆脱对固定本体姿态和型号的过拟合。该系统将数据成本降至1/20,实现“全身无本体采集→自动质检→混合训练→真机评测”全闭环,为行业提供规模化、可复现的路径。相关论文和数据集已在arXiv和Huggingface上线,引发广泛关注。

  • 视觉中国冲刺港股,合规数据资产赋能 AI 产业发展

    视觉中国近日向港交所提交H股上市申请,计划形成“A+H”双重上市格局。公司是中国领先的内容授权及定制服务商,覆盖新闻媒体、互联网平台等客户。截至2025年,其在视觉内容授权服务市场中国第一、全球第五,拥有超80万签约供稿人、7亿项内容资产,并整合AI技术实现智能搜索、编辑等功能。本次IPO募资将用于加强主业、投资并购及海外布局,把握AI重塑视觉内容行业的机遇。

  • 大模型调用成本暴跌90%,盘活数据成为企业AI落地胜负手

    本月DeepSeek V4Pro开启永久降价,价格仅为原来的四分之一,缓存命中低至0.025元每百万token,引发行业“跳水式降价”。随着模型效率提升、算力成本优化和市场竞争加剧,大模型调用成本全面下行已成共识。国内公有云大模型API均价较2023年已下跌超90%,性能提升3至5倍。AI普惠时代来临,企业接入门槛快速抹平,但决定AI落地效果的核心变量转向企业自身的数据根基。数据准确性、治理规范、权限管理及智能体对核心数据的安全高效访问,直接影响AI应用效果。Gartner研究显示,85%的失败AI项目源于数据质量缺陷。数据底座正成为企业业务效率与决策方式的关键基础设施,逻辑数据管理路径被越来越多企业验证:在分布式环境上构建可信、实时、可治理的逻辑数据层,让智能体在不触碰数据物理位置的情况下安全、准确、实时获取所需,将AI能力真正嵌入业务流程。Agent时代,模型是入场券,数据才是护城河。

  • 数据要素进入AI时代:趣链科技布局“AI+Data”

    AI竞争正从“拼算力”转向“拼数据”,高质量、可信、合规的数据成为大模型新瓶颈。趣链科技提出,可信数据基础设施下一程是“AI+Data”,通过“区块链+隐私计算”技术构建覆盖数据全生命周期的平台,已落地200余项应用,服务超300家机构。其AI高质量数据集公共服务平台实现从数据需求到模型微调的全流程闭环,并已在工业、文博等领域成功应用,推动数据要素进入AI时代。

  • 金仓数据库助力北京某大型公共服务核心系统完成国产替换

    北京某大型供水企业完成营销管理平台数据库国产化替换,采用金仓数据库及“快速迁移+双轨并行”方案,保障业务连续稳定。该企业面临技术自主、成本优化、性能瓶颈等挑战,通过分布式架构、三阶段迁移(数据同步、试运行、正式切换)及KFS同步工具等关键技术,实现平滑过渡。项目提升了系统性能与可用性,为公用事业行业信创改造提供了可复制的“北京经验”。

  • 钱大妈赴港IPO新程启幕,坚守新鲜初心奔赴长远发展

    钱大妈近日递交港股招股书,加速赴港上市。作为连续五年社区生鲜连锁GMV榜首品牌,其产品涵盖肉类、蔬果及冷蔵食品,全国门店超2900家。以“日清”模式与阶梯折扣杜绝隔夜肉,解决高损耗难题,并通过16座仓储中心和供应链协同保障新鲜度。2024年整体GMV达148亿元。此次IPO将助力其供应链升级与数字化扩张。

  • 雷军直播为啥选盐城测试 小米汽车:赛道硬、数据真实、路面够全

    日前,小米CEO雷军在盐城试验场完成小米YU7测试直播,围绕极速测试、安全辅助功能测试等项目,对车辆进行了8大测试。 直播结束后,针对外界关注的为何选择盐城试验场进行直播测试”,小米汽车也作出回应。 小米汽车表示,盐城试验场是亚洲最大汽车试验场,也是世界上最先进的汽车测试场之一,占地超过10000亩,拥有超过110公里的专业试验道路,能够满足高速、操控�

  • 腾讯网盘官网上线:打通AI!支持多应用数据互通、Agent调用

    腾讯上线AI网盘,主打打通人工智能应用生态,实现多端数据互通与资产沉淀。可连接多款AI应用,统一存储数据形成可复用资产。功能包括统一身份认证、跨应用搜索、高效共享协作及支持智能代理调用。提供个人、SaaS等多版本交付,但尚未公布正式发布时间。

  • 在中东遇见东方声学智慧!IndoorLink一对多导游讲解器入驻阿联酋国家博物馆

    2025年12月,阿布扎比扎耶德国家博物馆开馆,这座连接历史与全球视野的建筑成为中东文化新地标。馆内除珍贵文物外,还引入中国IndoorLink无线讲解器,采用头戴式设计,解放双手,支持多团队同时参观、智能跳频防干扰,并兼容主副讲、同声传译等功能。该设备通过国际认证,助力博物馆为全球游客提供高品质讲解服务,标志着中国智慧导览科技获世界顶级文化机构认可。

今日大家都在搜的词: