首页 > AI头条  > 正文

新AI方法DELTA:10倍速度精确追踪单镜头视频中的每个像素

2024-11-06 17:03 · 来源: AIbase基地

在视频处理领域,如何从单镜头视频中高效追踪三维运动一直是一项难题,尤其是在需要对长序列进行像素级精确追踪时。传统方法面临多重挑战,往往只能跟踪少量关键点,无法实现完整场景的细致理解。

image.png

而且,现有技术的计算需求较高,难以在处理长视频时保持效率。同时,长时间的跟踪也会受到相机移动和物体遮挡等问题的影响,导致跟踪失误或错误的产生。

当前,视频序列运动估计的方法各有优缺点。光流技术提供了密集的像素追踪,但在复杂场景中,尤其是处理长序列时表现出韧性不足。

场景流则是对光流的扩展,通过 RGB-D 数据或点云来估计密集的三维运动,但在长序列中仍然难以高效应用。点跟踪方法虽然能够捕捉运动轨迹,并结合了空间和时间注意力以实现更平滑的跟踪,但由于计算成本较高,依然难以实现密集监测。再者,基于重建的跟踪方法利用变形场来估计运动,但在实时应用中实用性不强。

60f40d8292cd71591253b91a2794ffee.png

近日,来自马萨诸塞大学阿默斯特分校与 MIT-IBM 沃森人工智能实验室以及 Snap Inc. 的研究团队提出了 DELTA(Dense Efficient Long-range3D Tracking for Any video),这是一种专为高效追踪三维空间中每个像素而设计的方法。DELTA 通过低分辨率跟踪开始,采用时空注意力机制,并应用基于注意力的上采样器以实现高分辨率的准确性。其关键创新包括用于清晰运动边界的上采样器、高效的空间注意力架构以及增强跟踪性能的对数深度表示。

DELTA 在 CVO 和 Kubric3D 数据集上取得了先进的效果,在平均 Jaccard(AJ)和三维平均位置差(APD3D)等指标上提升超过10%,在 TAP-Vid3D 和 LSFOdyssey 等三维点跟踪基准中也表现出色。与现有方法不同,DELTA 在规模上实现了密集三维跟踪,运行速度比以往方法快8倍以上,同时保持了业界领先的准确性。

通过实验表明,DELTA 在三维跟踪任务中表现优异,速度和准确度均超过了以往方法。DELTA 在 Kubric 数据集上训练,包含超过5600个视频,其损失函数结合了2D 坐标、深度和可见性损失。

在基准测试中,DELTA 在长距离2D 跟踪和密集3D 跟踪上分别在 CVO 和 Kubric3D 中获得了最高分,任务完成速度远快于其他方法。DELTA 的设计选择,如对数深度表示、空间注意力和基于注意力的上采样器,显著提高了其在各种跟踪场景下的准确性和效率。

DELTA 是一种高效的方法,能够在视频帧中追踪每个像素,在密集 D 和3D 跟踪中取得了准确性和更快的运行时间。该方法在长时间遮挡的点上可能会面临挑战,最佳表现出现在帧数不超过数百的短视频中。DELTA 的三维跟踪准确性依赖于所使用的单目深度估计的精度和时域稳定性。预计单目深度估计的研究进展将进一步提升该方法的性能。

项目入口:https://snap-research.github.io/DELTA/

划重点:

🌟 DELTA 是一种全新方法,专为高效追踪单镜头视频中的每个像素而设计。  

⚡ DELTA 在 CVO 和 Kubric3D 数据集上取得领先结果,速度比传统方法快8倍。  

🔍 该方法在长时间遮挡点上可能存在挑战,但对短视频表现优异。

  • 相关推荐
  • 像素蛋糕全新升级,让摄影师buff叠满是一种什么体验?

    像素蛋糕8.0版本发布,推出行业首个应用级图像大模型"方糖模型"和16bit·AI Raw引擎。该软件通过AI技术实现商业摄影全流程智能化,将传统3天修图工作缩短至3分钟,并带来200%的营收增长。新版本新增五大AI创作功能,包括证件照换装、AI布景等,同时推出移动端iPhone版本。专业摄影师储卫民现场演示了软件在风光摄影中的突破性表现。艾瑞咨询数据显示,像素蛋糕占据中国商业级AI修图市场第一份额,其技术创新正在推动摄影行业从"效率中心"向"灵感中心"跃迁。

  • 绿舟客户实测:会员日期间,绿标产品销量暴涨10倍!

    2025年亚马逊会员日数据显示,绿色产品销量暴增10倍,成为平台新增长点。美国消费者首日线上消费79亿美元,同比增长9.9%。亚马逊CPF计划推动4.5万件绿色商品成交总额增长13.3%,流量倾斜政策使低流量产品获得显著提升。平台新增五大绿色流量入口,通过"相似商品推荐"机制为绿色产品抢占竞品广告位,60%的推荐位被绿色商品占据。典型案例显示,提前12周布局的绿色产品销量增速比后期入场者高50%,认证产品CPC成本降低56%。卖家反馈绿色产品详情页浏览量高42%,加购率是普通商品1.8倍。建议卖家通过市场调研、选择合规认证方案、寻找正规服务商三步抓住绿色商机。绿舟作为亚马逊官方认证服务商,承诺零隐形收费、100%退款保障,最快4周下证,已服务超70%头部跨境企业。

  • 问界M9、M8再迎OTA升级:10大新功能

    近日,问界汽车为2025款M9及M8系列车型带来了新一轮OTA升级,带来10大新功能。 新增分布式车载卫星通信功能:分布式通信技术,支持将车机卫星通信能力共享给手机,用手机轻松拨打或接听卫星电话,连星更快,信号更稳,并且支持用户在离车30米范围之内使用。 灯光交互体验再升级。智能动态光毯可自主开启,依据光线、车速、转向、路况动态调节,精准指引行车轨迹,�

  • 抖音低价加码酒旅,OTA群战升级

    继外卖补贴热战之后,酒旅也暗潮涌动。 最新消息是,抖音本地生活在暑期将投入亿元级对酒旅做补贴,联合华住、凯悦等酒店集团推出6 折订房优惠,新客专享价等。抵达用户的通道,除品牌酒店集团矩阵号、职人号直播间,还有抖音日历房。 针对酒旅行业的进击行动,抖音是今年的第三个玩家。 在此之前,京东于618 当天打出「三年0佣金」政策吸引酒店入驻,立志重构O

  • ​汽车软件质量管控新范式:AI 驱动的智能座舱测试革新(Testin云测案例)

    文章概述了汽车产业智能化转型趋势,指出智能化、网联化、电动化"三驾马车"正重塑行业格局。重点介绍了Testin云测凭借XAgent智能座舱AI测试系统入选"2025汽车智能服务企业TOP50",成为唯一获选的AI测试服务商。该系统融合机器视觉、自然语言处理等AI技术,支持跨端自动化测试,实现测试效率提升3倍、缺陷检测率提升55%,帮助某头部车企节省超千万元测试成本。文章强调AI测试技术正成为解决汽车软件质量与安全难题的关键,Testin云测作为行业先行者,将持续推动汽车产业智能化升级。

  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • AI深度赋能!itc智慧会议室重构协作场景,打造沉浸式会议新范式

    ITC保伦股份将AI技术深度融入音视频会议系统,推出三大智能化升级方案:1)AI+远程视频会议系统实现98%准确率的实时语音转写、跨语言同声传译、4K超分画质和人脸识别签到功能;2)AI+智慧会议平板集成降噪、声源追踪技术,自动生成结构化会议纪要;3)AI+分布式综合管理平台具备50余种智能监测分析能力,支持应急指挥决策。通过AI赋能会议全流程,打造"会前-会中-会后"闭环,推动企业数字化协作升级,引领智慧会议行业变革。

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。

  • iTAP完成“大考”,这些应用场景将率先落地!

    2025年7月11日,首届iTAP测试大会在西安成功举办。华为、支付宝、华大电子等产业链头部企业共同完成了支付、门禁、票务三大场景下的协议互通性验证,标志着iTAP技术正式通过商用化验证。华为Pura80手机和Watch GT5智能手表成为首批通过全部测试的设备。测试结果显示,iTAP技术突破传统NFC协议痛点,交互效率提升300%,支持存量设备通过软件升级接入,显著降低硬件迭代成本。产业协同效应显现,多家芯片厂商已制定明确技术路线图,加速生态布局。未来iTAP技术将在智慧交通、数字生活等领域加速商业化落地,ITMA协会拟于2025年第四季度再次举办测试大会,持续推动产业协同发展。

今日大家都在搜的词: