首页 > AI头条  > 正文

Diffusion-Vas:追踪视频目标,可补全遮挡部分

2024-12-17 14:40 · 来源: AIbase基地

在视频分析领域,物体的持久性是人类理解物体即使在完全遮挡情况下依然存在的重要线索。然而,目前的物体分割方法大多只关注可见(模态)物体,而缺乏对无模态(可见 + 不可见)物体的处理。

针对这一问题,研究人员提出了一种基于扩散先验的两阶段方法Diffusion-Vas,旨在提升视频无模态分割和内容补全的效果,能追踪视频中的指定目标,然后利用扩散模型补全被遮挡的部分。

image.png

该方法的第一阶段涉及生成物体的无模态掩码。研究人员通过将可见掩码序列与伪深度图结合,来推断物体边界的遮挡情况。伪深度图是通过对 RGB 视频序列进行单目深度估计得到的。这一阶段的目标是确定物体在场景中可能被遮挡的部分,从而扩展物体的完整轮廓。

第一阶段生成的无模态掩码基础上,第二阶段则负责对遮挡区域进行内容补全。研究团队利用模态 RGB 内容,运用条件生成模型对遮挡区域进行填补,最终生成完整的无模态 RGB 内容。整个过程采用了一个以3D UNet 为骨干网络的条件潜在扩散框架,确保了生成结果的高保真度。

为了验证其有效性,研究团队在四个数据集上对新方法进行了基准测试,结果表明,较之于多种先进的方法,其在物体被遮挡区域的无模态分割上提高了多达13% 的准确率。尤其是在处理复杂场景时,研究方法展示了出色的稳健性,能够有效应对强烈的相机运动和频繁的完全遮挡。

这一研究不仅提升了视频分析的精确度,也为理解物体在复杂场景中的存在性提供了新的视角。未来,该技术有望被应用于自动驾驶、监控视频分析等多个领域。

项目:https://diffusion-vas.github.io/

划重点:  

🌟 研究提出了一种新方法,通过扩散先验实现视频中的无模态分割和内容补全。  

🖼️ 方法分为两阶段,首先生成无模态掩码,然后进行遮挡区域的内容补全。  

📊 在多项基准测试中,该方法显著提高了无模态分割的准确性,尤其在复杂场景下表现优异。  

  • 相关推荐
  • 共探AI视频新纪元:讯飞“绘镜开放麦”全回顾

    7月12日,科大讯飞与WaytoAGI联合主办的"绘镜开放麦"活动在杭州举行,汇聚全国百余位AI视频创作者探讨AI视频创作潜力。活动发布了"讯飞绘镜共创者计划",邀请视频爱好者参与AI创作。多位创作者分享了AI赋能视频创作的经验,讯飞工程师详解了AI视频生成技术原理,强调精准提示词的重要性。讯飞绘镜平台通过精细化提示词优化、角色DNA赋予等技术,提升视频生成质量。活动还展示了AI视频挑战赛优秀作品,6位获奖者获颁荣誉。WaytoAGI作为最大AI开源社区,将持续推动AI创作生态发展。

  • IQAX助力TCL实现全球供应链数字化转型 实现超5万集装箱智能追踪

    国际航运数字化科技公司IQAX与TCL达成合作,其海运数字化解决方案已在TCL全球物流网络全面部署。该方案通过高精度追踪和AI预测技术,实现5万+集装箱的精准追踪,显著提升供应链管理效率。系统具备智能ETA预测预警功能,帮助物流团队快速响应运输异常。合作标志着TCL以数字化驱动全球化战略的重要实践,双方将持续深化技术应用,探索AI算法在物流预测中的创新,构建端到端可视化供应链体系。2024年TCL电视全球出货量达2900万台,此次合作将为其全球化运营提供坚实保障。

  • 三下乡投稿视频媒体平台|学习 强国央视频人民视频投稿

    文章介绍了高校如何在权威媒体平台高效投放宣传视频的三大推荐渠道:1)"学习 强国"平台,适合党政类内容;2)央视视频平台,作为国家级5G新媒体平台;3)人民日报旗下人民视频。建议通过第三方服务机构【猎媒传播】投稿,可1-3天快速审核发布。视频要求MP4格式,大小不超过200M,时长1-3分钟,可配300-500字简介。

  • Neousys宸曜科技亮相2025 Vision China(北京)

    2025年6月19-20日,北京机器视觉助力智能制造创新发展大会暨Vision+China2025在京成功举办。Neousys宸曜科技展示了多款边缘AI计算平台解决方案,包括:1)Nuvo-9160GC强固型AI推理平台,支持行为分析、安防监控等应用;2)NRU-230V-AWP自动驾驶计算平台,具备IP66防护和备用电源;3)基于NVIDIA Jetson的智能采集卡系列;4)Nuvo-10001系列高性价比嵌入式平台。产品覆盖机器视觉、自动驾驶、智能制造等领域,以宽温强固、无风扇设计满足严苛工业环境需求,获得现场观众高度评价。

  • 俞敏洪称中年危机很正常:建议重新设定一个人生目标

    近日,国际电联ITU在日内瓦举办人工智能向善”全球峰会。 峰会现场,俞敏洪谈到中年危机时表示,中年危机特别正常,要么重启要么老。 俞敏洪表示,自己也是从中年危机度过来的,知道大多数人是很难受的,可中年人比年轻人遇到的危机更加复杂。 例如爱情毁灭了婚姻变得很无聊,事业陷入屏障,创业失败欠了一屁股债等等。 但这就是一个关键时刻,向右转可能迎接

  • 迅雷影音全新升级 支持多种网盘及百种视频格式解码播放

    迅雷影音发布全新版本,主打"下载-存储-播放"全链条服务。新版本支持阿里云盘、百度网盘、NAS设备等多网盘挂载,实现跨平台资源整合;支持MP4/AVI/MKV等百种视频格式及4K/8K/HDR高清播放;新增智能字幕匹配功能,可自动适配外挂字幕。产品还优化了跨端同步体验,支持PC/平板/TV多端访问云端资源。目前用户可限时免费享受超级会员权益,包括高清云播、倍速播放等10项特权。迅雷表示将持续深化与网盘厂商的生态合作,通过技术创新提升数字内容消费体验。

  • 绘王发布新款蓝牙单手键盘Keydial Remote K40

    7月15日,绘王推出专为ACG创作者设计的单手键盘Keydial+Remote K40。该产品仅152×56×13.5mm大小,配备8个自定义按键和2个切换键,采用U型布局。支持6组软件专属快捷键设置,创新双编码器采用内外圈嵌套设计,全键无冲。配备OLED屏实时显示键值/电量,蓝牙5.0支持PC/移动端双通道切换,约30小时续航满足多场景创作需求。

  • 李想:理想汽车是自己最后一次创业 目标是成为机器人企业

    在参加央视《对话》节目录制后,理想汽车CEO李想在网络社交平台谈到,未来我们就盯着一件事:AI硬件终端做出像iPhone那样颠覆性的产品。” 李想坦言,理想汽车是自己的最后一次创业,我们最终一定不是个标准的汽车企业,如果按照我的定义,我们会是个空间机器人企业。” 他表示,创业不是紧绷着硬熬,而是越做越知道怎么抓重点。

  • 视频播客,还值不值得抖快B红争一争

    这个夏天,B站又主动高调了一回。 “视频播客出圈计划”推出,B站承诺千万流量扶持、AI剪辑工具和城市录播棚支持,旨在将原本属于耳朵的“播客”内容,也呈现在屏幕之前。这不是B站第一次试图改写内容生态,也不会是最后一次。 更耐人寻味的是,它选择的视频播客这一形式,恰恰正处于一种“想被看见”又“尚未被定义”的模糊边界上。 视频播客当然不是什么新物

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具

今日大家都在搜的词:

热文

  • 3 天
  • 7天