新加坡南洋理工大学出品！大规模视频分割数据集MeViS，自动识别视频动态主体

2023-08-25 16:38 · 稿源：站长之家

文章概要:
1） MeVIS数据集包含2006段视频，强调目标物体的运动属性，不能仅从单帧识别。
2）提出LMPM基准方法，利用语言理解和运动评估找到视频中语言描述的目标物体。
3）研究为发展更高级的语言引导视频分割算法奠定基础。

站长之家（ChinaZ.com）8月25日消息:当前用于引用视频对象的数据集通常强调突出的对象并依赖于具有许多静态属性的语言表达。这些属性允许仅在单帧中识别目标对象。然而，这些数据集忽视了运动在语言引导视频对象分割中的重要性。

新加坡南洋理工大学研究人员发表了一篇AI论文，提出了一个大规模视频分割基准数据集MeVIS（Motion Expression Video Segmentation）。简单的说，MeViS是一个大规模的视频分割数据集，它让计算机能够根据描述对象运动的自然语言语句来分割和跟踪视频中的目标对象。

MeViS 数据集包含2，006个视频和8，171个对象，并提供了28，570个运动表达式来引用这些对象。数据集示例中，表达主要集中在运动属性，被指代的目标物体无法仅通过观察单帧进行识别。上图显示了 MeViS 中的表达式主要关注运动属性，仅通过检查单帧无法识别所涉及的目标对象。比如给计算机一个视频和一个句子“飞离树枝的鸟”，它就可以在整个视频中找出符合这个句子描述的鸟，并把这只鸟在每一帧图像中的位置分割出来。

MeViS不同于以前的数据集，以前的数据集更关注静态的特征比如颜色、形状等来分割，而MeViS关注的是运动信息。例如视频里有三只外观很像的鸟，只有根据它们的飞行动作才能区分出目标鸟。

研究人员采取了一些步骤，确保MeVIS数据集强调视频的时间运动:

首先，仔细选择视频内容，其中包含与运动共存的多个对象，并排除具有静态属性可以轻松描述的孤立对象的视频。

其次，在仅通过动作词就可以明确描述目标对象的情况下，优先考虑不包含静态线索（例如类别名称或对象颜色）的语言表达。

除了提出MeVIS数据集，研究人员还给出了一个基准方法LMPM（Language-guided Motion Perception and Matching）来解决这个数据集提出的挑战。他们的方法包含生成语言条件查询来在视频中识别可能的目标物体，使用更稳健高效的对象嵌入来表示这些对象，应用运动感知捕捉对象嵌入的时间上下文，从而建立视频运动动力学的整体理解，以掌握视频中的瞬时运动和持续运动。

然后，他们比较语言特征与预测的对象运动，找到语言表达中提到的目标物体。这种方法有效结合了语言理解和运动评估来处理复杂的数据集任务。

这项研究为开发更高级的语言引导视频分割算法奠定了基础。它向更具挑战性的方向开辟了道路，如探索更好的理解运动和建模技术、创建更高效的模型以减少冗余检测物体、设计有效的跨模态融合方法等。解决这些挑战需要推动语言引导视频分割领域的当前最新技术。

项目网址:
https://github.com/henghuiding/MeViS
https://henghuiding.github.io/MeViS/
论文:https://arxiv.org/abs/2308.08544

（举报）

相关推荐

关键词：

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
荐谁在视频号上，为短剧“买单”？

短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴，竟然是豪门。”……最近小编一打开手机随便刷一刷视频号，便能邂逅许多爆款“雷人”短剧。前几天，就连金融反腐题材的《K线成长记》都火了，证券时报发的全集转发就突破1万+。它们剧情够爽、反转够快，即便有的剧情夸张、逻辑欠缺，依旧赢得网友

短剧视频号爆款
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
女生找回手机后发现相册多了段视频学子暖心归还引全网寻人

2025年10月6日，游客小蒋在苏州拙政园游玩拍照时，不慎将新购的手机遗落。据悉，这部手机是小蒋工作后用积蓄购买的，意义非凡。约20分钟后，小蒋察觉手机丢失，心急如焚地返回寻找。幸运的是，当小蒋回到遗落地点时，4名来自大连理工大学的学生正主动拿着她的手机等待失主。在确认小蒋身份无误后，这四名学生未留下姓名便悄然离开，展现了当代大学生的高尚品�

手机遗失拾金不昧大学生
女生找回手机后发现相册多了段视频全网寻找的4位大学生找到了：想给机主留一个小礼物

全网寻找的大连理工大学的4名好心人，找到了。 6日，游客小蒋在苏州拙政园里不慎遗失了手机，正当她和男友着急四处寻找时，4名年轻人就主动上前询问，送回了手机。还没来得及当面表达感谢，他们就匆匆离开了。回到酒店后，小蒋发现手机相册里多了一段可爱

大连理工大学好心人手机遗失
爱诗科技，一家AI视频创业公司的生存哲学

“你还是回去吧，大模型在中国没有机会。” 2023年刚创业，爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。但两年时间过去，两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是

AI视频生成 Sora爆火商业化元年
iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

日前，苹果发布了iPhone 17 Pro系列，但由于采用新的大尺寸镜头模组，于是将闪光灯从镜头旁边移动到了机身另一侧。但近日一位网友吐槽，在使用iPhone 17 Pro系列的相机闪光灯时，会在录制视频对象附近产生阴影。他表示：看起来像是有人从角落里拿着灯，老实说，这真的超级烦人。”

iPhone 17 Pro
天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

9月23日，第三届“天网杯”网络安全大赛在天津落幕，吸引全国顶尖战队角逐，同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈骗等网络安全议题，通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持，依托“纳米AI”技术降低创作门槛，推动“安全+AI”人才培养。大赛评选出24个奖项，并联合多所高校深化合作，促进AI技术在教育场景的落

天网杯网络安全大赛纳米AI

今日大家都在搜的词：

热文

3 天
7天

新加坡南洋理工大学出品！大规模视频分割数据集MeViS，自动识别视频动态主体

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

荐谁在视频号上，为短剧“买单”？

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

女生找回手机后发现相册多了段视频学子暖心归还引全网寻人

女生找回手机后发现相册多了段视频全网寻找的4位大学生找到了：想给机主留一个小礼物

爱诗科技，一家AI视频创业公司的生存哲学

iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

京东双11今晚开启：现货开卖官方直降低至一折

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

站长商机