首页 > 业界 > 关键词  > 正文

谷歌AI研究提出新的视频注释方法VidLNs 精准定位视频描述

2023-08-09 14:09 · 稿源:站长之家

1. VidLNs 是一种视频注释方法,通过口述和光标移动来获取语义正确且密集定位准确的视频描述。

2. VidLNs 使用关键帧来创建每个角色的独立叙述,实现复杂情节的细致描绘。

3. VidLNs 的数据集可用于视频故事定位和视频问答等任务。

站长之家(ChinaZ.com)8月9日 消息:谷歌人工智能研究提出了一种名为 VidLNs 的视频注释方法,旨在为视频提供丰富的描述和准确的时空定位。它可以让我们更好地理解视频内容,并为机器学习算法提供更多信息,帮助它们理解和处理视频。

与之前的图像注释方法不同,VidLN 的工作原理是这样的:注释者会观察视频并识别出其中的主要角色和关键时刻。他们会口头描述这些角色参与的事件,并用光标移动到视频中相关的位置。这种口头描述包括角色的名字、属性以及他们的行动和与其他角色或物体的互动。通过使用光标移动和语音描述,我们可以为视频中的每个单词提供具体的视觉依据。

VidLN 的好处是,它能够提供更全面和准确的视频描述。通过关键时刻和口头描述的结合,我们可以更好地理解视频中复杂的情节和角色之间的互动。而且,通过准确的时空定位,我们可以知道描述中的每个单词对应的具体位置。

image.png

VidLN 的应用非常广泛。例如,在视频叙事基础和视频问答等任务中,我们可以利用 VidLN 来提供更准确的答案和解释。VidLN 还可以帮助机器学习算法更好地理解视频内容,并在视频内容分析、智能监控和虚拟现实等领域发挥重要作用。

研究人员使用 VidLNs 在不同数据集上进行了注释,获得了不错的视频叙述。此外,VidLNs 的数据集还可以用于视频故事定位和视频问答等任务。虽然这些任务仍然具有挑战性,但该方法在这个领域取得了重要的进展。该研究为视觉和语言之间的连接提供了一个新的多模态视频注释方法,为相关任务的发展提供了基础。

项目网址:https://github.com/google/video-localized-narratives

论文:https://arxiv.org/abs/2302.11217

举报

  • 相关推荐
  • 谁在视频号上,为短剧“买单”?

    ​短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴,竟然是豪门。”……最近小编一打开手机随便刷一刷视频号,便能邂逅许多爆款“雷人”短剧。 前几天,就连金融反腐题材的《K线成长记》都火了,证券时报发的全集转发就突破1万+。 它们剧情够爽、反转够快,即便有的剧情夸张、逻辑欠缺,依旧赢得网友

  • 爱诗科技,一家AI视频创业公司的生存哲学

    “你还是回去吧,大模型在中国没有机会。” 2023年刚创业,爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。 但两年时间过去,两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是

  • 天网杯纳米AI视频创作赛圆满落幕,ISC.AI学苑推动“教育AI+”新范式

    9月23日,第三届“天网杯”网络安全大赛在天津落幕,吸引全国顶尖战队角逐,同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈 骗等网络安全议题,通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持,依托“纳米AI”技术降低创作门槛,推动“安全+AI”人才培养。大赛评选出24个奖项,并联合多所高校深化合作,促进AI技术在教育场景的落

  • 从撕吧到丝瓜,短视频模仿秀进化史

    “火之前还觉得挺快乐的,老师还有同学都特别和蔼可亲的。但火了之后就感觉,人都突然变了。就同学什么的,都觉得你像个怪物一样。” 在抖音人物故事《生活闪亮时2025》“美错如是”里,18岁的钟美美回到母校,回想2020年的那场爆火,依旧胆战心惊。 互联网与现实就是那么割裂,并行着两个时代的道德体系。硬糖君小学写作文,爱用“光阴似箭,日月如梭”凑字数。

  • AI日报:生数科技推出Vidu Q2;火山引擎推出炉米Lumi;通义千问开源300+模型

    本文汇总了近期AI领域多项重要进展:生数科技推出Vidu Q2模型,显著提升视频生成中细微表情的真实感;火山引擎发布炉米Lumi平台,支持视觉模型LoRA微调以定制独特风格;阿里云通义千问开源超300个模型,下载量突破6亿次;百度开源多模态视觉理解模型Qianfan-VL,适配不同场景需求;微软在Copilot中引入Anthropic模型,拓展AI助手功能;OpenAI计划在美国新建五个数据中心以加速Stargate项目;英伟达开源Audio2Face模型,提升实时面部动画生成效果;Meta发布具备沙箱推演能力的32B代码世界模型CWM,优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

  • 海尔冰箱联合央视频发起囤鲜挑战

    9月21日,海尔冰箱联合央视视频发起“一台冰箱装下中国百味”挑战。活动首站成都,现场展示科学收纳格局与磁控全空间保鲜科技,实现食材分类精准储存,杜绝串味。挑战难点在于食材种类繁多、保鲜要求苛刻,海尔麦浪冰箱凭借576L大容量、M5分储格局及阻氧干湿分储技术,成功保持各类食材新鲜口感。在火锅宴现场,所有食材经涮煮检验,获一致好评。该冰箱搭载获国家科技进步奖的磁控保鲜科技,满足超3500种食材储鲜需求,为9月26日新品发布会预热。

  • 当视频播客陷入“形式之争”,成就UP主才是真正的增量

    随着B站推出“视频播客出圈计划”,抖音、小红书等平台相继加码,名人效应与资源倾斜不断助推着这一内容形态站上风口。与此同时,质疑也随之而来,“播客视频化是否只是一个伪命题?”“到底是视频播客化还是播客视频化?”等议论愈演愈烈。 而在这些争论之外,一个更值得思考的议题正在浮现:当公众在讨论视频播客的概念是否成立时,行业能否借此机会跳出形式之�

  • B站想用「视频播客」吸引更多优质创作者

    近两个月,「视频播客」作为一种新的内容形态火了起来。不止一个平台入局,不止一个创作者参与。鲁豫与易立竞的对谈,罗永浩与李想、何小鹏的对谈,不仅在B站获得百万播放,切片内容还在全网传播。最近,甚至有人建议罗永浩邀请贾国龙录一期《罗永浩的十字路口》。 但「视频播客」与音频播客的区别是什么、与其他视频内容有何不同、市场空间和商业化前景如何�

  • 店长连续工作超8小时 因闭眼2秒视频遭解雇 法院判了

    9月26日,广州市中级人民法院、广州市人力资源和社会保障局、广州市总工会联合发布了新一批劳动争议典型案例。 其中,有一则案例引发广泛关注:一位零售店店长竟因闭眼休息、上厕所等看似平常的行为被公司解雇。 2021年3月,余某入职某零售公司,担任该公司位于某商场门店的店长一职,全面负责门店的日常管理工作。 然而,2024年9月26日,某零售公司却以余某工作�

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

今日大家都在搜的词: