首页 > 业界 > 关键词  > 正文

谷歌AI研究提出新的视频注释方法VidLNs 精准定位视频描述

2023-08-09 14:09 · 稿源:站长之家

1. VidLNs 是一种视频注释方法,通过口述和光标移动来获取语义正确且密集定位准确的视频描述。

2. VidLNs 使用关键帧来创建每个角色的独立叙述,实现复杂情节的细致描绘。

3. VidLNs 的数据集可用于视频故事定位和视频问答等任务。

站长之家(ChinaZ.com)8月9日 消息:谷歌人工智能研究提出了一种名为 VidLNs 的视频注释方法,旨在为视频提供丰富的描述和准确的时空定位。它可以让我们更好地理解视频内容,并为机器学习算法提供更多信息,帮助它们理解和处理视频。

与之前的图像注释方法不同,VidLN 的工作原理是这样的:注释者会观察视频并识别出其中的主要角色和关键时刻。他们会口头描述这些角色参与的事件,并用光标移动到视频中相关的位置。这种口头描述包括角色的名字、属性以及他们的行动和与其他角色或物体的互动。通过使用光标移动和语音描述,我们可以为视频中的每个单词提供具体的视觉依据。

VidLN 的好处是,它能够提供更全面和准确的视频描述。通过关键时刻和口头描述的结合,我们可以更好地理解视频中复杂的情节和角色之间的互动。而且,通过准确的时空定位,我们可以知道描述中的每个单词对应的具体位置。

image.png

VidLN 的应用非常广泛。例如,在视频叙事基础和视频问答等任务中,我们可以利用 VidLN 来提供更准确的答案和解释。VidLN 还可以帮助机器学习算法更好地理解视频内容,并在视频内容分析、智能监控和虚拟现实等领域发挥重要作用。

研究人员使用 VidLNs 在不同数据集上进行了注释,获得了不错的视频叙述。此外,VidLNs 的数据集还可以用于视频故事定位和视频问答等任务。虽然这些任务仍然具有挑战性,但该方法在这个领域取得了重要的进展。该研究为视觉和语言之间的连接提供了一个新的多模态视频注释方法,为相关任务的发展提供了基础。

项目网址:https://github.com/google/video-localized-narratives

论文:https://arxiv.org/abs/2302.11217

举报

  • 相关推荐
  • 小红书要用长视频“抢”什么?

    全网头部的长视频创作者们,开始悄悄流向小红书了? 旅行、摄影长视频创作者Links,作为B站连续三年百大UP主,一直被称为旅行摄影区的“天花板级”创作者。他视频中出现的画面,往往来自地球上最难以到达的角落。每一次更新,都有网友感叹,“又多了一个此生必去的地方。” 而不久前,全网累计拥有超过千万粉丝的Links,把一个长达36分钟的新视频,首发在了小红书。

  • 长视频的AI竞赛:技术是门票,人才是底牌

    一条由B站UP主“DiDi_OK”创作的7分钟AI短片《牌子》最近引发了不少关注。 火星神秘警示牌降临引发全球性混乱,背后竟隐藏着关于人类文明重启、巴别塔式困境的多重隐喻;从异兽出没到街头枪战,镜头切换快速且流畅,还不乏“炫技”式的一镜到底……无论从主题丰富度还是画面效果来看,《牌子》都达到了“以假乱真”的程度。

  • 腾讯视频将发布AI长剧:十几集连续剧、90分钟电影全AI包揽!你会看吗

    今日,第十三届中国网络视听大会上,腾讯公司副总裁、腾讯在线视频董事长孙忠怀透露了AI内容制作的最新进展。 他表示,目前AI做的内容更多的是两三分钟的玩梗、创意视频,30分钟以上的内容还比较少,腾讯视频现在正在用AI全流程做十几集的剧、90分钟的电影,可能第三季度能对外发布。 孙忠怀还表示,AI时代内容供给结构正在剧烈变化,供给量将爆发十倍甚至百倍增�

  • 阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路

    阿里巴巴今日正式发布Wan2.7-Video视频生成系列模型,涵盖文生视频、图生视频、参考生视频和视频编辑四大模型。 新模型拥有全面的创作控制力,将AI的能力从单一素材生成扩至创作全链路,从演”迈向导”。

  • 从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4

    Google推出小巧、快速且具备多模态能力的Gemma4模型家族,与NVIDIA合作优化,可在各类设备上高效本地运行。该系列涵盖E2B至31B多种变体,专为从边缘设备到高性能GPU的高效部署设计。Gemma4支持推理、编码、智能体及多模态交互等丰富任务,并兼容OpenClaw等应用,实现任务自动化。用户可通过Ollama或llama.cpp在NVIDIA RTX GPU和DGX Spark上免费运行。

  • 莫言自曝戒不掉短视频:时隔6年以此灵感创作新书《人呐》

    近日,中国著名作家、诺贝尔文学奖得主莫言通过社交媒体宣布,自己时隔6年的全新作品《人呐》已正式上市。 4月19日下午3点,莫言将在小红书平台举行首次新书发布会直播。 莫言坦言:和大家一样,我日常生活中也喜欢刷短视频,经常一刷就停不下来,很上瘾。”

  • 逗哥配音:一站式AI创作平台赋能短视频生态,千万博主验证的配音软件再升级

    在短视频内容生态从粗放式铺量转向精细化质感运营的当下,配音已成为决定完播率与情绪价值的关键引擎。逗哥配音作为行业头部智能创作平台,凭借海量音色库、真人授权与全链路效率工具,以“一站式AI配音创作平台”的定位,深度赋能影视解说、小说推文、AI漫画及内容出海等多元变现赛道。其核心竞争力在于拒绝“一刀切”的配音方案,针对高潜力创作类型提供模块化赋能,并通过声音广场智能检索系统、精准节奏卡点算法及一站式效率工具箱,极大提升创作效率与沉浸留存。平台更构建了完善的声音资产增值与保护体系,推出声音授权变现模式,并建立专业的版权监控与法律维权绿色通道,吸引顶级声优与头部KOL入驻生态。未来,逗哥配音将继续以技术驱动创作普惠,为全球创作者提供更具情感温度与商业价值的声音基础设施。

  • 双向赋能!网易智企携手声网共创实时音视频与 AI Agent 数智新生态

    2026年4月7日,网易智企与声网签署战略合作协议。双方将围绕实时音视频、内容安全、AI Agent等领域开展深度合作,通过产品集成与生态共创,为企业客户提供更完善、更安全的一站式智能化解决方案。此次合作旨在结合网易智企的AI技术、数字内容安全能力与声网的实时音视频技术,在智能客服、在线教育、数字文娱等具体业务场景中深度融合,共同打造一体化产品方案,推动AI与实时互动(RTE)的融合发展。

  • 月流水破2000万美元,可灵成全球最吸金的AI视频模型

    3月25日,快手公布2025Q4及全年财报,Q4快手收入396亿元,同比增长11.8%,创历史新高,经调整净利润5.5亿元,同比增长16.2%,维持了较为强势的表现。全年业绩方面,快手2025总收入1428亿元,同比增长12.5%,经调整净利润206亿元,同比增长16.5%,经调整净利润率为14.5%。

  • AI日报:AI视频神秘黑马Happy Horse亮相;爱诗科技 PixVerse C1 发布;360 打造“虾书”APP

    本期AI日报聚焦多领域技术突破:视频生成领域,Happy Horse模型全面超越Seedance 2.0,引发行业热议;爱诗科技发布影音级大模型PixVerse C1,支持15秒1080P高清视频生成。腾讯推出国内首个支持主流大模型API自由配置的AI浏览器“龙虾”,打破单一模型绑定。360推出以AI智能体为核心的社交应用“虾书”。DeepSeek V4开启灰度测试,支持国产芯片适配。此外,Anthropic推出强大编程推理模型Mythos,智谱发布性能领先的GLM-5.1,上汽通用则将豆包大模型应用于别克汽车智能座舱。

今日大家都在搜的词: