首页 > 业界 > 关键词  > 正文

谷歌推出视频注释工具VidLNs 可生成丰富的视频描述

2023-08-09 14:30 · 稿源:站长之家

站长之家(ChinaZ.com)8月9日 消息:VidLNs 是谷歌推出的一种视频注释工具,可以生成丰富的视频描述,并实现准确的时空定位。这是一种注释视频的增强方法,通过同时使用语音描述和鼠标移动来构建视频的叙述。

VidLNs 的注释过程包括观察视频、选择关键帧、逐个角色构建叙述,并使用语音描述和鼠标移动来标记相关对象和动作。

image.png

项目地址:https://github.com/google/video-localized-narratives

通过选择关键帧来表示每个角色的重要时刻,并通过口述描述和鼠标指导来突出显示相关对象和动作。这种方法可以生成详细的视频注释,为视频叙事定位和视频问答等任务提供了坚实的基础。

核心功能:

1. 通过语音描述和鼠标移动来构建视频叙述。

2. 使用关键帧来突出显示每个角色的关键时刻。

3. 提供准确的时空定位,生成详细的视频注释。

4. 为视频叙事定位和视频问答等任务提供基础。

举报

  • 相关推荐
  • 文字转视频工具Moonvalley:用简单提示可生成高质量视频

    Moonvalley是一个文字转视频生成AI模型,其强大创作能力令人惊叹。只需用户提供简单的文字描述,Moonvalley就可生成细腻逼真的高清视频和动画,完美呈现用户的想象世界,这对艺术创作、商业广告等领域都具有巨大价值。Moonvalley处于Beta阶段,并完全免费。

  • Chat Video:用GPT分析和总结视频

    ChatVideo是一个基于人工智能的视频分析和管理工具,致力于帮助用户高效学习和管理视频。在这个视频泛滥的时代,ChatVideo凭借其独特的AI技术,为用户节省大量时间,真正释放视频的价值。如果你希望高效管理视频,ChatVideo一定是你的最佳选择。

  • 妙鸭相机推出免费体验版 8张照片即可生成专属数字分身

    妙鸭相机宣布推出免费版,用户上传8张照片即可生成个人专属的数字分身,并赠送一套“都市正装”写真模板。此前用户需上传20张照片并支付9.9元。妙鸭相机表示,希望通过这种方式让更多用户体验到ai写真的乐趣,并逐步将用户圈层从写真爱好者向普通用户拓展。

  • B站新专利可生成有声弹幕

    天眼查App显示,9月19日,B站关联公司上海幻电信息科技有限公司申请的“有声弹幕生成、播放方法和系统”专利公布。专利摘要显示,该申请提供了一种有声弹幕生成、播放方法、系统、计算机设备及计算机可读存储介质,方法包括:获取基于预置的虚拟乐器输入的第一音频数据,根据第一音频数据生成有声弹幕数据,播放有声弹幕。通过该专利,用户可以在观看视频或浏览页面内容时,输入个性化的有声弹幕,形成有声评论,在其他用户播放视频时进行输出,达到播放有声弹幕的效果。

  • Rerender A Video源代码放出!解决AI视频闪烁问题

    RerenderAVideo是一项令人印象深刻的技术成果,它旨在将大型文本到图像扩散模型的能力扩展到视频领域。该项目提出了一种零训练的文本引导视频到视频翻译框架,能够在视频帧之间确保时间一致性,这一直是一个巨大的挑战。命令行支持:提供了灵活的命令行脚本,允许用户通过命令行参数控制翻译过程。

  • 秒杀Midjourney!Genmo AI可3秒作画成图并且生成视频

    Genmo是一款基于人工智能的创意产品,可以通过语言描述自动生成视频、图像、3D模型等创意内容。Genmo提供多种创意工具,是内容创作者、设计师、艺术家的强大创意助手。Genmo会持续迭代升级技术,赋能更多创作者开启创造之旅。

  • Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

    伦敦初创公司StabilityAI发布了一款名为StableAudio的AI音乐生成工具,标志着音乐创作领域再次迎来了创新。StableAudio采用了一种称为潜在扩散的技术,据称可以生成高质量、商业可用的音乐。StabilityAI表示,他们正在积极采取措施来确保内容的真实性,包括在图像模型中实施水印技术,以便用户和平台可以识别通过其托管服务生成的AI辅助内容。

  • 引入Bard后,谷歌Gmail工具生成了一些虚构的电子邮件

    谷歌最近将其大型语言模型驱动的聊天机器人Bard引入了一系列产品,包括Gmail、GoogleDrive、GoogleDocs、GoogleMaps以及谷歌旗下的YouTube等。尽管谷歌试图将其新一代生成式AI与已有的产品线相结合,但似乎行动有些仓促。谷歌发布如此混乱的产品,这也让人更为担忧AI在个人电子邮件中爬行可能带来的重大数据隐私问题。

  • Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶

    英国初创公司Wayve在2023年6月发布了GAIA-1,这是一款为自动驾驶车辆培训数据设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。

  • AI视频生成框架AnimateDiff 高速运动视频依然保持稳定

    AnimateDiff是一款强大的工具,它允许您轻松地将文本转化为动画图像无需特定的调整。它为用户提供了无限的创意和探索空间,让您可以将文本描述转化为令人惊叹的动画场景。只需运行几个命令,就可以在本地主机上启动演示,通过用户友好的界面进行互动。