谷歌推出视频注释工具VidLNs 可生成丰富的视频描述

2023-08-09 14:30 · 稿源：站长之家

站长之家（ChinaZ.com）8月9日消息:VidLNs 是谷歌推出的一种视频注释工具，可以生成丰富的视频描述，并实现准确的时空定位。这是一种注释视频的增强方法，通过同时使用语音描述和鼠标移动来构建视频的叙述。

VidLNs 的注释过程包括观察视频、选择关键帧、逐个角色构建叙述，并使用语音描述和鼠标移动来标记相关对象和动作。

项目地址：https://github.com/google/video-localized-narratives

通过选择关键帧来表示每个角色的重要时刻，并通过口述描述和鼠标指导来突出显示相关对象和动作。这种方法可以生成详细的视频注释，为视频叙事定位和视频问答等任务提供了坚实的基础。

核心功能:

1. 通过语音描述和鼠标移动来构建视频叙述。

2. 使用关键帧来突出显示每个角色的关键时刻。

3. 提供准确的时空定位，生成详细的视频注释。

4. 为视频叙事定位和视频问答等任务提供基础。

（举报）

相关推荐

关键词：

文字转视频工具Moonvalley:用简单提示可生成高质量视频

Moonvalley是一个文字转视频生成AI模型，其强大创作能力令人惊叹。只需用户提供简单的文字描述，Moonvalley就可生成细腻逼真的高清视频和动画，完美呈现用户的想象世界，这对艺术创作、商业广告等领域都具有巨大价值。Moonvalley处于Beta阶段，并完全免费。

文字转视频 AI工具 Moonvalley
Chat Video：用GPT分析和总结视频

ChatVideo是一个基于人工智能的视频分析和管理工具，致力于帮助用户高效学习和管理视频。在这个视频泛滥的时代，ChatVideo凭借其独特的AI技术，为用户节省大量时间，真正释放视频的价值。如果你希望高效管理视频，ChatVideo一定是你的最佳选择。

ChatVideo
妙鸭相机推出免费体验版 8张照片即可生成专属数字分身

妙鸭相机宣布推出免费版，用户上传8张照片即可生成个人专属的数字分身，并赠送一套“都市正装”写真模板。此前用户需上传20张照片并支付9.9元。妙鸭相机表示，希望通过这种方式让更多用户体验到ai写真的乐趣，并逐步将用户圈层从写真爱好者向普通用户拓展。
B站新专利可生成有声弹幕

天眼查App显示，9月19日，B站关联公司上海幻电信息科技有限公司申请的“有声弹幕生成、播放方法和系统”专利公布。专利摘要显示，该申请提供了一种有声弹幕生成、播放方法、系统、计算机设备及计算机可读存储介质，方法包括:获取基于预置的虚拟乐器输入的第一音频数据，根据第一音频数据生成有声弹幕数据，播放有声弹幕。通过该专利，用户可以在观看视频或浏览页面内容时，输入个性化的有声弹幕，形成有声评论，在其他用户播放视频时进行输出，达到播放有声弹幕的效果。
Rerender A Video源代码放出！解决AI视频闪烁问题

RerenderAVideo是一项令人印象深刻的技术成果，它旨在将大型文本到图像扩散模型的能力扩展到视频领域。该项目提出了一种零训练的文本引导视频到视频翻译框架，能够在视频帧之间确保时间一致性，这一直是一个巨大的挑战。命令行支持:提供了灵活的命令行脚本，允许用户通过命令行参数控制翻译过程。

AI视频
秒杀Midjourney！Genmo AI可3秒作画成图并且生成视频

Genmo是一款基于人工智能的创意产品，可以通过语言描述自动生成视频、图像、3D模型等创意内容。Genmo提供多种创意工具，是内容创作者、设计师、艺术家的强大创意助手。Genmo会持续迭代升级技术，赋能更多创作者开启创造之旅。

Genmo
Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

伦敦初创公司StabilityAI发布了一款名为StableAudio的AI音乐生成工具，标志着音乐创作领域再次迎来了创新。StableAudio采用了一种称为潜在扩散的技术，据称可以生成高质量、商业可用的音乐。StabilityAI表示，他们正在积极采取措施来确保内容的真实性，包括在图像模型中实施水印技术，以便用户和平台可以识别通过其托管服务生成的AI辅助内容。

StabilityAI StableAudio AI头条
引入Bard后，谷歌Gmail工具生成了一些虚构的电子邮件

谷歌最近将其大型语言模型驱动的聊天机器人Bard引入了一系列产品，包括Gmail、GoogleDrive、GoogleDocs、GoogleMaps以及谷歌旗下的YouTube等。尽管谷歌试图将其新一代生成式AI与已有的产品线相结合，但似乎行动有些仓促。谷歌发布如此混乱的产品，这也让人更为担忧AI在个人电子邮件中爬行可能带来的重大数据隐私问题。

Bard 谷歌 Gmail
Wayve推出GAIA-1 9B，通过生成合成视频训练自动驾驶

英国初创公司Wayve在2023年6月发布了GAIA-1，这是一款为自动驾驶车辆培训数据设计的生成式模型。GAIA-1的最新版本，GAIA-19B，已经取得了令人瞩目的进展。这种基于文本的逻辑可以增加车辆的安全感，使人工智能的决策不再像一个“黑盒子”。

Wayve GAIA-19B 自动驾驶
荐AI视频生成框架AnimateDiff 高速运动视频依然保持稳定

AnimateDiff是一款强大的工具，它允许您轻松地将文本转化为动画图像无需特定的调整。它为用户提供了无限的创意和探索空间，让您可以将文本描述转化为令人惊叹的动画场景。只需运行几个命令，就可以在本地主机上启动演示，通过用户友好的界面进行互动。

AnimateDiff

今日大家都在搜的词：

热文

3 天
7天

站长商机

广告

商务合作侵权投诉广告服务版权声明招聘

©CopyRight 2002-2020 CHINAZ.COM