首页 > 业界 > 关键词  > TrailBlazer最新资讯  > 正文

英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹

2024-01-05 14:45 · 稿源:站长之家

划重点:

🔍 该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。

🔍 通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。

🔍 TrailBlazer 算法基于预训练模型,无需进一步训练、微调或在线优化。

站长之家(ChinaZ.com)1月5日 消息:在最近的文本到视频生成(T2V)方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。然而,获取这样的指导可能需要大量的劳动力,并且限制于现有视频会限制创造力。

TrailBlazer是英伟达的一个预训练好的模型,他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为,而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如,你可以通过改变边界框的大小、方向,让视频中的对象看起来更接近或更远离,也可以控制移动方向。

image.png

TrailBlazer 算法基于预训练的 T2V 模型构建,易于实现。通过边界框来引导物体,在空间和时间上进行注意力图编辑。

此外,TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置,来指导物体的轨迹和外观,无需提供详细的掩码。该方法非常高效,与底层预训练模型相比,附加计算量几乎可以忽略不计。尽管边界框引导的简单性,生成的运动令人惊讶地自然,出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。

TrailBlazer 还支持通过关键帧设置来动画化边界框和提示,使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接,为非专业用户提供了一个可行的视频叙事流程。

image.png

TrailBlazer 算法有一些局限性,其中包括继承了底层预训练模型(ZeroScope)的限制,如动物的错误肢体数目等问题,这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。

TrailBlazer的主要功能特点如下:

1. 文本到视频扩散(text-to-video diffusion):使用预训练模型进行视频编辑,无需进一步的模型训练、微调或在线优化。

2. 支持控制多个对象:如果视频中有多个人物或物体,TrailBlazer允许您同时控制它们的动作,这对于创造复杂的场景非常有用。

3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动,而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。

4. 关键帧动画:可以在视频中设置“关键帧”,在这些关键帧上定义对象的位置和动作。

5. 高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。

项目演示网址:https://top.aibase.com/tool/trailblazer

论文网址:arxiv.org/abs/2401.00896

举报

  • 相关推荐
  • 大家在看
  • AI文生图模型PixArt-sigma,可以生成4K分辨率

    PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销

  • Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

    Hugging和英特尔发布了提高文生图模型空间一致性的方案,大幅提高了模型对提示词中空间关系的理解能力。在当前的将文字描述转换为图像的技术中,一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。他们还会开源这个模型和数据集,以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

  • 联发科英伟达合力推新品,高通慌了

    首次亮相的3nm天玑汽车座舱平台CT-X1在业内激起不小的波澜,被认为是友商8295的头号天敌。同时亮相的还有天玑汽车座舱平台CT-Y1和CT-Y0,采用4nm制程,汽车制造商可借助天玑汽车座舱平台实现从旗舰到高端车型的智能化体验升级,满足不同定位车型对高算力和强AI的需求。面向AI定义汽车的大势所趋,科技巨头们的深度合作展现出强大的市场影响力,这对联发科的对手们构成了不小的挑战正是激烈的产品和技术竞争,才是推动汽车产业持续创新与发展的原动力。

  • 李斌:蔚来自研芯片一颗顶英伟达四颗

    蔚来李斌近日表示,去年购买了很多的英伟达芯片,这耗费了公司不少钱,为此公司转向自研芯片,因为一颗芯片可以顶四颗,所以能降低成本。在2023蔚来日上,蔚来正式发布了首颗自研智能驾驶芯片神玑NX9031。配合蔚来汽车的最强安全冗余能力,神玑NX9031能够带来极致安心的驾驶体验,让驾驶者在享受智能驾驶带来的便利的同时,也能感受到蔚来汽车对安全性能的极致追求�

  • AI行业买英伟达GPU,花的钱比赚的多17倍

    搞AI大模型,实在太烧钱了。如今的生成式AI有很大一部分是资本游戏,科技巨头利用自身强大的算力和数据占据领先位置,并正在使用先进GPU的并行算力将其推广落地。无论花掉多少钱,成为第一可能就会带来潜在的收益……但是什么样的收益,我们还无法作出预测。

  • Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

    StableDiffusion3API是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E3和Midjourneyv6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器架构,使用不同的权重集来改善图像和语言的表示,从提高文本理解和拼写能力。StableDiffusion3API的使用场景示例在以下情况下,您可以使用StableDiffusion3API进行图像生成:生成广告宣传图创建游戏角色概念图辅助教学材料的图像制作产品特色和功能StableDiffusion3API具有以下特色和功能:文本到图像的生成多模态扩散变换器架构图像和语言的独立表示文本理解和拼写能力提升想要了解更多关于StableDiffusion3API的信息并开始您的图像生成之旅,请访问StableDiffusion3API官方网站。

  • 你买A卡还是N卡!AMD痛失一重要伙伴:微星全力做英伟达RTX系显卡

    微星官网很难找到AMDRadeon7000系列产品,官方表示已经停产。微星官方确认,公司未来发展将专注于推出英伟达GeForceRTX系列GPU显卡产品。虽然市场需求飙升,但是英伟达近期采取以不变应万变的策略,没有追加订单,使得RTX4060Ti系列的情况更为突出。

  • 英伟达斥资7亿美元收购Run:ai,进一步巩固在AI领域地位

    AI巨头公司英伟达继续其战略性收购行动,今日宣布将收购一家以色列初创公司,以使AI芯片更高效。这家芯片制造商已经签署了一项“最终协议”,收购基于Kubernetes的软件提供商Run:ai,后者帮助优化图形处理单元上的AI应用和工作负载。“Run:ai自2020年以来一直与英伟达紧密合作,我们都热衷于帮助客户充分利用其基础设施,”Geller在宣布这项交易的英伟达博客文章中说道。

  • 英伟达投资东南亚:将在印尼投资2亿美元建AI中心

    英伟达近日宣布将与印尼第二大移动电信公司IndosatOoredooHutchison携手,在梭罗建设一座总投资额高达2亿美元的人工智能开发中心,此举标志着英伟达进一步扩大在印尼乃至整个东南亚的业务版图。据印尼通讯与信息部长布迪阿里塞蒂亚迪透露,这座名为IndonesiaAINation”的开发中心将加强当地的电信基础设施、人力资源和数字人才,为印尼乃至整个东南亚地区的人工智能和技术进

  • 首个基于SSM-Transformer混合架构,开源商业大模型Jamba

    3月29日,知名AI研究实验室AI21在官网开源了,首个基于SSM-Transformer混合架构的商业大模型——Jamba。ChatGPT、StableDifusion、Lyria等产品使用的皆是Transformer架构,虽然在捕捉序列内长距离依赖关系、泛化能力、特征提取等方面非常优秀,但在处理长序列、训练大参数模型时存在AI算力消耗大、过拟合、内存占用大等缺点。耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使�

今日大家都在搜的词:

热文

  • 3 天
  • 7天