英伟达出品！文生图模型TrailBlazer：利用边界框控制视频对象轨迹

2024-01-05 14:45 · 稿源：站长之家

划重点:
🔍 该论文介绍了一种使用边界框来引导视频合成的方法，实现了视频的可控性。
🔍 通过简单的边界框引导，可以实现对视频中物体轨迹和外观的控制。
🔍 TrailBlazer 算法基于预训练模型，无需进一步训练、微调或在线优化。

站长之家（ChinaZ.com）1月5日消息:在最近的文本到视频生成（T2V）方法中，实现合成视频的可控性通常是一个挑战。通常情况下，为了解决这个问题，需要提供低级别的每帧指导，如边缘图、深度图或待修改的现有视频。然而，获取这样的指导可能需要大量的劳动力，并且限制于现有视频会限制创造力。

TrailBlazer是英伟达的一个预训练好的模型，他们提出一个边界框的概念，来控制视频对象的运动方向、速度和行为，而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如，你可以通过改变边界框的大小、方向，让视频中的对象看起来更接近或更远离，也可以控制移动方向。

TrailBlazer 算法基于预训练的 T2V 模型构建，易于实现。通过边界框来引导物体，在空间和时间上进行注意力图编辑。

此外，TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置，来指导物体的轨迹和外观，无需提供详细的掩码。该方法非常高效，与底层预训练模型相比，附加计算量几乎可以忽略不计。尽管边界框引导的简单性，生成的运动令人惊讶地自然，出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。

TrailBlazer 还支持通过关键帧设置来动画化边界框和提示，使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接，为非专业用户提供了一个可行的视频叙事流程。

TrailBlazer 算法有一些局限性，其中包括继承了底层预训练模型（ZeroScope）的限制，如动物的错误肢体数目等问题，这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。

TrailBlazer的主要功能特点如下:

1. 文本到视频扩散（text-to-video diffusion）:使用预训练模型进行视频编辑，无需进一步的模型训练、微调或在线优化。

2. 支持控制多个对象:如果视频中有多个人物或物体，TrailBlazer允许您同时控制它们的动作，这对于创造复杂的场景非常有用。

3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动，而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。

4. 关键帧动画:可以在视频中设置“关键帧”，在这些关键帧上定义对象的位置和动作。

5. 高效且自然的运动生成:尽管使用简单的边界框进行指导，TrailBlazer生成的运动效果仍然非常自然，包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。

项目演示网址：https://top.aibase.com/tool/trailblazer

论文网址：arxiv.org/abs/2401.00896

（举报）

相关推荐

关键词：

英伟达将首次在美制造 AI 超算、及 Blackwell 芯片

站长之家(ChinaZ.com) 4月15日消息:随着 AI 行业的蓬勃发展，英伟达位于美国的人工智能芯片和超级计算机工厂将创造数千个就业机会。科技巨头英伟达（NVIDIA）宣布，其 AI 超级计算机将完全在美国本土生产。在全球贸易战的背景下，英伟达这一举动是为了减少对海外市场的依赖，并促进美国国内的生产。英伟达确认，他们已开始在台积电位于美国亚利桑那州凤凰城的工厂生产�

NVIDIA 台积电人工智能
和英伟达脱钩何小鹏：小鹏自研图灵AI芯片提前上车

快科技4月15日消息，小鹏汽车董事长何小鹏近日透露，小鹏汽车全栈自研的图灵AI芯片即将提前到第二季度量产上车。随着汽车行业的智驾广泛应用端到端技术，催生AI大模型规模越来越大。小鹏汽车一方面开发参数量是主流VLA模型35倍的世界基座模型，另一方面即将量产1颗顶3颗英伟达Orin X的自研高算力芯片，两大重磅技术打造最强AI大脑”。在去年11月份举办的小鹏AI科技日”

小鹏汽车图灵AI芯片智驾技术
字节AI加速文生图技术新突破，GOOG/微美全息引领开源大模型释放科技势能

字节跳动发布豆包1.5深度思考模型，升级文生图能力。该模型在专业领域和通用任务中表现突出，采用MoE架构，总参数量200B，激活参数20B，推理成本优势显著。同时，其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展，开源模型降低技术门槛，推动商业化落地。微美全息等企业构建开放AI生态，DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段，企业需把握机遇应对挑战。

字节跳动豆包1.5 文生图模型
荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

HiDream是一款由国内团队开发的AI模型，擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解，尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片，并兼容多种应用领域，包括商业用途。尽管在某些特定要求下还需提升表现，但其潜力和实际效果已受到关注。

AI技术文生图开源模型
“美国关税回旋镖”重创英伟达、AMD、英特尔，华为们或成赢家

华为等中国AI半导体企业或成赢家……

AI芯片人工智能英伟达
黄仁勋时隔 3 个月再次到访北京，直言：中国是英伟达重要市场！

黄仁勋表示，中国是英伟达非常重要的市场，希望继续与中国合作……

黄仁勋时隔3个月再次到访北京黄仁勋英伟达
黄仁勋承诺了特朗普啥？美国放弃英伟达H20芯片对华出口管制

特朗普政府最近放弃了对英伟达向华出口半导体计划的限制。这是在英伟达CEO黄仁勋出席了特朗普的海湖庄园晚宴之后，才做出的决定。这意味着这款产品每个季度能给英伟达带来上千亿人民币的收入。

英伟达黄仁勋特朗普
国际知名半导体研究机构SemiAnalysis称：华为云CloudMatrix 384领先英伟达和AMD的产品一代

近日，国际知名半导体研究和咨询机构SemiAnalysis发布专题报道称，华为云最新推出的AI算力集群解决方案CloudMatrix 384（以下简称CM384）凭借其颠覆性的系统架构设计与全栈技术创新，在多项关键指标上实现对英伟达旗舰产品GB200 NVL72的超越，标志着中国在人工智能基础设施领域实现里程碑式突破。（图片引自SemiAnalysis报道）据SemiAnalysis披露，华为云CM384基于384颗昇腾芯片构建，通

华为云 AI算力集群 CloudMatrix
英伟达CEO黄仁勋造访白宫：希望特朗普修改AI芯片出口规则

快科技5月1日消息，据媒体报道，美国当地时间周三，英伟达公司首席执行官黄仁勋造访白宫时表示，他希望特朗普政府修改从美国向全球出口人工智能（AI）技术的相关法规，以便美国企业能更好地抓住未来的机遇。我们需要加速美国AI技术在全球的扩散，”黄仁勋在与媒体的简短会面中表示，政府的政策和鼓励措施必须真正支持这一点。”与此同时，黄仁勋还呼吁美国政府放宽人工智能图形处理单元出口规定，但媒体报道特朗普政府计划加强控制。众所周知，英伟达目前主导着用于训练AI模型的尖端AI芯片市场，但其向中国客户销售最先进产品的渠道已被?

英伟达人工智能出口法规
5000亿美金白投了？英伟达H20禁令升级，无限期适用！

美国开始控制用于超级计算机的英伟达 H20 芯片的出口。黄仁勋虽然投资规模巨大，但也受到监管。

美国出口管制英伟达H20芯片超级计算机

热文

3 天
7天

英伟达出品！文生图模型TrailBlazer：利用边界框控制视频对象轨迹

英伟达将首次在美制造 AI 超算、及 Blackwell 芯片

和英伟达脱钩何小鹏：小鹏自研图灵AI芯片提前上车

字节AI加速文生图技术新突破，GOOG/微美全息引领开源大模型释放科技势能

荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

“美国关税回旋镖”重创英伟达、AMD、英特尔，华为们或成赢家

黄仁勋时隔 3 个月再次到访北京，直言：中国是英伟达重要市场！

黄仁勋承诺了特朗普啥？美国放弃英伟达H20芯片对华出口管制

国际知名半导体研究机构SemiAnalysis称：华为云CloudMatrix 384领先英伟达和AMD的产品一代

英伟达CEO黄仁勋造访白宫：希望特朗普修改AI芯片出口规则

5000亿美金白投了？英伟达H20禁令升级，无限期适用！

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

三星推出新型微显示技术，加剧 AR 眼镜竞争

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

苹果高管称：10 年后，可能 iPhone 将不复存在！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

站长商机