首页 > 业界 > 关键词  > TrailBlazer最新资讯  > 正文

英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹

2024-01-05 14:45 · 稿源:站长之家

划重点:

🔍 该论文介绍了一种使用边界框来引导视频合成的方法,实现了视频的可控性。

🔍 通过简单的边界框引导,可以实现对视频中物体轨迹和外观的控制。

🔍 TrailBlazer 算法基于预训练模型,无需进一步训练、微调或在线优化。

站长之家(ChinaZ.com)1月5日 消息:在最近的文本到视频生成(T2V)方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。然而,获取这样的指导可能需要大量的劳动力,并且限制于现有视频会限制创造力。

TrailBlazer是英伟达的一个预训练好的模型,他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为,而无需使用现有视频或在推理时进行神经网络训练、微调或优化。例如,你可以通过改变边界框的大小、方向,让视频中的对象看起来更接近或更远离,也可以控制移动方向。

image.png

TrailBlazer 算法基于预训练的 T2V 模型构建,易于实现。通过边界框来引导物体,在空间和时间上进行注意力图编辑。

此外,TrailBlazer支持通过对移动的边界框和相应提示进行关键帧设置,来指导物体的轨迹和外观,无需提供详细的掩码。该方法非常高效,与底层预训练模型相比,附加计算量几乎可以忽略不计。尽管边界框引导的简单性,生成的运动令人惊讶地自然,出现了透视和随着边界框尺寸增大而向虚拟相机移动的效果。

TrailBlazer 还支持通过关键帧设置来动画化边界框和提示,使用户能够在时间轴上改变物体的轨迹和粗略行为。生成的物体与指定的环境无缝衔接,为非专业用户提供了一个可行的视频叙事流程。

image.png

TrailBlazer 算法有一些局限性,其中包括继承了底层预训练模型(ZeroScope)的限制,如动物的错误肢体数目等问题,这些问题在许多基于扩散的 T2I 和 T2V 方法中普遍存在。

TrailBlazer的主要功能特点如下:

1. 文本到视频扩散(text-to-video diffusion):使用预训练模型进行视频编辑,无需进一步的模型训练、微调或在线优化。

2. 支持控制多个对象:如果视频中有多个人物或物体,TrailBlazer允许您同时控制它们的动作,这对于创造复杂的场景非常有用。

3. 利用简单的边界框进控制对象:通过使用简单的边界框来指导主题的运动,而无需使用预先存在的视频或在推理时进行神经网络训练、微调或优化。

4. 关键帧动画:可以在视频中设置“关键帧”,在这些关键帧上定义对象的位置和动作。

5. 高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。

项目演示网址:https://top.aibase.com/tool/trailblazer

论文网址:arxiv.org/abs/2401.00896

举报

  • 相关推荐
  • 英伟达重夺全球市值第一头衔 再度超越微软

    去年6月19日,英伟达股价曾以135.58美元创下历史新高,当时总市值达3.335万亿美元,一举超越微软和苹果,首次登上全球市值最高上市公司的宝座。此后,在全球市值排名中,英伟达与苹果、微软展开激烈角逐,三者轮番登顶。上一次英伟达成为市值最高的公司是在今年1月24日。 从英伟达自身的财务表现来看,其业绩也相当亮眼。根据英伟达2026财年第一季度财报,该季度公司

  • 英伟达纵深扩展量子计算版图,微软/微美全息共发力奔赴技术革命新征程!

    英伟达CEO黄仁勋在COMPUTEX2025发表主题演讲,宣布推出企业AI计算平台NVIDIA RTX PRO服务器,搭载RTX PRO6000 Blackwell GPU,专为驱动AI工厂和加速企业AI工作负载设计。同时英伟达布局量子计算,设立全球量子AI技术研发中心G-QuAT,并投资量子计算初创公司PsiQuantum。微软宣布将后量子密码学技术整合到Windows系统,谷歌高管预测量子计算应用或将在五年内实现。微美全息作为量子产业先锋,通过量子计算与AI超算融合实现技术突破。全球科技巨头正加速布局量子计算领域,英伟达引领AI产业向纵深发展,在新竞争格局下进军量子计算,押注下一代技术浪潮。

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • AI机器人赛道竞速,英伟达/微美全息GPU+AI全栈布局双轮驱动产业化浪潮!

    英伟达CEO黄仁勋在Computex2025电脑展发表主题演讲,宣布公司转型为AI基础设施提供商。重点展示了四大方向:消费级RTX显卡、B300服务器芯片、Omniverse软件平台及自动驾驶/机器人技术。推出全新GB300 Blackwell Ultra AI平台,提升训练和推理能力。黄仁勋强调机器人技术将引领下一场工业革命,推出Isaac GR00T机器人开发平台和Jetson Thor处理器。摩根士丹利预测人形机器人市场规模将达60万亿美元,中国到2050年市场规模或达6万亿元。微美全息等企业正加速布局该领域,通过AI视觉、自然语言处理等技术提升机器人环境感知与决策能力。黄仁勋指出智能体(Agent)、模型(Model)和机器人(Robot)将成为未来十年技术话语权争夺的关键。

  • iQOO 15 Ultra首曝:首款骁龙8 Elite 2 Ultra旗舰

    iQOO将于年底推出iQOO 15系列旗舰手机,包含标准版和Ultra版。iQOO 15 Ultra将采用2K LIPO直屏,首批搭载骁龙8 Elite 2平台,配备潜望长焦镜头,支持无线充电和IP68防尘防水。相比上代,Ultra版回归直屏设计,新增主动散热风扇和潜望长焦,影像和性能大幅提升。采用全新LIPO封装工艺,通过优化显示驱动芯片和电路布局,大幅收窄边框。LIPO技术采用高密度连接设计,减少信号传输通道数量和长度,在保证信号稳定性的同时缩小边框宽度。iQOO 15 Pro预计10月亮相,将成为行业首款骁龙8 Elite 2 Ultra旗舰机型。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 黑格 UltraCraft Reflex RS Turbo 携全新“琥珀屏”震撼上市

    5月29日,黑格科技在成立十周年之际推出UltraCraft Reflex RS Turbo 3D打印机。作为畅销款Reflex RS的升级版,RS Turbo在保持快速打印的同时,通过增强型琥珀色屏幕延长了使用寿命,打印精度和表面质量显著提升。关键升级包括:1)566:1高对比度屏幕,新增光学膜减少杂散光;2)C5级Z轴模块将运动误差控制在±2微米内;3)动态运动算法3.0使打印速度最高提升33%。新品推出限时首发优惠,购买可享8折并赠送打印耗材。该产品已上线黑格天猫旗舰店。

  • Galaxy Unpacked 7月见:令人期待的Ultra体验即将在折叠屏展开

    三星电子即将在7月9日纽约发布新一代Galaxy系列产品,重点展示AI技术创新。通过Galaxy AI赋能,新产品将实现从"意图"到"行动"的智能交互变革,突破传统手机功能边界。三星将AI技术与精密工艺结合,打造性能强劲、影像出众的智能设备,重新定义人机关系。发布会将在北京时间22:00通过官网直播,呈现科技与美学的双重盛宴。这不仅是产品迭代,更是三星探索未来体验的重要里程碑。

  • 三星Galaxy S25 Ultra一个月体验:舒畅、超预期的超大杯

    三星Galaxy S25 Ultra评测:这款超大杯旗舰手机采用简约现代设计,重量控制在220克内,厚度仅8.2mm,提供舒适手感。配备2亿像素主摄和3x/5x双长焦,超广角镜头提升至5000万像素,AI超视觉引擎增强拍摄画质,支持10bit HDR视频和Log格式。6.9英寸2K第二代动态AMOLED直屏显示效果出色,搭载丰富实用的本土化AI功能,如智能摘要、即圈即搜和实时翻译。S Pen手写笔为创作加分,IP68防尘防水和坚固材质提升耐用性。综合表现超越预期,是一款面面俱到的全能旗舰。

  • AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放

    本文汇总了AI领域最新动态:1)腾讯开源数字人模型HunyuanVideo-Avatar,支持图像转视频创作;2)Trae国际版开启付费订阅,首月3美元;3)Claude网页搜索功能向免费用户开放;4)印度AI初创Builder.ai破产,亏损超5亿美元;5)腾讯元宝接入微信读书平台;6)快手计划加大AI投入但预计影响利润率;7)Mistral推出智能代理API;8)Claude移动端上线语音对话测试版;9)OpenAI拟推ChatGPT第三方登录功能;10)掘金发布AI项目一键部署工具;11)多模态模型视觉推理能力评估显示准确率仅25.8%;12)中石油发布3000亿参数昆仑大模型,推动油气产业智能化。