首页 > 业界 > 关键词  > MotionDirector最新资讯  > 正文

MotionDirector:AI定制视频新方法

2023-10-18 09:28 · 稿源:站长之家

要点:

1. 该研究提出了MotionDirector,一种基于人工智能的方法,用于自定义视频的运动和外观,通过训练模型学习运动和外观,以生成特定运动的视频。

2. MotionDirector采用双通道架构,分别学习单一或多个参考视频中的外观和运动,实现外观和运动的解耦,并能够合并不同源视频的外观和运动。

3. 该研究通过对多个基准数据进行比较,表明MotionDirector在生成具有多样性和所需运动概念的视频方面具有潜力,尽管有一些改进的空间。

站长之家(ChinaZ.com)10月18日 消息:最新研究指出,文本到视频传播模型在最近取得了显著进展,用户只需提供文本描述,就可以创建逼真或富有想象力的视频。这些基础模型还被调整以生成与特定外观、风格和主题匹配的图像。

然而,在文本到视频生成中自定义运动的领域仍需要深入探讨。用户可能希望创建具有特定运动的视频,比如汽车前进然后左转。因此,将扩散模型调整以创建更具体内容以满足用户的需求变得非常重要。

image.png

项目地址:https://showlab.github.io/MotionDirector/

为了解决这一问题,研究人员提出了MotionDirector,这是一种双通道架构的人工智能方法,旨在训练模型学习给定单个或多个参考视频中的外观和运动,使其能够同时实现运动的自定义和外观的多样性。

其中,空间通道包含了一个基础模型,其在每个视频的变换层中集成了可训练的空间LoRAs(低秩适应),这些LoRAs是通过在每个训练步骤中随机选择的单帧来进行训练,以捕捉输入视频的视觉属性。与此相反,时间通道复制了基础模型,与空间通道共享空间LoRAs,以适应给定输入视频的外观。此外,时间通道中的时间变换器还使用从输入视频中选择的多帧进行训练,以捕捉固有的运动模式。

通过部署经过训练的时间LoRAs,基础模型可以合成具有多样外观的学习运动的视频。这种双通道架构使模型能够分别学习视频中物体的外观和运动,从而使MotionDirector能够隔离视频的外观和运动,然后从不同的源视频中进行组合。

研究人员通过在多个基准数据上比较MotionDirector的性能,包括80多种不同的运动和600个文本提示。在UCF体育动作基准测试中,MotionDirector被人工评定者约75%的时间选择,以获得更好的运动保真度,该方法还胜过了25%的基准模型的首选项。

在第二个基准测试中,即LOVEU-TGVE-2023基准测试中,MotionDirector表现优于其他可控生成和调整方法。这些结果表明,MotionDirector可以定制多个基础模型,以生成具有多样性和所需运动概念的视频。

总之,MotionDirector是一种有潜力的新方法,可用于调整文本到视频传播模型,以生成具有特定运动的视频。它在学习和适应物体和摄像机的特定运动方面表现出色,并可以用于生成具有各种视觉风格的视频。

尽管在学习参考视频中多个主体的运动方面仍有改进空间,但即便存在这些限制,MotionDirector仍有潜力增强视频生成的灵活性,使用户能够制作符合其需求的定制视频。

举报

  • 相关推荐
  • TikTok 上线 Brand Consideration! 助力品牌将影响力转化为消费意向!

    TikTok推出Brand Consideration营销方案,聚焦消费者决策链中的"种草阶段"。数据显示,处于种草阶段的用户对品牌偏好度比认知阶段高28%,贡献46%的GMV,转化效率可达认知阶段用户的12倍。该方案通过AI分析用户全渠道行为数据,精准识别高意向人群,帮助品牌降低46%的获客成本。东南亚市场实践表明,结合达人内容和电商广告的组合投放,能有效提升18.5%的种草效率。TikTok的差异化优势在于:1)Market Scope监测平台实时分析人群增长趋势;2)Symphony AI工具快速生成高质量内容;3)TikTok One平台便捷对接优质达人。该方案解决了数字营销中长期存在的中间漏斗转化难题,实现从认知到购买的全链路优化。

  • 外卖持久战:餐饮商家如何找寻营销新方法

    2025年外卖行业迎来了新一轮激战。自京东以"免佣金+骑手社保+百亿补贴"的组合拳高调杀入外卖市场后,淘宝迅速将"小时达"升级为"淘宝闪购",美团宣布千亿投入计划,饿了么跟进百亿补贴……各平台上演了一场贴身肉搏。 如今,这场由京东引发的市场争夺战已逐渐回归理性,平台间的竞争,正逐渐转向更可持续的运营能力比拼。对餐饮连锁品牌而言,

  • 云天畅想「NexalStation云工作站」重磅亮相北京科博会

    2025年5月8-11日,第二十七届北京国际科技产业博览会在国家会议中心盛大开幕。云畅想作为科技创新力量参展,重点展示了新一代云原生高性能计算平台NexalStation云工作站及一站式AI解决方案。该平台通过云端部署工作站级算力,构建端到端的桌面即服务(DaaS)体系,为影视动画、3D建模、工业仿真等场景提供高性能、低成本解决方案。同时展出的一站式AI解决方案整合先进算法工具,支持单机部署671B参数的DeepSeek大模型,助力企业快速实现AI技术落地。展会期间,云畅想产品吸引了大量专业观众驻足交流,围绕技术细节和实际应用案例展开深入探讨。作为云计算科技企业,云畅想将持续推动核心产品在更多领域的应用拓展,助力产业数字化升级。

  • 锚定运动人群 iRest艾力斯特按摩椅打造运动康复新方

    iRest艾力斯特按摩椅作为中国按摩器具行业领先品牌,积极拓展运动康复领域。其创新亮点包括:1. 接入Deepseek AI智能助手,实现个性化按摩方案推荐;2. 与美国运动科学院院士朱为模合作开发专业运动康复程序;3. 与温州医科大学开展多项临床研究,验证按摩椅在消除乳酸、缓解肌肉疲劳等方面的显著效果;4. 与华为运动健康APP数据互通,实现"运动-监测-康复"全链路智能化;5. 引入脑机接口技术,通过生物信号感知实现动态按摩调节。这些创新使产品突破传统按摩局限,为运动康复带来智能化新体验。

  • 忆联PCIe 5.0 ESSD基于H3C UniServer G7服务器的SPECstorage Solution 2020卓越性能验证

    忆联PCIe 5.0企业级固态硬盘UH812a/UH832a与H3C UniServer G7服务器强强联合,在SPECstorage Solution 2020测试中表现卓越。测试结果显示,该组合在AI图像处理、电子设计自动化、基因组分析等场景下性能领先:AI处理响应时间最快0.24毫秒,较上一代提升48.94%;EDA工作负载响应时间仅0.03毫秒;基因组分析吞吐量达21236MB/s。产品采用PCIe 5.0技术,带宽较PCIe 4.0翻倍,延迟降低43%,支持1.6TB-15.36TB多种容量,为AI训练、边缘计算、金融核心系统等场景提供高性能存储解决方案,重新定义企业级存储性能标杆。

  • GhibliTattoo发布!AI纹身生成,吉卜力风格专属定制

    这款工具专为吉卜力粉丝、纹身爱好者与创意设计师打造。通过文本提示或图片上传,即可生成高分辨率、透明背景的吉卜力风格纹身设计……

  • 金融科技浪潮下,Testin云测如同通过AI测试开展软件质效新篇章

    文章探讨了金融科技发展中软件测试的重要性与挑战。传统人工测试模式效率低下且易受人为因素干扰,导致金融软件平均每千行代码存在2-5个缺陷,可能引发严重金融风险。AI技术为金融软件测试带来革新,Testin云测推出的XAgent智能测试系统通过AGI引擎和RAG技术,实现测试流程标准化、自动化脚本维护成本降低50%、跨平台测试通过率超95%。该系统已帮助某股份制银行提升测试透明度80%,缩短交付周期30%。未来AI测试技术将在金融交易系统、风控平台等场景深度应用,推动金融业数字化转型。

  • RTX 5060/Ti重启黑屏有救了!NVIDIA发布紧急固件更新

    快科技5月25日消息,NVIDIA近期针对RTX 5060和RTX 5060 Ti显卡发布了一项紧急固件更新,旨在解决部分用户在重启系统时遇到的黑屏问题。这一问题自RTX 5060系列显卡发布以来一直困扰着部分用户,尤其是在系统重启时,显卡无法正常显示图像,导致用户无法正常使用。此次更新并非通过驱动程序发布,而是直接对显卡的vBIOS进行更新,NVIDIA强调,只有遇到黑屏问题的用户才需要更新固件,正常使用的设备无需进行此操作。NVIDIA的技术文档显示,黑屏问题可能是由于特定主板的BIOS/UEFI版本与新显卡的兼容性冲突所致。如果用户的主板不支持UEFI启

  • 联想moto razr 60 Ultra国行今天发布:首款骁龙8至尊版小折叠

    新机后置5000万像素主摄 5000万像素超广角微距双摄,内置4700mAh电池,支持68W有线 30W无线充电,支持IP48级别防尘防水。

  • 为打击 AI 视频乱象,YouTube开启了“去货币化”模式

    随着人工智能生成的内容片段涌入平台,人们最终会采取行动来使其失去货币化……