要点:
MotionCtrl是一种用于视频生成的统一而灵活的运动控制器,能够有效地独立控制摄像机运动和物体运动,实现更精细和多样化的运动控制。
MotionCtrl通过两个模块,即摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略。
通过CMCM和OMCM的独立训练和结合LVDM,MotionCtrl能够在相对有限的数据集上进行训练,并在生成视频时灵活地控制摄像机和物体的运动,展示出较之前方法更为出色的性能。
站长之家(ChinaZ.com)12月8日 消息:近年来,视频生成领域取得了显著进展,但对于视频中的摄像机和物体运动的准确控制仍然是一个挑战。传统方法往往集中在其中一种运动类型,或者在两者之间没有明确的区分,从而限制了运动控制的多样性。为了解决这一问题,研究人员开发了一种名为MotionCtrl的技术,可以通过手绘的轨迹来控制摄像机和视频中物体的运动轨迹。该技术还支持Animatediff,希望在开源后能够有相应的节点插件。
MotionCtrl能够独立有效地控制摄像机运动和物体运动,实现更精细和多样化的运动控制。其架构考虑了摄像机运动和物体运动的固有属性,通过CMCM和OMCM模块分别处理这两种运动类型。这使得在生成的视频中可以实现更细致的运动调整,并灵活地组合这两种运动类型,提高了控制的多样性。
论文地址:https://arxiv.org/pdf/2312.03641.pdf
MotionCtrl的运动条件由摄像机姿态和轨迹决定,这些条件与外观无关,最小程度地影响生成视频中物体的外观或形状。这使得MotionCtrl生成的视频在保持物体自然外观的同时,能够准确地反映所给摄像机姿态和轨迹,提高了生成视频的真实感。
MotionCtrl是相对通用的模型,一旦训练完成,能够适应各种摄像机姿态和轨迹,无需对每个摄像机或物体运动进行精细调整。这增强了模型的泛化能力,使其在不同情境下都能表现出色。
该项目的优势在于,它可以有效地独立控制摄像机和物体的运动,实现更精细的运动控制,促进两种类型运动的灵活多样组合。此外,该技术的运动条件由摄像机的姿势和轨迹确定,与视频中物体的外观或形状影响最小。
MotionCtrl的实现方法是通过添加相机运动控制模块(CMCM)和物体运动控制模块(OMCM)来扩展LVDM的去噪U-Net结构。CMCM通过将相机姿态序列RT附加到第二个自注意模块的输入中,并应用一个定制的轻量级全连接层来提取相机姿态特征,将其与LVDM的时间变换器进行集成。
为了训练MotionCtrl,研究人员采用了一种多阶段的训练策略,并使用特定的增强数据集,以满足摄像机运动和物体运动控制的训练需求。对于摄像机运动控制模块(CMCM),研究人员选择了Realestate10K数据集,并通过Blip2生成视频片段的文字描述。对于物体运动控制模块(OMCM),由于缺乏同时包含摄像机姿态、文字描述和物体运动轨迹的综合数据集,研究人员采用了ParticleSfM来生成物体运动轨迹,并通过Gaussian filter进行优化。
实验结果表明,MotionCtrl相对于现有方法在运动控制方面表现出色,具有更高的生成视频质量和更灵活的运动控制能力。
(举报)