首页 > 业界 > 关键词  > MotionCtrl最新资讯  > 正文

研究人员推视频运动控制器MotionCtrl 可有效独立控制摄像机和物体的运动

2023-12-08 11:08 · 稿源:站长之家

要点:

  • MotionCtrl是一种用于视频生成的统一而灵活的运动控制器,能够有效地独立控制摄像机运动和物体运动,实现更精细和多样化的运动控制。

  • MotionCtrl通过两个模块,即摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略。

  • 通过CMCM和OMCM的独立训练和结合LVDM,MotionCtrl能够在相对有限的数据集上进行训练,并在生成视频时灵活地控制摄像机和物体的运动,展示出较之前方法更为出色的性能。

站长之家(ChinaZ.com)12月8日 消息:近年来,视频生成领域取得了显著进展,但对于视频中的摄像机和物体运动的准确控制仍然是一个挑战。传统方法往往集中在其中一种运动类型,或者在两者之间没有明确的区分,从而限制了运动控制的多样性。为了解决这一问题,研究人员开发了一种名为MotionCtrl的技术,可以通过手绘的轨迹来控制摄像机和视频中物体的运动轨迹。该技术还支持Animatediff,希望在开源后能够有相应的节点插件。

MotionCtrl能够独立有效地控制摄像机运动和物体运动,实现更精细和多样化的运动控制。其架构考虑了摄像机运动和物体运动的固有属性,通过CMCM和OMCM模块分别处理这两种运动类型。这使得在生成的视频中可以实现更细致的运动调整,并灵活地组合这两种运动类型,提高了控制的多样性。

image.png

论文地址:https://arxiv.org/pdf/2312.03641.pdf

MotionCtrl的运动条件由摄像机姿态和轨迹决定,这些条件与外观无关,最小程度地影响生成视频中物体的外观或形状。这使得MotionCtrl生成的视频在保持物体自然外观的同时,能够准确地反映所给摄像机姿态和轨迹,提高了生成视频的真实感。

MotionCtrl是相对通用的模型,一旦训练完成,能够适应各种摄像机姿态和轨迹,无需对每个摄像机或物体运动进行精细调整。这增强了模型的泛化能力,使其在不同情境下都能表现出色。

该项目的优势在于,它可以有效地独立控制摄像机和物体的运动,实现更精细的运动控制,促进两种类型运动的灵活多样组合。此外,该技术的运动条件由摄像机的姿势和轨迹确定,与视频中物体的外观或形状影响最小。

MotionCtrl的实现方法是通过添加相机运动控制模块(CMCM)和物体运动控制模块(OMCM)来扩展LVDM的去噪U-Net结构。CMCM通过将相机姿态序列RT附加到第二个自注意模块的输入中,并应用一个定制的轻量级全连接层来提取相机姿态特征,将其与LVDM的时间变换器进行集成。

为了训练MotionCtrl,研究人员采用了一种多阶段的训练策略,并使用特定的增强数据集,以满足摄像机运动和物体运动控制的训练需求。对于摄像机运动控制模块(CMCM),研究人员选择了Realestate10K数据集,并通过Blip2生成视频片段的文字描述。对于物体运动控制模块(OMCM),由于缺乏同时包含摄像机姿态、文字描述和物体运动轨迹的综合数据集,研究人员采用了ParticleSfM来生成物体运动轨迹,并通过Gaussian filter进行优化。

实验结果表明,MotionCtrl相对于现有方法在运动控制方面表现出色,具有更高的生成视频质量和更灵活的运动控制能力。

举报

  • 相关推荐
  • 九号公司举办首届「MoTech Day 2025」:让技术回归生活,让创新成为日常

    10月24日,九号公司举办首届“MoTech Day 2025”技术文化节,这是专属于工程师的节日,也是公司首次以“技术文化”为核心议题的集团级活动。活动通过嘉宾演讲、互动体验与创意挑战等形式,聚焦智能出行、AI芯片、能源技术等前沿领域,旨在让“工程师精神”成为九号文化的核心符号,推动技术与文化双向融合,构建长期创新驱动力。活动还同步推出面向高校的“MoTech创意挑战赛”,并搭建线下互动打卡区,强化内部技术认同与组织活力,重塑品牌科技形象。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 国补1929元起!联想moto X70 Air预售:比iPhone Air更轻更薄

    联想moto X70 Air将于10月31日发布,新机目前已在联想商城、京东等电商平台开启预售。 据了解,联想moto X70 Air提供12GB 256GB、12GB 512GB两个版本,上市价分别为2599元和2899元。 联想moto手机京东自营旗舰店显示,联想moto X70 Air券后叠加国补到手价为1929元、2189元。

  • 享受专属赛道体验服务!雷军:小米Ultra Club对所有Ultra车主开放

    小米汽车今日宣布,小米Ultra Club面向所有Ultra车主开放入会。 车主入会后可享:赛道服务、赛道专场体验、官方专属活动及专属顾问1对1服务。目前赛道服务已覆盖12个城市,车主们可结合自身需求选择加入。

  • vivo WATCH GT 2已支持开通移动/联通eSIM服务

    vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务,提供一号双终端和独立终端两种模式,售价699元。配备2.07英寸大屏、2400nits峰值亮度,续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式,搭载自研蓝河操作系统3.0与智能助手,可跨设备连接vivo和iPhone,实现双机通知同步。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • 有AI的Air!联想moto X70 Air月底发布:厚度不到6mm

    联想moto X70 Air已经官宣10月底发布,今天官方发布视预热视频透露了新机的三大亮点轻、薄、AI。 这个预热很明显是在针对iPhone Air了,在同轻薄的设计下,联想moto X70 Air却拥有国内可以随意使用的AI,而苹果却已经画饼一年多,依然遥遥无期。 联想moto X70 Air大概率是保留了实体SIM卡结构,不会存在无法上市的问题,可能最终还会比iPhone Air提前到手。 综合多方面消息来看,联

  • 荣耀最强旗舰!荣耀Magic8 Ultra参数出炉

    博主数码闲聊站曝光了荣耀Magic8 Ultra的参数细节,这是荣耀最强悍的影像旗舰。 具体来说,荣耀Magic8 Ultra采用6.71英寸1.5K LTPO全等深微曲屏,搭载高通第五代骁龙8至尊版平台,支持3D人脸识别以及3D超声波屏幕指纹。 并且该机主摄升级为豪威集团的OV50R,拥有5000万像素,还有全新大底潜望长焦,电池容量超过7000mAh。 据悉,OV50R拥有1/1.3英寸超大底,这

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 小米最强旗舰!小米17 Ultra春节前登场

    博主爆料小米14 Ultra春节前将发布,已获入网许可。该机搭载1.5K新国屏、骁龙8 Gen3平台,影像系统采用无背屏设计,配备1英寸超大底主摄+2亿像素潜望长焦,支持双卫星通信。卢伟冰透露小米与徕卡四年合作推出20余款机型,称新机将突破移动影像新高度。

今日大家都在搜的词: