首页 > 业界 > 关键词  > MotionDirector最新资讯  > 正文

MotionDirector:AI定制视频新方法

2023-10-18 09:28 · 稿源:站长之家

要点:

1. 该研究提出了MotionDirector,一种基于人工智能的方法,用于自定义视频的运动和外观,通过训练模型学习运动和外观,以生成特定运动的视频。

2. MotionDirector采用双通道架构,分别学习单一或多个参考视频中的外观和运动,实现外观和运动的解耦,并能够合并不同源视频的外观和运动。

3. 该研究通过对多个基准数据进行比较,表明MotionDirector在生成具有多样性和所需运动概念的视频方面具有潜力,尽管有一些改进的空间。

站长之家(ChinaZ.com)10月18日 消息:最新研究指出,文本到视频传播模型在最近取得了显著进展,用户只需提供文本描述,就可以创建逼真或富有想象力的视频。这些基础模型还被调整以生成与特定外观、风格和主题匹配的图像。

然而,在文本到视频生成中自定义运动的领域仍需要深入探讨。用户可能希望创建具有特定运动的视频,比如汽车前进然后左转。因此,将扩散模型调整以创建更具体内容以满足用户的需求变得非常重要。

image.png

项目地址:https://showlab.github.io/MotionDirector/

为了解决这一问题,研究人员提出了MotionDirector,这是一种双通道架构的人工智能方法,旨在训练模型学习给定单个或多个参考视频中的外观和运动,使其能够同时实现运动的自定义和外观的多样性。

其中,空间通道包含了一个基础模型,其在每个视频的变换层中集成了可训练的空间LoRAs(低秩适应),这些LoRAs是通过在每个训练步骤中随机选择的单帧来进行训练,以捕捉输入视频的视觉属性。与此相反,时间通道复制了基础模型,与空间通道共享空间LoRAs,以适应给定输入视频的外观。此外,时间通道中的时间变换器还使用从输入视频中选择的多帧进行训练,以捕捉固有的运动模式。

通过部署经过训练的时间LoRAs,基础模型可以合成具有多样外观的学习运动的视频。这种双通道架构使模型能够分别学习视频中物体的外观和运动,从而使MotionDirector能够隔离视频的外观和运动,然后从不同的源视频中进行组合。

研究人员通过在多个基准数据上比较MotionDirector的性能,包括80多种不同的运动和600个文本提示。在UCF体育动作基准测试中,MotionDirector被人工评定者约75%的时间选择,以获得更好的运动保真度,该方法还胜过了25%的基准模型的首选项。

在第二个基准测试中,即LOVEU-TGVE-2023基准测试中,MotionDirector表现优于其他可控生成和调整方法。这些结果表明,MotionDirector可以定制多个基础模型,以生成具有多样性和所需运动概念的视频。

总之,MotionDirector是一种有潜力的新方法,可用于调整文本到视频传播模型,以生成具有特定运动的视频。它在学习和适应物体和摄像机的特定运动方面表现出色,并可以用于生成具有各种视觉风格的视频。

尽管在学习参考视频中多个主体的运动方面仍有改进空间,但即便存在这些限制,MotionDirector仍有潜力增强视频生成的灵活性,使用户能够制作符合其需求的定制视频。

举报

  • 相关推荐
  • 2025 AIRO( AI Result Optimization)行业白皮书

    本文系统阐述了AI结果优化(AIRO)技术,作为AI营销领域的核心技术之一。AIRO通过“真实信息匹配+AI认知深化”的逻辑,引导AI大模型深度认知品牌、产品或机构的真实信息,在用户提出相关精准需求时,主动将其纳入推荐列表前列,实现“AI主动推荐→用户点击→转化闭环”的全链路营销价值。文章明确了AIRO与生成式引擎优化(GEO)的核心区别在于“AI主动推荐”与“AI被动引用”的逻辑分野。报告详细解析了AIRO“四层架构+三步闭环”的成熟技术体系,并指出2025年AIRO行业已步入“规模化应用爆发元年”,中国市场规模预计突破300亿元。同时,报告通过本地装修、智能建造设备、餐饮连锁、教育培训四个典型行业的实操案例,展示了AIRO在精准获客与品牌认知提升方面的显著效果。最后,报告强调了“真实、合规、可追溯”是AIRO行业发展的核心底线,并展望了未来技术智能化、场景多元化、生态一体化的发展趋势。

  • 小米发布机器人基座模型Xiaomi-Robotics-0

    小米机器人团队开源发布全新具身智能VLA模型Xiaomi-Robotics-0,参数规模达47亿,具备视觉语言理解与高性能实时执行能力。该模型在三大主流仿真测试中横扫行业标杆,拿下全项SOTA成绩,并在真实机器人上实现流畅动作。其创新点在于能在消费级显卡上实现实时推理,打破高端模型依赖昂贵专业显卡的局限,降低技术落地门槛。小米自研的Mixture-of-Transformers架构为机器人装上“�

  • AI日报:天猫上线AI假图识别模型;百川发布医学模型Baichuan-M3 Plus;Remotion Skills开启一句话做大片时代

    本期AI日报聚焦多领域AI新进展:淘宝天猫上线AI假图识别模型,打击恶意售后;Inworld推出低延迟多语言TTS-1.5,革新游戏对话体验;百川智能发布医疗大模型Baichuan-M3+Plus,医学幻觉率降至2.6%;Remotion Skills实现自然语言生成专业视频动画;苹果内部AI工具Enchanté和Enterprise Assistant曝光,提升办公效率;YouTube计划推出“AI个人形象”功能,变革短视频创作;微软为Windows 11记事本与画图注入AI新能力;苹果拟将Siri重塑为类ChatGPT聊天机器人,代号“Campos”。

  • Checkout.com 与 Spotify 达成全球战略支付合作伙伴关系,助力其全区业务版图

    全球领先数字支付服务商Checkout.com宣布与音频流媒体平台Spotify达成战略合作,将成为其全球支付服务商。Checkout.com将为Spotify遍布180多个国家和地区的订阅用户提供高效数字支付体验,利用其全球收单网络与本地化资源优化支付绩效。合作将集成Checkout.com的智能支付解决方案“Intelligent Acceptance”,通过AI驱动的实时数据智能路由支付订单,以提升交易成功率与支付效率。同时,双方将整合网络令牌化与身份验证服务,通过高级安全技术保障用户支付安全与订阅服务的定期支付顺畅。此次合作旨在为Spotify超7亿月活用户及超2.8亿付费用户打造流畅、安全且可靠的支付体验,支持其全球业务拓展。

  • 小米宣布米家洗衣机OTA升级:烘干更快更省电 新增30°水温调节

    今日,小米智能生态官微宣布,米家洗衣机将陆续推送OTA升级,新增米家灵云智烘、疾速烘、洗烘联动3.0、30水温调节等多项功能。本次升级将覆盖多款在售机型,具体支持功能及对应型号如下:米家灵云智烘根据天气温湿度、空气指数等环境因素,智能调节烘干参数,给衣物更贴心的呵护。涉及产品型号米家洗衣机双区洗双洗烘米家双区洗衣机Pro双洗烘10kg小米表示,本次升级需要3-10分钟,软件升级过程中,请勿进行断电、断网及解绑设备操作,以免升级失败或异常。

  • 2026销售商机管理AI工具推荐:优选综合型AI工具 DingTalkA1

    根据国际数据公司(IDC)2025年发布的《未来销售白皮书》显示,到2026年,全球将有75% 的销售组织面临 "数据富集而洞察贫乏" 的困境 —— 海量商机相关互动数据无法有效转化为可落地的销售策略。哈佛商业评论分析服务部也指出,跨渠道、跨形态的商机沟通(线下会议、线上通话、即时消息等)易形成 "信息孤岛",造成客户画像碎片化、销售动作与商机真实需求脱节。传统工具

  • 影视飓风Tim称将花100万送员工登顶珠峰:带薪休假9个月 全程记录

    近日,影石Insta3602026年度年会上,影视飓风创始人Tim作为特邀嘉宾登台发言,现场宣布了一项令人意外的决定:公司将斥资近100万元,专项资助一位员工挑战登顶珠峰,同时为其提供9个月的带薪休假,该员工将全程记录这一素人登峰”的完整历程,分享普通人登顶世界之巅的过程。这位入选员工并非专业登山运动员,仅具备基础登山经验。专业装备和夏尔巴向导是核心支出,再加上紧急救援等预留费用,普通人登顶珠峰的总花费通常在50万至100万元不等。

  • AI礼品赛道新范式:钉钉DingTalkA1定义“理感共生”价值标杆

    新春赠礼,正经历一场由技术驱动与消费心智升级共同塑造的深刻变革。当一份礼物既能精准切入现代生活的效率痛点,又能成为承载情感与陪伴的智能伙伴,其价值便超越了传统节庆符号,升维为一种“理感共生”的生活方式提案。近期,“AI礼物”成为新春消费市场的高频搜索词,这背后是当代消费者对节日馈赠的全新期待:礼物不仅需要智能科技的加持,更要蕴含人性化�

  • 三星在ISE 2026斩获多项大奖 Spatial空间显示屏独揽六项殊荣

    三星在ISE2026展会上展示了其显示解决方案,成功平衡了震撼视觉表现力与商业现实需求。展会期间,三星通过十大产品体验区全面呈现了赋能零售、企业办公、酒店、教育等场景的解决方案,吸引了超9.2万名观众。其商用显示产品及方案斩获多项行业大奖,包括IBF系列半户外超高亮LED屏、IEF系列室内LED品牌、彩色电子纸E-Paper、Spatial空间显示屏以及超大型Micro RGB数字标牌等。这些产品凭借卓越画质、灵活安装、低功耗及沉浸式3D体验等特点,展现了三星在商用显示领域的领导地位与持续创新能力。

  • 破局销售商机流失:DingTalkA1重塑商机全流程智能管理新范式

    文章指出,数字时代销售效能的核心瓶颈已从信息匮乏转向商机流失——大量潜藏在对话中的需求信号因未能被及时捕捉、解析与流转,最终消散于日常沟通。传统依赖人工的记录与复盘模式,难以实现商机的系统性识别与全链路转化,导致企业错失增长触点。对此,钉钉推出首款AI硬件+DingTalk A1,以商机全流程智能管理为核心,通过“硬件+场景化AI+生态”的深度融合,重构了从商机感知到价值实现的完整闭环。其核心能力包括:全场景沉浸式信息捕获、实时跨语言智能协同、多维度智能洞察生成以及安全闭环的组织智慧沉淀。该体系旨在将模糊不可控的商机线索,转化为可追踪、可分析、可协作的结构化资产,推动销售从依赖个人经验转向以数据驱动、全程智能、组织协同为特征的新范式,助力企业构建可持续的商机运营优势。

今日大家都在搜的词: