首页 > AI头条  > 正文

Meta新框架VideoJAM:提升AI视频模型的运动和物理能力

2025-02-08 14:46 · 来源: AIbase基地

在视频生成领域,尽管近年来取得了显著的进展,但现有的生成模型仍然难以真实地捕捉到复杂的运动、动态和物理现象。这种局限性主要源于传统的像素重构目标,这种方法往往偏向于提高外观的真实感,而忽视了运动的一致性。

为了解决这一问题,Meta 的研究团队提出了一种名为 VideoJAM 的新框架,它旨在通过鼓励模型学习联合外观 - 运动表示,来为视频生成模型注入有效的运动先验。

VideoJAM 框架包含两个互补的单元。在训练阶段,该框架扩展了目标,使其同时预测生成的像素和对应的运动,二者都来自于一个单一的学习表示。

在推理阶段,研究团队引入了一种名为 “内在引导” 的机制,通过利用模型自身不断演变的运动预测,作为动态指导信号,来引导生成过程朝着一致的运动方向发展。值得注意的是,VideoJAM 能够在不需要修改训练数据或扩展模型的情况下,应用于任何视频生成模型。

image.png

经过验证,VideoJAM 在运动一致性方面达到了业界领先的水平,超越了多个竞争激烈的专有模型,同时也提升了生成图像的视觉质量。这一研究结果强调了外观与运动之间的互补关系,当这两者有效结合时,能够显著提高视频生成的视觉效果和运动连贯性。

此外,研究团队展示了 VideoJAM-30B 在复杂运动类型生成中的优秀表现,包括滑板运动员的跳跃、芭蕾舞者在湖面上旋转等场景。通过对比基模型 DiT-30B,研究发现 VideoJAM 在运动生成的质量上有显著提升。

项目入口:https://hila-chefer.github.io/videojam-paper.github.io/

划重点:

🌟 VideoJAM 框架通过联合外观 - 运动表示提升视频生成模型的运动表现力。  

🎥 在训练过程中,VideoJAM 能够同时预测像素和运动,增强生成内容的一致性。  

🏆 经过验证,VideoJAM 在运动一致性和视觉质量方面均超越了多个竞争模型。

  • 相关推荐
  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 微软以Maia 280开启新局对垒英伟达,Meta/微美全息开源联动引领AI创新

    微软自研AI芯片Braga因设计问题延期至2026年,将推出过渡产品Maia280,性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖,但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位(市占率超80%,年销售额增长10倍),微软正调整战略转向更务实的迭代路线。与此同时,Meta成立"超级智能团队"加速AI研发,微美全息押注量子计算等前沿技术。行业分析师认为,由于英伟达技术迭代速度极快(年增长32%),多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • 苹果智能眼镜布局全面加速,Meta/微美全息产业生态协同撬动万亿市场

    苹果计划2025年推出搭载M5处理器的Vision Pro智能眼镜,2027年将发布主打拍摄和AI功能的Vision Air,以及更轻便的头显设备。彭博社透露苹果还在探索有线版Vision Pro。Meta与Ray-Ban合作的智能眼镜取得市场成功,即将推出高端版Hypernova眼镜,配备神经腕带控制器。微美全息积极布局智能眼镜领域,通过技术创新推动AR眼镜发展。随着AI技术进步,智能眼镜市场迎来爆发式增长,互联网巨头、硬件厂商纷纷入局,推动办公、影视、游戏等场景应用升级。

  • 央广网等百余家媒体报道,Lamett乐迈石晶建博会首秀掀起“石晶全屋整装”热潮

    在第27届中国建博会上,Lamett乐迈石晶凭借"石晶全屋整装解决方案"和"7天无理由退货"服务政策成为全场焦点。该品牌推出的石晶材料具备八大核心性能,完美解决传统建材在环保、功能和安装上的痛点,实现健康与美学的平衡。展会期间,其产品覆盖地面、墙面、柜体等多场景应用,引发行业高度关注。权威专家指出,Lamett石晶符合国家"好房子"政策方向,有望推动家居建材行业升级。凭借创新技术和完善服务体系,该品牌正引领行业迈入以石晶为核心的新时代。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • Lamett乐迈石晶发布2025新品,中国全屋整装迎来“石晶时代”

    乐迈石晶在第27届中国建博会(广州)推出"全屋石晶整装解决方案",以"要健康·要安全·要石晶"为主题,通过零醛添加、防水防潮、防蛀防霉等八大性能优势重新定义整装标准。该方案采用天然石灰岩和树脂晶体为原料,通过高温高压工艺实现零甲醛释放,适用于全屋空间。乐迈石晶已建立全球研发中心,拥有多项核心专利技术,业务覆盖80多个国家和地区。此次创新不仅推动建材升级,更引领健康人居新趋势,为消费者打造安全舒适的家居环境。

  • Meta 抢占AI霸权争夺加剧,微美全息(WIMI.US)布局产业生态应对市场竞争

    Meta斥资数十亿美元争夺AI领域主导权,包括从OpenAI挖走三名研究员,甚至开出1亿美元签约费。同时,Meta同意以148亿美元收购AI初创公司Scale AI 49%股份,这是其史上最大外部投资。中国AI领域也快速发展,已有433款大模型完成备案上线。专家指出,开源模式推动了大模型创新生态,形成"技术-数据-场景"循环迭代。微美全息(WIMI.US)通过搭建高性能AI算力基地,集成国际先进�

  • Perplexity推出AI浏览器Comet:想用得开1400元/月的订阅

    由英伟达支持的Perplexity AI推出了一款名为Comet的AI驱动网络浏览器。 Comet浏览器的核心卖点是其AI驱动的交互体验,公司表示它将整个浏览会话转变为单一、无缝的交互,将复杂的工作流程简化为流畅的对话。

  • 首部菁彩Vivid影片震撼上映,视效革命点亮东方幻境

    7月12日,动画电影《聊斋:兰若寺》以菁彩Vivid/HDR+LED版本登陆暑期档。该片由《长安三万里》原班人马打造,采用尖端视效技术呈现东方志怪美学,突破传统SDR技术局限,实现更高动态范围和广色域表现。特别版在适配影院独家放映,通过显著明暗对比、丰富色彩层次和通透画面质感,极大增强观影真实感和沉浸感。影片改编自蒲松龄经典名著,以视觉技术精准呈现人物微表情和场景细节,深化情感共鸣。该技术突破将推动影视产业生态创新发展,为观众带来颠覆性视听体验。

今日大家都在搜的词: