首页 > 业界 > 关键词  > Sora最新资讯  > 正文

解决Sora物理bug!四所美国高校联合发布PhysDreamer模型

2024-05-06 15:30 · 稿源:站长之家

站长之家(ChinaZ.com)5月6日 消息:Sora视频生成器发布后不久,就被网友发现存在物理交互的bug,例如模型对物理世界的理解不足,导致小狗走路时前腿出现不自然的交错问题。为了解决这一问题,提升视频生成的真实感,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员联合提出了一种基于物理的方法模型——PhysDreamer。

image.png

项目地址:https://top.aibase.com/tool/physdreamer

论文链接:https://arxiv.org/pdf/2404.13026.pdf

PhysDreamer利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。通过提炼这些先验知识,PhysDreamer能够合成现实物体对全新交互的响应,如外力或智能体操作,并在弹性物体的不同示例上展现了该方法的效果。

问题形式化

PhysDreamer的目标是估计对象的物理材料属性场,以实现真实的交互式运动合成。具体来说,就是估计3D物体的空间变化杨氏模量场E(x),以进行粒子模拟。杨氏模量用来测量材料的刚度,决定物体响应外力作用的运动轨迹。

模型架构

PhysDreamer通过生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。给定一个表示为3D高斯的对象,首先从某个视点进行渲染,然后使用图像到视频生成模型来生成运动中物体的参考视频。接着,使用可微分材质点方法(MPM)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。

实验结果

研究人员收集了八个真实世界的静态场景,并捕捉了四个交互视频来说明其在交互后的自然运动。在用户研究中,超过80%的参与者在两项选择实验中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer。

PhysDreamer模型的发布,为解决视频生成中的物理交互问题提供了一种有效的解决方案。通过估计物体的物理材料属性,PhysDreamer能够合成更加逼真的物体动态行为,显著提升了视频生成的真实感。这一研究成果有望推动视频生成技术的发展,为未来的应用带来更多可能性。

举报

  • 相关推荐
  • 0元配送,10元起送,外卖大战“打”进高校

    “再这么喝下去,我要喝出糖尿病了!” 这个周末,“外卖大战”继续如火如荼。7月12日开始,淘宝闪购、美团、京东再度加码外卖补贴,不少网友也在社交平台晒出新一轮的 “战绩”,低价甚至是免单的奶茶咖啡是其中的主流。 “一代人有一代人要领的鸡蛋,喝不完根本喝不完”“今年夏天减肥最大的阻力”,在消费者激烈的调侃声中,中国互联网史上最激烈的即时零售�

  • 看好海尔空调制冷快!桂林一高校下单1700套

    桂林信息科技学院今年夏季为应对高温湿热天气,全面升级校园空调系统,一次性安装1700套海尔空调,覆盖教学楼、宿舍及产教融合中心等核心区域。重点补充了未覆盖的宿舍楼栋,选用1.5匹冷暖分体挂机,兼具快速制冷和除湿功能,有效缓解湿热体感。近期海尔空调接连斩获多所高校大额订单,包括齐鲁工业4600套、华北理工8000套等。中怡康数据显示,海尔空调当周份额达27.2%,位居行业第二。

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • OpenAI核心模型采用物理隔离:为防窃密 上网需明确许可

    据媒体报道,OpenAI近期全面升级其安全体系,以应对企业间谍活动风险。此次升级的核心举措之一是推出信息隔离”政策,旨在严格限制员工对敏感算法和新产品的访问权限。 例如,在开发o1模型期间,OpenAI规定只有经过严格审查并获得相应权限的团队成员,才可在公共办公区域讨论相关细节。 同时,公司还采取了多项物理与网络安全强化措施:将核心专有技术存储在隔离�

  • 6.3万起 三星Galaxy Z Fold7/Flip7限量版发布:灵感来自Labubu 只有8台

    日前,奢侈品牌厂商Caviar推出Cabubu系列定制版三星Galaxy Z Fold7、三星Galaxy Z Flip7。 其中,三星Galaxy Z Fold7Cabubu版售价8910美元起(约合6.3万元人民币)、三星Galaxy Z Fold7Cabubu版起售价10340美元(约合7.4万元人民币)。

  • OPPO Find X9系列首发!OPPO与哈苏联合研发下一代影像系统

    OPPO通过公众号宣布,OPPO与哈苏联合研发下一代影像系统,双方继续深化战略合作伙伴关系,打造移动影像的画质新标杆。 官方介绍,目前OPPO与哈苏正在联合开发下一代影像系统,打造移动影像在全焦段解析力、色彩还原精度的新标杆,将为全球用户带来开创性的画质表现,以及独一无二的影像风格。 不出意外,OPPO哈苏联合打造的新一代影像系统将由OPPO Find X9系列首发搭载

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • iPhone 17系列重回铝合金中框:仅iPhone 17 Air保留钛合金

    据知名分析师Jeff Pu介绍,苹果将在iPhone 17系列重回铝合金中框,只有iPhone 17 Air保留钛合金中框。 苹果在2017年的iPhone X上首次开始使用不锈钢,并且在Pro机型上延续到iPhone 14 Pro,而后又在iPhone 15 Pro开始使用钛合金。 如今看来,钛合金成为苹果最快抛弃的材质。 iPhone 17 Air选择钛合金中框也是迫不得已,因为该机厚度在6mm以内,而钛合金的强度、硬度、韧性、抗拉强度、抗伸

  • 像素蛋糕全新升级,让摄影师buff叠满是一种什么体验?

    像素蛋糕8.0版本发布,推出行业首个应用级图像大模型"方糖模型"和16bit·AI Raw引擎。该软件通过AI技术实现商业摄影全流程智能化,将传统3天修图工作缩短至3分钟,并带来200%的营收增长。新版本新增五大AI创作功能,包括证件照换装、AI布景等,同时推出移动端iPhone版本。专业摄影师储卫民现场演示了软件在风光摄影中的突破性表现。艾瑞咨询数据显示,像素蛋糕占据中国商业级AI修图市场第一份额,其技术创新正在推动摄影行业从"效率中心"向"灵感中心"跃迁。

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。