首页 > 业界 > 关键词  > Sora最新资讯  > 正文

解决Sora物理bug!四所美国高校联合发布PhysDreamer模型

2024-05-06 15:30 · 稿源:站长之家

站长之家(ChinaZ.com)5月6日 消息:Sora视频生成器发布后不久,就被网友发现存在物理交互的bug,例如模型对物理世界的理解不足,导致小狗走路时前腿出现不自然的交错问题。为了解决这一问题,提升视频生成的真实感,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员联合提出了一种基于物理的方法模型——PhysDreamer。

image.png

项目地址:https://top.aibase.com/tool/physdreamer

论文链接:https://arxiv.org/pdf/2404.13026.pdf

PhysDreamer利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。通过提炼这些先验知识,PhysDreamer能够合成现实物体对全新交互的响应,如外力或智能体操作,并在弹性物体的不同示例上展现了该方法的效果。

问题形式化

PhysDreamer的目标是估计对象的物理材料属性场,以实现真实的交互式运动合成。具体来说,就是估计3D物体的空间变化杨氏模量场E(x),以进行粒子模拟。杨氏模量用来测量材料的刚度,决定物体响应外力作用的运动轨迹。

模型架构

PhysDreamer通过生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。给定一个表示为3D高斯的对象,首先从某个视点进行渲染,然后使用图像到视频生成模型来生成运动中物体的参考视频。接着,使用可微分材质点方法(MPM)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。

实验结果

研究人员收集了八个真实世界的静态场景,并捕捉了四个交互视频来说明其在交互后的自然运动。在用户研究中,超过80%的参与者在两项选择实验中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer。

PhysDreamer模型的发布,为解决视频生成中的物理交互问题提供了一种有效的解决方案。通过估计物体的物理材料属性,PhysDreamer能够合成更加逼真的物体动态行为,显著提升了视频生成的真实感。这一研究成果有望推动视频生成技术的发展,为未来的应用带来更多可能性。

举报

  • 相关推荐
  • 网易数帆携手人民中科,联合发布首款可信ChatBI一体机

    近日,网易数帆与人民中科联合发布了行业内首款可信ChatBI一体机,为政府机构、高等院校、国央企等客户提供安全可靠的本地化智能办公方案,推动智能应用在关键业务的深度落地。01强强联合,打造自主可控的智能办公新设施在数字化转型加速的背景下,政企客户对数据安全与智能化办公的需求持续升级。为此,网易数帆与人民中科依托双方在AI大模型、高性能计算及信息�

  • 七部门联合发布!6月1日起 终端设备直连卫星服务管理实施

    快科技5月1日消息,近日,国家互联网信息办公室、国家发展改革委、工业和信息化部、公安部、海关总署、市场监管总局、广电总局联合发布《终端设备直连卫星服务管理规定》(以下简称《规定》),自2025年6月1日起施行。《规定》提出,支持终端设备直连卫星技术研究、卫星通信与地面移动通信融合发展,探索技术融合新应用新业态,构建系统完备的产业体系。鼓励通过终端设备直连卫星服务提高我国网络覆盖水平,促进其在防灾减灾救灾、安全生产、野外作业和搜寻救援等领域应用,支持相关数据依法开发利用,鼓励平等互利开展国际交流与合作。《

  • 百度文库、百度网盘联合发布多智能体协作工具「GenFlow超能搭子」,分钟级、稳定、质量交付,现货可用

    4月25日,百度在Create2025开发者大会上发布多款AI工具。其中"GenFlow超能搭子"通过简单指令即可自动规划任务流程,生成文档、PPT等多形式内容;"AI笔记"实现视频与笔记联动,自动生成结构化学习笔记。百度文库和网盘已服务超10亿用户,AI月活用户达9700万。这些工具覆盖学习办公、生活娱乐场景,提供智能PPT、AI绘本等数百项功能,致力于打造"无所不能"的AI生产力平台。目前百度文库AI付费用户超4000万,网盘AI月活超8000万,成为大模型时代的"超级生产力"平台。

  • 巨头联合发起:反苹果、谷歌联盟成立

    快科技5月1日消息,Meta、Spotify和Match Group等巨头联合组成了一个名为竞争性移动体验联盟”的新游说团体。该团体旨在挑战苹果和谷歌在移动应用生态系统中的主导地位,并指责其采取不利于开发者的反竞争商业行为,同时还要求苹果和谷歌承担验证用户年龄的法律责任。竞争性移动体验联盟”的目标是通过游说立法者、与联邦监管机构合作,以及支持针对苹果和谷歌的反垄断执法行动,来影响联邦和州的立法。当前,该联盟重点关注的是未成年人数字保护措施,尤其是越来越多的立法推动要求应用商店在允许未成年人下载某些应用程序之前进行年龄验

  • 百度文库、百度网盘联合发布全球首个内容操作系统「沧舟OS」,致力于让AI「无所不能、无处不在」

    4月25日,百度在Create2025开发者大会上推出全球首个内容领域操作系统"沧浪OS"。该系统整合百度文库和网盘资源,构建"公私有知识框架+工具框架"体系,通过知识化框架(公域/私域/记忆三大知识库)和工具化框架(多模理解、检索、文件解析等组件),实现内容元素级拆解。沧浪OS还包含阅读器、编辑器、播放器三大组件,通过调度中枢协调AI Agent工作。目前该系统已集成数百项AI Agent功能,覆盖图文影音等多种内容形态,并与华为、三星等厂商展开深度合作,将MCP架构应用于手机云存储等场景,提升文件管理效率。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 449元 真我Buds Air7 Pro发布:53dB真我最强降噪、AI同传

    快科技4月23日消息,今日,真我Buds Air7 Pro耳机发布,售价449元。真我Buds Air7 Pro是该价位段首款采用全金属航空铝设计的耳机,可选速沙白、炽焰红、银石灰、风驰绿四种配色。耳机搭载11mm低音单元和6mm微平面高音单元,支持LHDC5.0高清传输协议,获得Hi-Res小金标认证,192kHz采样率、1000kbps传输速率。真我Buds Air7 Pro支持自定义调整高、中、低三个频段,支持3D空间音效。耳机降噪深度高达53dB、5000Hz最高降噪频宽,是真我史上最强降噪性能,支持自适应降噪。此外,真我Buds Air7 Pro还支持AI同声传译、实时对话翻译,支持32种外

  • 未来智能发布AI耳机新品iFLYBUDS Pro 3与Air 2,解码AI硬件的三重价值跃迁

    文章探讨了AI硬件行业当前面临的两极分化现象:一方面企业陷入参数竞赛的技术神话,另一方面因场景缺失导致功能冗余。未来智能通过发布iFLYBUDS Pro3和Air2两款AI会议耳机,展现了回归工具本质的理念——好AI耳机首先必须是好耳机。产品聚焦办公会议场景,通过viaim大脑与百万终端构建的生态闭环,实现数据与入口双向促进。数据显示用户留存率达70%,证明解决真实问题比追逐风口更具生命力。文章指出,真正的用户价值在于让技术隐形,当耳机能预测跨语言翻译需求、自动整理碎片信息时,工具便进化为"懂需求的伙伴"。

  • 售价449元!真我首款AI翻译耳机 Buds Air7 Pro 正式发布

    4月23日,realme发布旗舰新品真我GT7和真我Buds Air7 Pro耳机。其中Buds Air7 Pro采用全金属航空铝材质设计,质感出众,支持53dB深海降噪技术,是同价位段首款……

  • 99元的泡泡玛特溢价到2000元 LABUBU3.0系列热销

    近日,泡泡玛特现象级IP LABUBU第三代搪胶毛绒产品“前方高能”系列自四月底发售以来,热度持续不减。新品上架即遭抢购,官方小程序显示预售产品要到6月15日起才发售。 在二手平台