首页 > 业界 > 关键词  > Sora最新资讯  > 正文

解决Sora物理bug!四所美国高校联合发布PhysDreamer模型

2024-05-06 15:30 · 稿源:站长之家

站长之家(ChinaZ.com)5月6日 消息:Sora视频生成器发布后不久,就被网友发现存在物理交互的bug,例如模型对物理世界的理解不足,导致小狗走路时前腿出现不自然的交错问题。为了解决这一问题,提升视频生成的真实感,来自MIT、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员联合提出了一种基于物理的方法模型——PhysDreamer。

image.png

项目地址:https://top.aibase.com/tool/physdreamer

论文链接:https://arxiv.org/pdf/2404.13026.pdf

PhysDreamer利用视频生成模型学习到的对象动力学先验,为静态3D对象赋予交互式动力学。通过提炼这些先验知识,PhysDreamer能够合成现实物体对全新交互的响应,如外力或智能体操作,并在弹性物体的不同示例上展现了该方法的效果。

问题形式化

PhysDreamer的目标是估计对象的物理材料属性场,以实现真实的交互式运动合成。具体来说,就是估计3D物体的空间变化杨氏模量场E(x),以进行粒子模拟。杨氏模量用来测量材料的刚度,决定物体响应外力作用的运动轨迹。

模型架构

PhysDreamer通过生成运动中物体的可信视频,然后优化材料场E(x)以匹配合成运动。给定一个表示为3D高斯的对象,首先从某个视点进行渲染,然后使用图像到视频生成模型来生成运动中物体的参考视频。接着,使用可微分材质点方法(MPM)和可微分渲染,对空间变化的材质场和初始速度场进行优化,旨在最小化渲染视频和参考视频之间的差异。

实验结果

研究人员收集了八个真实世界的静态场景,并捕捉了四个交互视频来说明其在交互后的自然运动。在用户研究中,超过80%的参与者在两项选择实验中更倾向于PhysDreamer模型,认为其在运动的真实性上更胜一筹;在视觉质量方面,也有65%的参与者更偏好PhysDreamer。

PhysDreamer模型的发布,为解决视频生成中的物理交互问题提供了一种有效的解决方案。通过估计物体的物理材料属性,PhysDreamer能够合成更加逼真的物体动态行为,显著提升了视频生成的真实感。这一研究成果有望推动视频生成技术的发展,为未来的应用带来更多可能性。

举报

  • 相关推荐
  • Soul联合发布《Z世代精神世界洞察报告》:绿地与音乐成青年疗愈密码

    Soul App联合上海市精神卫生中心发布《Z世代精神世界分析报告》,揭示当代青年在快节奏生活中呈现独特的心理需求图谱。报告显示,38%受访青年每周至少3次前往公园绿地等自然空间,25%偏爱在菜场、老街等烟火气场所放松。Z世代更倾向通过悲伤基调音乐(而非快乐歌曲)和城市非结构化空间实现情绪释放,形成"在悲伤里找到共鸣"的独特疗愈机制。平台推出的"城市疗愈地图"功能,聚合用户推荐的治愈场所,构建从情绪表达到专业疏导的完整关怀链条。专家指出,这种"悲伤偏好"实则是年轻人通过情感投射完成自我疗愈的心理机制。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 苹果发布iOS 26 Beta 2:控制中心BUG修复 降低透明度

    苹果今天发布了iOS 26的第二个开发者预览版,相比于发布会后的版本进行了很多改进,尤其是备受吐槽的控制中心修复,加入了背景模糊,易读性大增。 此前很多升级体验的用户吐槽,控制中心透明度太高,跟桌面信息融为一体,都找不到自己需要的按钮。 这一版本还有多项改进,具体如下: 控制中心:液态玻璃控制中心按钮背景虚化效果更强,外观不透明度更高,内容�

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • 即构科技“智校通” 让高校招生7*24小时随时在线

    文章介绍了高考志愿填报阶段考生和家长面临的信息咨询难题,传统咨询方式存在效率低、信息不准确等问题。即构科技推出的"智校通"智能咨询助手,通过AI技术实现7*24小时在线服务,支持文本、语音等多模态交互,能基于学校专属知识库提供专业解答。该系统具备秒级响应、上下文记忆、智能推理等功能,确保回答准确可靠,还能转接人工客服。智校通不仅能提升招生服务质量,还能通过数据分析帮助高校优化招生策略。目前已在多所高校落地应用,未来将拓展至更多教育场景。

  • 看好海尔空调制冷快!桂林一高校下单1700套

    桂林信息科技学院今年夏季为应对高温湿热天气,全面升级校园空调系统,一次性安装1700套海尔空调,覆盖教学楼、宿舍及产教融合中心等核心区域。重点补充了未覆盖的宿舍楼栋,选用1.5匹冷暖分体挂机,兼具快速制冷和除湿功能,有效缓解湿热体感。近期海尔空调接连斩获多所高校大额订单,包括齐鲁工业4600套、华北理工8000套等。中怡康数据显示,海尔空调当周份额达27.2%,位居行业第二。

  • 清华毕业礼上副校长给LABUBU拨穗:全世界学历最高的labubu来了

    近日,一则“全世界学历最高的Labubu”话题在社交媒体持续发酵,其源头可追溯至2025年清华大学毕业典礼上的一场趣味互动。 典礼现场,一名毕业生在拨穗环节中,将潮流玩偶Labubu带上台,校长或导师配合为其完成“拨穗”仪式,这一充满创意的场景被现场记录并上传至网络,迅速引发全网关注与讨论。 Labubu是泡泡玛特旗下标志性潮玩IP,凭借“丑萌”造型和限量营销策略�

  • 信通院联合三六零发布《大模型应用交付供应商总体能力要求》

    中国信通院联合360集团发布《大模型应用交付供应商总体能力要求》技术规范,从基础能力、大模型服务能力、行业实践能力和项目质量管理能力四个方面明确了大模型应用交付供应商的总体要求。该规范由20余家单位及40余位专家共同编制,旨在提升供应商技术、管理和服务能力,为行业提供供应商选择与评估参考。360作为国内大模型头部厂商,自主研发"360智脑"大模�

  • 爱马仕成了LABUBU配货 品牌合作营销排起长队

    近日,泡泡玛特旗下的Labubu玩偶在全球范围内掀起热潮,其市场表现及股价波动成为业界与投资者关注的焦点。Labubu玩偶凭借独特的配件设计、名人效应及品牌营销策略,在社交媒体上迅速走红,不仅吸引了众多消费者的目光,还与LV、爱马仕等奢侈品牌展开合作,进一步提升了其知名度与市场价值。 关于Labubu玩偶的成功,有分析认为,这反映了注意力经济与情感消费在数字�