首页 > AI头条  > 正文

字节联合清华研究:Sora等这类AI视频模型无法理解基本物理规律

2024-11-18 10:00 · 来源: AIbase基地

近日,字节跳动研究院和清华大学的研究人员联合发布了一项新研究,指出目前的 AI 视频生成模型,比如 OpenAI 的 Sora,虽然能创造出令人惊叹的视觉效果,但在理解基本物理规律方面却存在重大缺陷。这项研究引发了人们对 AI 在模拟现实时能力的广泛讨论。

研究团队对 AI 视频生成模型进行了测试,设定了三种不同的场景,分别是已知模式下的预测、未知模式下的预测,以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律,还是仅仅依赖于训练中的表面特征。

通过测试,研究人员发现这些 AI 模型并没有学习到普遍适用的规则。相反,它们在生成视频时,主要依赖于颜色、大小、速度和形状等表面特征,并且遵循了一种严格的优先顺序:颜色优先,其次是大小、速度和形状。

在熟悉的场景下,这些模型的表现几乎完美,但一旦遇到未知情况,它们就显得无能为力。研究中的一项测试,展示了 AI 模型在处理物体运动时的局限性。例如,当模型训练时使用快速移动的球体来回运动,而在测试时却给它们提供慢速球体,模型竟然在几帧后显示球体突然改变了方向。这一现象在相关视频中也有清晰的体现。

研究人员指出,简单地扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉的模式和组合下表现更好,但它们依然无法理解基本的物理规律或处理超出训练范围的场景。研究合著者康炳毅提到:“如果在特定场景下数据覆盖足够好,也许能形成一个过拟合的世界模型。” 但这种模型并不符合真正世界模型的定义,因为真正的世界模型应该能够超越训练数据进行推广。

合著者 Bingyi Kang 在 X 上演示了这一限制,他解释说,当他们用快速移动的球从左到右和向后移动来训练模型,然后用缓慢移动的球进行测试时,模型显示球在仅仅几帧后就突然改变了方向(你可以在1分55秒的视频中看到它)。

这项研究结果对 OpenAI 的 Sora 计划形成了挑战。OpenAI 曾表示,Sora 有望通过不断扩展而发展成为真正的世界模型,甚至声称它已经对物理交互和三维几何有了基本理解。但研究人员指出,单靠简单的规模扩大并不足以让视频生成模型发现基本的物理规律。

Meta 的 AI 负责人 Yann LeCun 对此也表达了怀疑,认为通过生成像素来预测世界的做法是 “浪费时间且注定失败”。尽管如此,很多人仍期待 OpenAI 能在2024年2月中旬如期发布 Sora,展现其视频生成的潜力。

划重点:

🌟 研究发现 AI 视频生成模型在理解物理规律方面存在重大缺陷,依赖于训练数据的表面特征。  

⚡ 扩大模型规模并不能解决问题,这些模型在未知场景中表现不佳。  

🎥 OpenAI 的 Sora 计划面临挑战,单靠规模扩大无法实现真正的世界模型。

  • 相关推荐
  • 深耕睡眠科技新质生产力,喜临门大健康联合研究中心揭牌成立

    2025年9月30日,喜临门家具与浙江大学上海高等研究院成立"大健康联合研究中心",聚焦脊柱健康"防筛诊治康"一体化方向。双方将整合资源,围绕睡眠科技与AI智慧健康,重点开发智能健康监测系统、构建睡眠研究平台、推动中医药与现代科技融合创新,致力于打造医疗级睡眠解决方案,为消费者带来更具科技含量的健康新体验,引领行业高质量发展。

  • 声网联合展锐、谨讯发布R1-4G开发套件 让AI硬件随身相伴

    声网与紫光展锐、谨逊联合发布4G版对话式AI开发套件R1-4G,基于紫光展锐高性能AI芯片8910,集成声网对话式AI引擎,实现4G通信与CPU融合,支持全球主流4G频段。产品具备轻量化、低功耗特性,支持流畅音视频交互,适用于AI教育硬件、陪伴宠物等场景。套件提供灵活单/双屏设计、视觉理解及多语言对话能力,并兼容国内外主流大模型,助力开发者快速集成对话式AI功能,缩短产品上市周期。

  • 海尔冰箱联合央视频发起囤鲜挑战

    9月21日,海尔冰箱联合央视视频发起“一台冰箱装下中国百味”挑战。活动首站成都,现场展示科学收纳格局与磁控全空间保鲜科技,实现食材分类精准储存,杜绝串味。挑战难点在于食材种类繁多、保鲜要求苛刻,海尔麦浪冰箱凭借576L大容量、M5分储格局及阻氧干湿分储技术,成功保持各类食材新鲜口感。在火锅宴现场,所有食材经涮煮检验,获一致好评。该冰箱搭载获国家科技进步奖的磁控保鲜科技,满足超3500种食材储鲜需求,为9月26日新品发布会预热。

  • 重新理解「会员模式」

    时至今日,「会员」在商业世界里已不是什么新鲜事。 电商有会员、商超有会员、品牌有会员、视频网站有会员、社交媒体有会员……无论是阿里、京东,还是美团,各家平台对于会员的投入越来越明显和坚决。但不得不承认的是,就像“看电影时所有观众全都站了起来”的“剧院效应”,普通用户对于会员的价值感却在下降。 当“加入会员”成为常态,会员好不好、值不�

  • 月流水上涨数倍、多品类爆发,AI产品在移动端越来越赚钱?

    近日,Sensor Tower 发布《2025年 AI 应用市场调查报告》,报告中提到,移动端 AI 产品 IAP 收入在2025年上半年半年度环比增长率为100%,但具体到产品上,全球 IAP 收入 Top10全部都是 ChatBot,相比于 Web 端的百花齐放,App 端能赚到钱的 AI 原生产品依旧单一。 但如果我们将视角放大,其实在 Chatbot 之外,很多品类借助 AI 实现了收入提升,甚至是数倍的提升。

  • 为Z世代“拼”前途 Leader统帅联合西安交大组 “职趣局”

    9月23日,统帅走进西安交通大学,将“拼文化”延伸至校园,打造“帅粉职趣局——倾听Leader Talk”快闪活动。活动以拼图互动为主线,学生通过趣味任务收集碎片,体验海尔智能产品,并在职业咨询区与学长学姐、HR交流职场发展。现场设有懒人新风空调、悦己冰箱、统帅咖啡机等产品体验区,以及语音互动热水器等创新展示,精准契合Z世代对效率与品质生活的追求。活动不仅深化了品牌与年轻用户的互动,更通过“拼”的形式搭建情感桥梁,助力学生探索自我价值与职业未来。统帅将持续深入高校圈层,与年轻人共创成长。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • 如何正确理解Token经济学?

    去年5月,当大模型厂商卷起价格战时,Tokens大概率是出镜率最高的英文单词。 简单来说,Tokens是大语言模型(LLM)用来切割自然语言文本的基本单位,可以直观的理解为“字”或“词”。 就像工业时代用“千瓦时”度量电力消耗,互联网时代用“GB”度量数据流量,AI时代用“Token”来度量模型的工作量。一个Token可以理解为一个词或词片段(中文里可能是一个字或词语)。

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 延续字节的红书梦,可颂找到新「钩子」

    最近一段时间,我们在日常刷抖音的过程中经常看到带有可颂链接的内容。这些内容往往会通过几张照片或一段视频向大家推荐某一地点的拍照姿势和拍摄角度,并告诉用户如何在可颂找到不同地点的最佳机位攻略。 以机位攻略这一更细的痛点为切口,可颂先解决了用户拍出更好看照片的需求,然后沿着从「工具到社区」的路径,重新找到了一条围绕本地生活场景构建种草社

今日大家都在搜的词: