首页 > 业界 > 关键词  > 正文

从数字世界迈向物理世界!清华×生数发布成果Vidar,基于视频大模型实现机器人物理操作

2025-07-25 18:32 · 稿源:站长之家首发

在具身智能领域,一个革命性的突破正在改写游戏规则。7月25日,清华大学与生数科技联合研发的Vidar模型,首次让通用视频大模型长出了"手脚",通过少样本泛化能力,实现从虚拟的Dream World到真实世界Real World物理执行的关键跨越。这项创新不仅打破了传统具身智能的数据桎梏,更开创了“虚实互通”的全新范式,有望真正实现具身智能的scaling law。

突破跨本体泛化困境:真正做到“指哪打哪”

作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。

仅用20分钟机器人真机数据,即可快速泛化到新的机器人本体,所需数据量约为行业领先的RDT的八十分之一,π0.5的一千两百分之一,大幅降低了在机器人上大规模泛化的数据门槛。微调后的模型可完成多视角双臂任务,做到“说什么指令,做什么事情”。

image.png

具身数据金字塔

image.png

不同方法所需的真机人类操作数据量

众所周知, 当前主流视觉-语言-动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集。此外,数据收集过程费时费力、成本高昂。这带来了动作数据稀缺和机器人本体不统一两大难题。

image.png

Vidar整体架构:视频扩散模型预测完成指定任务的视频,经过逆动力学模型解码为机械臂动作

Vidar的核心突破是通过解构具身任务的执行范式,将其划分为上游视频预测和下游动作执行的方法,从而充分利用“海量通用视频 - 中等规模具身视频 - 少量机器人特定数据”构成的三级数据金字塔。

其中,视频预测部分通过利用海量视频数据训练的Vidu基座,结合中等规模的具身视频数据对Vidu继续进行预训练,得到新的视频基座模型获得了少样本泛化到新的机器人本体的能力。而下游执行部分,通过学习逆动力学模型(IDM),将视频翻译为对应的机械臂动作,从而实现了视觉-语言模态和动作模态的完全解耦。

视频扩散模型:“预训练+微调”下的精准控制

image.png

视频扩散模型训练范式:将数据转化到统一观测空间,经过具身预训练+微调两个阶段

为让模型更“见多识广”,实现多类型机器人操作的深度融合,灵活适应各种物理环境,清华大学和生数团队创新性地提出了基于统一观测空间的具身预训练方法。这套方法巧妙运用统一观测空间、海量具身数据预训练和少量目标机器人微调,实现了视频意义上的精准控制,主要方法如下:

1.统一观测空间:通过多视角视频拼接,将不同机器人操作时的多视角画面,巧妙地融合成统一分辨率的“全景图”,同时将本体信息、摄像头信息与任务标注一并打包整合,为海量互联网数据提供了共同对话的基础,实现了真正的多维度融合。

2.百万具身数据预训练:以经过互联网规模预训练的Vidu模型为基础,进一步引入75万条涵盖各类双臂机器人操作的数据,持续深度训练,成功炼就了具身视频基座模型。该模型不仅将动作、环境和任务多重先验融会贯通,更练就了一身强大的通用本领与泛化能力。

3.20分钟目标机器人微调:为使Vidar能够适配从未见过的机器人类型,研究团队专门收集了目标机器人20分钟的操作数据集,对模型进行专属微调。通过这一创新训练流程,Vidar就能在目标机器人平台上大显身手,精准理解任何任务指令,并生成出分毫不差的任务执行预测视频。

image.png

具身预训练前后,Vidu2.0基础模型在VBench视频生成基准上的测试结果

在视频生成基准VBench上的测试表明,经过具身数据预训练,Vidu模型在主体一致性、背景一致性和图像质量这三个维度上都有了显著的提升,为少样本泛化提供了有力支撑。此外,团队引入测试时扩展(Test-Time Scaling),使得模型能够“见机行事”,选择更贴近现实的“机器人之梦”,进一步提升了模型在实际应用中的视频预测表现和可靠性。

逆动力学模型:从梦境到现实的“桥梁”

业界目前流行的VLA范式面临机器人动作数据匮乏的严重挑战,为了突破现有具身智能数据被任务“过度捆绑”、难以做大的瓶颈,团队提出了任务无关动作(Task-Agnostic Action)的概念,这个概念不仅是从具身基座模型中解耦动作的关键一步,更一举带来三大好处:(1)数据好采集,规模化愿景成真;(2)跨任务、甚至零样本任务都能轻松泛化;(3)告别人类监督、标注和遥操作,省心省力。

基于这个“任务无关数据”的概念,团队提出了:

自动化规模化收集任务无关动作数据的方法ATARA(Automated Task-Agnostic Random Actions):对于一个从未见过的机器人,利用全自动化任务无关动作数据的方法收集训练数据,仅需10小时无干预自动化采集该机器人的动作数据,即可实现该机器人的全动作空间泛化,彻底告别跨本体问题

超高精度预测逆动力学模型AnyPos进行动作执行:AnyPos提出Arm-Decoupled EstimationDirection-Aware Decoder,让模型在自动化采集的数据上训练出高精度的动作预测模型。

image.png

image.png

自动采集数据方法ATARA和逆动力学模型AnyPos

这种自动化任务无关数据收集与高精度模型训练并重的方法实现了低成本、高效率、高精度的指定机器人动作预测,准确率远超基线51%。在真实世界任务轨迹重放测试中,其成功率直逼100%,相比基线大幅提升33~44%。

image.png

动作预测准确率和重放成功率基准测试结果

image.png

部分重放任务片段

此外,为了让模型更能适应不同背景,团队还提出了掩码逆动力学模型的架构。其能够自动学会“抓住重点”,自动捕捉机械臂相关的像素,实现跨背景的高效泛化。

真机操作实验:成功打通“虚拟-物理”世界

image.png

在16种常见的机器人操作任务上,Vidar取得了远超基线方法的成功率;再细分到类别,Vidar在没见过的任务和背景上的泛化能力尤为突出。以下是一些执行任务的示例,左边是视频模型的预测,右边是实际执行的结果。从中可以看出,Vidar具有较好的指令遵循能力,预测的视频能准确契合任务意图(如从一些红色物体中找到苹果并抓取),同时也能精确完成双臂协作抓取等困难任务。

image.png

Vidar视频预测结果(左)和真机执行结果(右),包含语义理解、双臂协作等复杂任务

此次研究成果显著突破了机器人在多任务操作和灵活应对环境变化两方面的能力瓶颈,为未来服务机器人在居家、医院、工厂等复杂真实环境中大展拳脚铺就了坚实可靠的技术基石。这同时也意味着从虚拟世界的算法演练,到真实环境的自主行动,Vidar正在架起这道关键的桥梁,让AI终于能够“脚踏实地”地服务于我们的物理世界。

技术溯源:从视频理解到具身执行的创新路径

Vidar (Video Diffusion for Action Reasoning)是基于在视频大模型领域的系列原创性工作在具身领域的再次创新。Vidar (Video Diffusion for Action Reasoning),在命名上保留技术同源的“生数科技旗下视频大模型Vidu”的前缀,延续雷达(Radar)灵敏的感知隐喻,突出其打通虚实结合的多重能力。

“基于我们的技术理念和统一的基座大模型架构,Vidu与Vidar均致力于解决复杂时空信息的理解与生成。此次推出的Vidar,是全球首个采用多模态生成模型架构解决物理世界问题,并达到该领域SOTA水平的机器人大模型。这不仅彰显了Vidu的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺Vidu在数字世界视频创作中对物理规律的理解与生成能力。二者相互促进,共同推动实现我们的终极愿景:提升所有劳动者(人类、Agent与机器人)的生产力。”

生数科技创始人兼首席科学家朱军教授表示:"我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面,我们正在打造新一代数字内容创作引擎,让AI成为人类创意的延伸;另一方面,我们通过训练具身视频基座模型,实现虚拟与现实的深度交互。"

团队核心成员来自清华大学计算机系TSAIL实验室:冯耀,谭恒楷,毛心怡,黄舒翮,刘国栋,项晨东,郝中楷,苏航(指导老师),朱军(指导老师,通讯作者)

该项目有两位Co-Lead。

一位是清华大学计算机系TSAIL实验室的2023级博士生冯耀(Yao Feng),主要研究方向包括具身智能、多模态大模型和强化学习。作为Vidar的第一作者和Anypos的共同第一作者,在ICML、OOPSLA、IJCAI等顶级会议上发表过多篇论文,曾获中国国家奖学金、全国大学生数学竞赛全国决赛(数学类高年级组)一等奖、叶企孙奖、北京地区高等学校优秀毕业生等荣誉。

image.png

一位是清华大学计算机系TSAIL实验室的二年级博士生谭恒楷(Hengkai Tan),主要研究方向是具身大模型和多模态大模型的融合和强化学习,是FCNet、ManiBox、AnyPos、Vidar的一作/共一,也是RDT具身大模型的作者之一,曾拿过全国青少年信息学奥林匹克竞赛(NOI)的银牌,全国84名。AnyPos和Vidar工作再次延续了团队“将动作解耦出基座模型”的思路,从而朝着泛化的视觉交互智能体迈进一步。

image.png

举报

  • 相关推荐
  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 触觉增强世界模型引关注,一目科技IROS首秀定义机器人感知新维度

    在2025年IROS大会上,中国AI企业一目科技凭借触觉感知与具身智能领域的突破成为焦点。公司展示了全球最薄仿生视觉触觉传感器,厚度大幅缩减,实现0.005N三维力分辨率和120fps输出帧率。CEO李智强提出"视觉-触觉-语言-行动"新范式,指出触觉能捕捉物理世界的隐秘维度。通过创新仿真平台和生成式AI技术,突破传统数据收集限制,显著提升机器人操作技能训练效率。现场机械臂成功演示易碎品抓取等复杂任务,验证了触觉感知在精细操控中的核心价值,为"操控即服务"产业愿景提供技术支撑。

  • 小鹏机器人会走猫步太像人了!小鹏发布新一代人形机器人IRON

    在第七届小鹏科技日上,小鹏汽车发布全新人形机器人IRON,其拟人化程度领先,拥有仿生脊柱、肌肉及柔性皮肤,配备3D曲面显示与灵巧双手,实现22个自由度。搭载3颗图灵AI芯片,算力达2250TOPS,支持对话、行走等智能交互,并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力,实现环境感知与反馈。IRON将优先应用于商业场景,并与宝钢合作探索工业巡检。小鹏宣布开放SDK,邀请全球开发者共建机器人应用生态。

  • “超脑+机器人”重构物流新生态!京东物流“狼族”机器人全阵容亮相世界物联网博览会

    10月31日,世界物联网博览会在无锡开幕,京东物流"狼族"智能机器人军团成为焦点。展会首次完整呈现"超脑+狼族"智能系统,展示天狼四向车、智狼扩展版、自动分播墙等新产品及成熟产品矩阵。系统实现全流程智能作业,分拣准确率超99.99%,存储坪效提升240%,作业人员减少58%。通过仓-站-人高效协同,昆山亚一智能物流园已实现近半数订单由机器人处理。京东物流计划未来5年采购300万台机器人,持续强化智能供应链技术底座,推动行业向科技驱动转型。

  • 何小鹏回应机器人IRON里是真人质疑:感谢认可

    在第七届小鹏科技日上,小鹏汽车自主研发的人形机器人IRON首次亮相,其逼真步态引发网友惊叹“100%真人在里面”。面对质疑,董事长何小鹏以“感谢认可”巧妙回应,展现技术自信。IRON采用类人“骨骼-肌肉-皮肤”结构,搭载仿生肌肉驱动系统和22自由度拟态双手,能精准感知环境变化。团队历时7年研发,计划明年4月进入量产阶段。该机器人还融合物理世界模型体系,集成VLT/VLA/VLM三大核心能力,实现实时环境交互。此次展示既体现小鹏技术积累,也引发对科技真实性的思考。

  • 何小鹏:人形机器人进工厂不划算 做家务不安全

    今日,小鹏汽车发布旗下全新一代人形机器人IRON。 作为最拟人的人形机器人,IRON拥有骨骼-肌肉-皮肤”:仿人脊椎、仿生肌肉、全包覆柔性皮肤、头部3D曲面显示、仿生灵动双肩、实现22个自由度的灵巧手。 据何小鹏介绍,它的猫步走得像人一样轻柔,还拥有像人一样思考的大脑”,它不光是世界上最高算力的人形机器人,明年更会是最聪明的机器人之一。 现场,何小鹏还

  • 何小鹏再回应机器人里藏真人质疑:现场展示内部结构

    小鹏公司研发的人形机器人IRON首秀后引发“真人操控”质疑。为回应舆论,董事长何小鹏不仅发布机器人脱衣视频,更在科技日现场剪开腿部覆盖件,直接展示内部仿生结构。该机器人搭载自研物理世界模型,融合三大核心能力,实现环境感知与实时反馈。目前IRON仍处科研阶段,计划明年4月量产,展现中国科技企业在机器人领域的创新实力。

  • 马斯克称未来人类意识能上传至机器人 可用于月球和火星基地建设

    在2025年11月7日举行的特斯拉年度股东大会上,埃隆马斯克系统阐述了公司在人形机器人、自动驾驶、芯片研发与生产扩张等方面的战略规划,并更新了企业使命,展现出将技术愿景转化为现实应用的清晰路径。 马斯克指出,随着Neuralink等脑机接口技术的发展,人类有望在20年内实现将意识快照”上传至特斯拉人形机器人,使其具备类人意识。 人形机器人将被部署于月球与火�

  • 女性人形机器人里藏真人?何小鹏回应:并亲自证清白

    小鹏汽车董事长何小鹏发布视频,回应网友对Iron机器人流畅步态真实性的质疑。视频中,团队通过一镜到底展示机器人行走,并解开上衣拉链展示内部机械结构,证明无人操控。何小鹏解释机器人模拟肌肉结构,头部为麦克风阵列,行走时伴有电机声。他透露团队七年研发成果,目前仍处科研阶段,计划明年4月实现软硬件量产。

今日大家都在搜的词: