首页 > 传媒 > 关键词  > 具身智能最新资讯  > 正文

RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

2025-12-04 14:36 · 稿源: 站长之家用户

具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge 之所以被认为更加客观,是因为其采用了 “任务成功率 + 进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。

π0测试结果

π0.5测试结果

相比之下,自变量的wall-oss-flow 在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。

wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge 的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0 和 π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 贾跃亭:FF首批具身智能机器人2月4日发布

    法拉第未来(Faraday Future,简称FF)日前宣布全面启动全球EAI产业桥梁战略,正式推出具身智能机器人业务板块,形成EAI汽车与EAI机器人双轨并行的全新发展格局。 公司创始人贾跃亭今日通过社交媒体预告,FF将于2月4日在美国拉斯维加斯举行的NADA北美汽车经销商大会上,完成首批具身智能机器人产品的终极发布并同步开启销售,此举标志着FF正式切入机器人赛道。

  • 机器人同事上线,打工人们该让位了?

    2026刚开年,打工人就迎来一则足以击穿心理防线的重磅消息:“全球首个全自主人形机器人Atom在深圳影院上岗,无需人工辅助便可独立完成爆米花订单的全链条服务,单日连续工作14小时零失误,完成超1000杯爆米花制作与售卖,具备自主应对突发状况能力。” 这是机器人首次在复杂商业场景中完全自主运行的技术应用突破,甚至被媒体誉为“有望逐步替代重复性劳动,给服�

  • 马斯克:机器人3到4年内完胜人类医生

    特斯拉CEO埃隆马斯克在近期一次长达173分钟的播客对话中预言,其公司旗下的人形机器人Optimus(擎天柱)将在未来三年内,在手术操作领域全面超越顶尖人类外科医生。 这一预言并非简单指向机器人取代医生”,而更意味着医疗供给模式可能迎来根本性变革。 在与奇点大学创始人彼得迪亚曼迪斯等人对谈时,马斯克指出,Optimus的核心优势在于两点:一是极致的操作精准度�

  • TOP20唯一机器人之眼,奥比中光再登胡润中国AI50强

    1月19日,胡润研究院发布《2025胡润中国人工智能企业50强》。奥比中光凭借在机器人与AI视觉领域的领先优势,入选榜单TOP20,成为该梯队中唯一的机器人视觉企业。这是胡润研究院第二次发布该榜单,聚焦于主营业务为AI算力或算法的中国企业,奥比中光也已连续第二年登榜。《2024胡润中国人工智能企业50强》显示,奥比中光位列TOP25。 胡润表示,在A股、港股、美股,人工智�

  • 从能听会说的芙崽到能看会动的机器人,声网对话式AI能力再进阶

    在CES2026期间,声网联合博通集成发布了基于BK7259芯片的“R2全场景AI机器人开发套件”。该套件在R1基础上新增本地视觉识别与处理能力,支持人脸跟踪、手势识别等功能,实现从“能听会说”到“能看会动”的跨越。R2还支持多自由度运动控制,结合视觉与语音功能,助力机器人完成富有生命感的交互。陆吾智能旗下“陆卡卡”作为桌面机器人标杆产品同步亮相。R2套件提供一站式解决方案,覆盖教育、办公、家居、穿戴等多场景,旨在降低开发门槛,推动端侧AI硬件创新。

  • 普渡机器人发布轻载重工业配送机器人PUDU T150 ,拓宽工业自动化应用边界

    普渡机器人于2026年1月9日在深圳发布轻载重工业配送机器人PUDU T150。该产品专为工业及仓储场景的轻负载物料配送设计,核心负载能力150kg,聚焦快速部署、稳定运行与高性价比,旨在降低中小企业自动化准入门槛,推动轻载物流场景智能化升级。T150提供升降版与标准版,灵活适配不同作业需求,支持快速部署与多机自组网调度,无需改造环境,最快1小时即可稳定运行。产品采用VSLAM+激光雷达融合导航方案,具备360度环境感知与动态地图更新能力,确保复杂环境下可靠避障。操作界面简单易用,支持多种操控方式,并符合工业安全标准,适应高频次作业,提供灵活供电方案,支持近24小时不间断运行。T150完善了普渡工业配送机器人产品矩阵,与T300、T600系列形成互补,覆盖150kg至600kg负载范围,为3C电子、塑料零部件、快消品、美妆、快时尚等领域的小件仓储场景提供针对性柔性物流解决方案。

  • 199元 特斯拉发布第二代人形机器人摆件:1:10打造 20关节灵活可动

    特斯拉中国官网1月20日发布Tesla Bot摆件(生肖盲盒版),售价199元,将于1月21日10:00开售。该摆件以1:10比例打造,由40多个独立零件组成,配备20个关节点,高约18.2厘米,净重25克,高度还原第二代Optimus人形机器人。用户可自由调整姿势,如拜年造型。盲盒内还有10%概率出现神秘嘉宾,可能是马年特别版或神秘好友。特斯拉提醒,产品为静态模型,不含电动功能,内含小零件,存在窒息风险,不适合14岁以下儿童使用。

  • 具身智能新物种!追觅洗衣机携全球首款AI洗护机器人即将登陆CES

    2026年1月6日至9日,CES 2026将在拉斯维加斯举行。追觅洗衣机将携高端旗舰与多元场景的智慧洗护新品矩阵亮相,其中全球首款具身AI智能洗护机器人是重头戏。该产品融合具身智能技术与家庭洗衣场景,能通过多模态感知系统精准识别衣物材质、脏污程度,并借助高精度仿生机械臂实现柔性抓取与自适应操作,自主完成从识别、分类、洗涤到烘干、折叠、收纳的全流程闭环服务。同时,搭载AI算法的L9洗烘套装等产品也将展示,构建覆盖多元家庭场景的智能洗护产品体系。追觅旨在以创新科技重新定义衣物护理的未来。

  • 2026高交会人工智能产业链展、机器人产业链展招商正式启动

    第二十八届中国国际高新技术成果交易会(高交会)将于2026年11月26日至28日在深圳举办。本届高交会首次以“双馆并行、各自成链”方式,独立呈现人工智能与机器人两大产业板块,标志AI正从“赋能角色”走向“产业主角”,机器人则迈入以具身智能为核心的系统化发展新阶段。展会旨在全面呈现新一代智能技术对产业体系与社会形态的深刻重塑,打造从算法、算力、数据到载体、场景的完整产业闭环,成为全球最具前瞻性的智能科技展示高地。

  • 普渡D5在全球首个机器人登高挑战赛中斩获轮式四足机器人组冠军

    全球首个“机器人登高挑战赛”在广州塔450米户外平台开赛。深圳普渡科技的轮式四足机器人PUDU D5以13秒01的成绩夺冠,大幅领先第二名,并获最佳技术创新奖。比赛在非结构化弧形旋转阶梯上进行,垂直攀升高度达10米,极大考验了机器人的环境适应与运动控制能力。PUDU D5专为复杂户外场景设计,具备强负载与全地形通过能力,可应用于巡检、运输等多场景。此次夺冠验证了其卓越的运动性能与技术实力。

今日大家都在搜的词: