首页 > 传媒 > 关键词  > Figure最新资讯  > 正文

端到端VLA是具身智能的曙光吗?这项被Figure AI带火的关键技术有中国团队更早提出并应用

2025-03-03 15:25 · 稿源: 站长之家用户

Figure AI 在与 OpenAI 终止合作后,果然发布了大新闻,这家人形机器人公司从外接大模型的方式,转入本地具身大模型来完成机器人的感知、交互与操作,充分展现了本体具身大模型与外接互联网大模型的优势。

根据 Figure AI 有限的技术分享,他比较新推出的 Helix 系统是基于视觉-语言-行动(VLA)端到端整体架构演进的一套快慢系统。

借助 Helix,Figure AI 将端到端 VLA 模型运行到自家的双足人形机器人 Figure 02 上,实现了面向场景任务的泛化性。

在 Figure AI 官方展示视频中,机器人一边用头部追踪手部,一边调整躯干姿势,同时能够比较准确抓取物体。

这种多自由度协调在高维动作空间中相当挑战性,而 Helix 可以做到美好平衡。

究其本质,Helix 是一个能够对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA 模型,作为 Figure AI 的比较优秀大脑,它完成了所有事情:

像人类一样用眼睛观察、用耳朵听、用手操作,并在没有特别训练的情况下完成全新的任务,有准确的控制能力。

这在视频中得到了充分展现:Helix 驱动的机器人成功抓取数千种新物体,仅需一句「拿起 [X]」,当指令为「拿起沙漠物品」时,它能识别玩具仙人掌并完成抓取。

「Helix 表现出了强大的物体泛化能力,只需用自然语言询问,就能捡起数千种形状、大小、颜色与材料特性各异的新奇家居用品,而这些物品在此前的训练中从未见过。」Figure AI 的创始人兼 CEO 布雷特·艾德考克认为。

Figure AI 此番高举高打的端到端 VLA 架构,实际在硅谷也是非常新的技术。

伯克利机器人行业的优质团队创办的 PI,在 2024 年 6 月、10 月分别发表了 OpenVLA、PI-0,奠定了端到端 VLA 的圣杯标准,当时获得极大反响。

但这个技术不只是硅谷优质团队的专利,中国科研力量也在端到端 VLA 舞台上展露过实力。

2024 年 6 月,比 PI 早发表的,针对操作机器人的 RoboMamba 端到端具身大模型,由北大,智平方等合力推出。

这一模型不仅比 PI 的 OpenVLA 更早公开应用,还在未见任务(Unseen Task)的泛化能力上显著超越 Google 的 RT 系列模型,进一步巩固了中国在大模型原创力上的国际声誉。

这是业界能看到的,仅有初创公司参与的端到端 VLA 工作被国际专家认可。

图注:图源 RoboMamba 论文

图注:论文介绍了一个名为 RoboMamba 的多模态状态空间模型,旨在提高机器人的推理和操作能力,同时保持有效的微调和推理

论文创新性地将视觉编码器与有效的 Mamba 语言模型集成,构建了全新的端到端机器人多模态大模型。

端到端的背后,是对量产的深入理解。在场景多变的情况下,如何用数据驱动的方式完成系统升级迭代,如何对数据,模型结构,训练方法实现系统级别 AI 突破。这些关键问题困住了大量具身智能领域的入局者。

小鹏、OPPO前首席科学家,微软总部研究员,创新领军人才郭彦东,是初次提出端到端 VLA 架构的人,这来自于他在产业、行业多年的深耕积累,以及他在 AI 原创领域的硬核研发能力。依托技术的先发布局,和大量人工智能软硬一体化结合的量产经验,帮助智平方率先做到了这一点,成为国内最早进行真正商业落地的通用智能机器人公司。

本质上,能做好 VLA 端到端的公司具备对大模型前沿技术的硬核创新能力,其间的点滴积累如能应用到整个 AI+硬件行业,会成为相当价值的存在。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • VLA模型打响升维战:理想、元戎启行如何重塑“安心感”

    当前辅助驾驶已实现全国覆盖,但用户从"能用"到"爱用"仍有明显鸿沟。核心痛点在于"安心感不足"——系统决策缺乏解释性、盲区预判能力薄弱、人机交互机械化等问题。理想汽车押注的VLA(视觉-语言-动作)模型通过语言模型增强系统推理能力,能更全面理解交通场景。该模型具备三大功能:空间语义理解可预判盲区风险;异形障碍物识别能应对极端路况;文字类引导牌理解可精准执行车道选择。VLA技术有望解决智驾系统"最后一公里"的信任难题,推动行业从功能覆盖转向体验升级。

  • 大脑协同小脑!小鹏G7行业首发智能驾驶辅助VLA-OL模型

    在今晚举办的发布会上,小鹏汽车首发智能驾驶辅助VLA-OL模型,首款落地车型即为全新G7。 该模型实现从小脑式反射”到 大脑 小脑”认知跃迁,小脑让汽车会开,大脑让汽车开好,如此整车具备主动思考、社会共识理解及自主学习能力。 以运动型大脑”和增强型小脑”,再加上不断自主强化学习的能力,未来将实现智能辅助驾驶能力比行业主流提升10-100倍,消除网络与地域

  • 点猫科技:携手地瓜机器人,共筑具身智能教育新生态

    点猫科技与地瓜机器人开展深度合作,共同打造覆盖K12的具身智能教育体系。通过编程控制机器人完成垃圾分类等实践任务,让学生获得沉浸式AI学习体验。双方整合资源开发了贯穿小学到高中的项目式课程体系,并开展教师AI教学能力专项培训。同时构建多层级科创赛事网络,设立具身智能专项赛道,打通基础教育与高等教育的培养通道。这次合作既是技术革新,也是对AI教育本质的探索,将共同培养具有创新精神的AI人才,绘制具身智能教育新蓝图。

  • 对话智源研究院王仲远:做具身智能的“安卓系统”,而非专用的“iOS”

    大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的AI模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为AI发展的下一个重要方向。 在2025北京智源大会上,智源研究院发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现所谓的物理AGI。这一系�

  • 国际先进!itc保伦股份这项新技术顺利通过中国电器工业协会科技成果鉴定

    5月27日,中国电器工业协会在ITC保伦股份组织召开了"智能超高清视讯系统关键技术研究与应用"项目科技成果鉴定会。该项目由广东保伦电子、华南理工大学等单位共同完成,经专家鉴定整体技术达到国际先进水平。项目攻克了多项关键技术:实现4K60帧超高清视频画质;开发抗30%网络丢包的视频传输技术;创新实时智能语音处理技术等。已获32件发明专利,参与制定2项团体标准。鉴定委员会一致认为项目成果可广泛应用于政府、企业等领域,将有力支持远程视频会议系统建设发展。ITC表示将持续推动国产音视频技术创新发展。

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • WordPress 宣布组建 AI 团队

    作为全球最主流的网站构建平台之一,WordPress 的开源社区开发者早已在尝试使用各种 AI 工具。如今正式组建 AI 团队,标志着……

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 声通科技受邀出席 “智汇前沿” SUES 创新论坛,共探具身智能交叉融合新路径

    2025年6月19日,由中国计算机学会指导、上海工程科技大学等单位联合主办的"智汇前沿"创新论坛在上海举行。声通科技董事长汤敬华发表《交互式AI技术与具身智能》主题演讲,提出可信AI交互是智能发展基石,并分享"多模态+多模型"可信AI架构。论坛聚焦具身智能与交叉创新,探讨AI从感知、生成到具身交互的进化路径。汤敬华指出,继感知智能和生成智能后,具身智能正成为产业升级新引擎,将重塑产业分工模式,推动工业、通信等领域的效率革命。活动汇聚学界业界专家,共同探索智能体协作新范式及人才培养创新模式。

  • Meta整合AI团队实力跃升,OpenAI/微美全息多维技术发展锚定前沿未来

    Meta在AI领域面临激烈竞争,正重组团队加速产品开发。其AI部门将分为产品团队和AGI基础部门,同时保持FAIR研究部门的独立性。OpenAI以65亿美元收购Jony Ive创立的设备公司,计划开发"物理AI"设备。Anthropic发布新一代AI模型Claude Opus4和Sonnet4,在基准测试中击败OpenAI和谷歌。微美全息(WIMI.US)布局AI大模型、人形机器人、AR/VR等多个前沿领域,推动AI从技术突破向价值创造跃迁。全球AI竞争白热化,模型加速融入千行百业,开源整合成为新焦点。