首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

​DeepMind研发新AI项目Open-X Embodiment,可控制各种类型的机器人

2023-10-07 10:50 · 稿源:站长之家

文章概要:

- Google DeepMind与33家其他研究机构合作,开展了一个新项目,旨在创建通用型AI系统,可与不同类型的物理机器人一起工作,并执行多种任务。

- 他们提出的Open-X Embodiment项目结合了多个机器人类型的数据集和能够跨多种任务传递技能的模型,取得了比传统方法更好的训练效果。

- 研究人员基于Transformer深度学习架构开发了RT-1-X和RT-2-X模型,这些模型在各种任务中表现出色,对机器人领域的研究具有重要意义。

近日,Google DeepMind与33家其他研究机构合作推出了一个令人瞩目的新项目,旨在解决机器人领域的一个重大挑战:为每个机器人、任务和环境训练机器学习模型所需的巨大工作量。这个项目的目标是创建一个通用型AI系统,能够与不同类型的物理机器人协同工作,并执行多种任务。

Google Robotics的高级软件工程师Pannag Sanketi表示:“我们观察到,机器人通常擅长专业领域,但在通用性方面表现较差。通常情况下,您必须为每个任务、机器人和环境训练一个模型,更改一个变量通常需要从头开始。”

为了克服这一挑战,他们推出了Open-X Embodiment项目,引入了两个关键组成部分:一个包含多个机器人类型数据的数据集,以及能够在广泛任务范围内传递技能的模型系列。研究人员将这些模型在机器人实验室和不同类型的机器人上进行了测试,在训练机器人方面取得了卓越的结果,相比于传统方法,表现出更高的成功率。

这个项目的灵感部分来自于大型语言模型(LLMs),它们在大规模通用数据集上训练时,能够匹敌甚至胜过在狭窄任务特定数据集上训练的小型模型。令人惊讶的是,研究人员发现这一原则同样适用于机器人领域。

为了创建Open X-Embodiment数据集,研究团队收集了来自20个不同国家的22种机器人实体的数据,数据集包括超过500种技能示例和150,000个任务示例,总计超过100万个事件(事件是机器人每次尝试完成任务时执行的动作序列)。

与此数据集相配套的模型基于Transformer深度学习架构构建。RT-1-X是基于Robotic Transformer1(RT-1)构建的,它是一个用于实际机器人领域的多任务模型。RT-2-X则是基于RT-1的继任者RT-2构建的,它是一个视觉-语言-行动(VLA)模型,学习了来自机器人和Web数据的知识,可以响应自然语言指令。

研究人员在五个不同的研究实验室中使用五种常用的机器人对RT-1-X进行了各种任务的测试,结果表明,与为每个机器人专门开发的模型相比,RT-1-X在任务中表现出了50%更高的成功率,如拾取和移动物体以及打开门等。该模型还能够将其技能推广到不同的环境,而专门的模型适用于特定的视觉环境。这表明,在多种任务中,基于多样示例训练的模型表现出色。根据论文,该模型可以应用于各种机器人,从机械臂到四足动物。

RT-2-X在新任务和紧急技能方面比RT-2成功率高出三倍,尤其在需要空间理解的任务方面表现更好,例如区分在布料附近移动苹果和将其放在布料上的任务。

image.png

研究人员计划进一步研究如何将这些进展与DeepMind开发的自我改进模型RoboCat的见解相结合,RoboCat可以在不同的机械臂上执行各种任务,并自动生成新的训练数据来提高其性能。

他们已经开源了Open X-Embodiment数据集和RT-1-X模型的小版本,但没有开源RT-2-X模型。他们相信这些工具将改变机器人的训练方式,加速研究进展,促进机器人相互学习,以及研究人员之间的知识交流。机器人领域的未来在于使机器人能够相互学习,让研究人员互相学习。

举报

  • 相关推荐
  • 告别“木头人”!ROBOMIND让机器人“主动懂你”!

    文章探讨了家用陪伴机器人从“被动响应”向“主动服务”的转变。当前多数产品仍停留在“你说一句,我做一步”的阶段,缺乏感知决策能力,无法理解用户深层需求。其技术瓶颈在于依赖预设程序,缺乏自主感知环境、理解需求并做出判断的能力。为解决此问题,INDEMIND推出了ROBOMIND机器人物理AI大脑,旨在赋予机器人全局空间智能,使其能主动感知环境动态、理解用户行为、洞察需求本质,并自主触发服务流程。通过“端侧+云端”混合架构,实现低成本、快响应、高泛化。在实际应用中,该技术已能实现养老守护、儿童陪伴、宠物照料、家庭管理等场景的主动服务,并深入情感交互层面,推动机器人从高效工具向具有亲和力的“伙伴”蜕变。其核心价值在于找到用户真实痛点,作为家庭关系的有价值补充,为家人创造更多高质量相处时间。

  • 加速具身机器人落地!INDEMIND携消费级具身大脑硬核亮相DDC2025

    11月21日,INDEMIND在DDC2025开发者大会上展示了搭载ROBOMIND机器人物理AI大脑的陪伴机器人平台。该平台采用“端侧+云端”混合架构,赋予机器人全局空间感知、认知、交互与决策全栈能力,具备低成本、快响应、高泛化等优势,能高效完成导航、多模态交互及空间理解等任务。这是业内首次将大模型级推理决策能力落地为消费级可交互机器人形态,标志着具身机器人发展进入新阶段。INDEMIND未来将持续深耕空间智能技术,推动产业成熟与普及。

  • 自变量机器人CEO王潜:让通用机器人真正走入千家万户

    深圳初创公司自变动机器人成立不到一年半融资超20亿,背后是阿里、美团等巨头重注。创始人王潜是清华学霸,曾参与奠定Transformer架构的注意力机制研究。公司采用“端到端大模型”技术路线,其WALL-A模型能完成拉拉链、叠衣服等复杂操作。王潜认为家庭是机器人最大市场,预计3-4年会出现早期产品,商业化路径从To B切入逐步延伸至To C。尽管进展显著,他清醒认识到通往通用机器人的道路上仍充满挑战。

  • 普渡机器人发布行业级四足机器人PUDU D5系列, 引领多形态具身智能发展

    12月3日,普渡机器人发布新款行业级自主导航四足机器人PUDU D5系列。该产品专为复杂、非结构化及大面积户外环境打造,具备超强算力自主导航、多模态交互、全地形通过能力及IP67级防护,可在巡检、运输、勘探等任务中稳定运行。D5系列提供点足和轮足两个版本,满足不同需求。其高算力双芯架构、全方位高精度感知系统及仿生轮足融合设计,使其能在崎岖地形、恶劣天气等极端条件下可靠作业,精准填补了户外及工业非标场景的应用空白。

  • V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了

    ​就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中抛出一个重磅观点,过去五年的“age of scaling”正在走到头,预训练数据是有限的,单纯用更多GPU堆更大模型,哪怕再放大100倍,也未必能带来质变。所以我们又回到了以研究为核心的时代,只不过这次有了巨大的算力”,这一表态被视作对Scaling Law撞墙论的强力佐证。 然而仅过了几天,12月1日,DeepSeek用V3

  • 智元机器人正式推出灵心平台 支持机器人个性化订制

    智元机器人近日推出灵心平台,主打零代码操作理念,大幅降低用户使用门槛。用户无需编程基础,通过拖拽和点选即可定制机器人声音、行为、人格及任务流程。平台内置超3000款预置音色,支持声音复制功能,可上传录音生成相似语音。行为设计上支持自由组合表情、动作与语音,实现生动互动。机器人具备记忆与学习能力,记录用户偏好以优化交流。企业用户可上传资料�

  • 普渡机器人携手亚朵集团,以机器人技术引领酒店服务新纪元

    近日,普渡机器人与亚朵集团达成合作,其楼宇配送机器人“闪电匣”正式上线亚朵供应商库,成为亚朵酒店智能化升级的重要伙伴。该机器人具备自主导航、精准避障、智能乘梯等功能,可完成从酒店前台至客房的全流程无人化配送,并与智能货柜系统整合,实现“即选即送”的闭环服务。双方将共同探索酒店服务流程重构与人机协同优化,推动行业数字化、智能化转型,为住宿产业带来创新解决方案。

  • DeepSeek同时发布两个正式版模型:DeepSeek-V3.2系列发布

    今日,DeepSeek正式推出V3.2系列模型,包含标准版DeepSeek-V3.2与长思考增强版DeepSeek-V3.2-Speciale。此次更新不仅在推理性能上实现重大突破,更通过创新性技术架构重新定义了开源模型的能力边界。 目前,官方网页端、移动应用及API服务已全面升级至V3.2标准版,而Speciale版本则以临时API形式开放供学术研究使用。 DeepSeek-V3.2在平衡推理效率与输出质量方面

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • 特斯拉发布人形机器人跑步视频:Optimus刷新了个人纪录

    特斯拉CEO马斯克12月3日转发擎天柱团队发布的机器人跑步视频,引发关注。视频中擎天柱动作流畅自然,但时长仅4秒。团队称刷新了个人纪录。此前马斯克曾展示机器人执行任务视频,并称机器人将提升全球财富,让工作从必需变为可选。特斯拉11月宣布人形机器人试产线已在弗里蒙特工厂运行,第三代生产线计划2026年建成投产。公司表示规模化生产后,每台成本将控制在2万美元以内。

今日大家都在搜的词: