首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

​DeepMind研发新AI项目Open-X Embodiment,可控制各种类型的机器人

2023-10-07 10:50 · 稿源:站长之家

文章概要:

- Google DeepMind与33家其他研究机构合作,开展了一个新项目,旨在创建通用型AI系统,可与不同类型的物理机器人一起工作,并执行多种任务。

- 他们提出的Open-X Embodiment项目结合了多个机器人类型的数据集和能够跨多种任务传递技能的模型,取得了比传统方法更好的训练效果。

- 研究人员基于Transformer深度学习架构开发了RT-1-X和RT-2-X模型,这些模型在各种任务中表现出色,对机器人领域的研究具有重要意义。

近日,Google DeepMind与33家其他研究机构合作推出了一个令人瞩目的新项目,旨在解决机器人领域的一个重大挑战:为每个机器人、任务和环境训练机器学习模型所需的巨大工作量。这个项目的目标是创建一个通用型AI系统,能够与不同类型的物理机器人协同工作,并执行多种任务。

Google Robotics的高级软件工程师Pannag Sanketi表示:“我们观察到,机器人通常擅长专业领域,但在通用性方面表现较差。通常情况下,您必须为每个任务、机器人和环境训练一个模型,更改一个变量通常需要从头开始。”

为了克服这一挑战,他们推出了Open-X Embodiment项目,引入了两个关键组成部分:一个包含多个机器人类型数据的数据集,以及能够在广泛任务范围内传递技能的模型系列。研究人员将这些模型在机器人实验室和不同类型的机器人上进行了测试,在训练机器人方面取得了卓越的结果,相比于传统方法,表现出更高的成功率。

这个项目的灵感部分来自于大型语言模型(LLMs),它们在大规模通用数据集上训练时,能够匹敌甚至胜过在狭窄任务特定数据集上训练的小型模型。令人惊讶的是,研究人员发现这一原则同样适用于机器人领域。

为了创建Open X-Embodiment数据集,研究团队收集了来自20个不同国家的22种机器人实体的数据,数据集包括超过500种技能示例和150,000个任务示例,总计超过100万个事件(事件是机器人每次尝试完成任务时执行的动作序列)。

与此数据集相配套的模型基于Transformer深度学习架构构建。RT-1-X是基于Robotic Transformer1(RT-1)构建的,它是一个用于实际机器人领域的多任务模型。RT-2-X则是基于RT-1的继任者RT-2构建的,它是一个视觉-语言-行动(VLA)模型,学习了来自机器人和Web数据的知识,可以响应自然语言指令。

研究人员在五个不同的研究实验室中使用五种常用的机器人对RT-1-X进行了各种任务的测试,结果表明,与为每个机器人专门开发的模型相比,RT-1-X在任务中表现出了50%更高的成功率,如拾取和移动物体以及打开门等。该模型还能够将其技能推广到不同的环境,而专门的模型适用于特定的视觉环境。这表明,在多种任务中,基于多样示例训练的模型表现出色。根据论文,该模型可以应用于各种机器人,从机械臂到四足动物。

RT-2-X在新任务和紧急技能方面比RT-2成功率高出三倍,尤其在需要空间理解的任务方面表现更好,例如区分在布料附近移动苹果和将其放在布料上的任务。

image.png

研究人员计划进一步研究如何将这些进展与DeepMind开发的自我改进模型RoboCat的见解相结合,RoboCat可以在不同的机械臂上执行各种任务,并自动生成新的训练数据来提高其性能。

他们已经开源了Open X-Embodiment数据集和RT-1-X模型的小版本,但没有开源RT-2-X模型。他们相信这些工具将改变机器人的训练方式,加速研究进展,促进机器人相互学习,以及研究人员之间的知识交流。机器人领域的未来在于使机器人能够相互学习,让研究人员互相学习。

举报

  • 相关推荐
  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • INDEMIND三目AI避障-脏污检测模组,扫地机器人的“全能副手”

    文章介绍了扫地机器人避障技术的最新发展。传统避障方案(ToF、线激光、视觉)各有优劣,而"激光雷达+视觉"组合成为高端机型标配,因其能精准识别拖鞋、线缆等复杂障碍物。随着智能化需求升级,INDEMIND创新推出三目AI避障-污渍检测模块,融合立体视觉避障、AI物体识别、高精度污渍检测及彩色视频传输功能。该模块具备1.5米避障距离、40+类物体识别能力,污渍检测准确率超95%,且计算资源占用极低,可无缝替代现有方案,为扫地机器人提供"智慧之眼"和"敏锐嗅觉",推动清洁设备向智能化、精准化方向发展。

  • 周鸿祎与机器人PK球技:带球突破 被机器人抢断

    近日,世界机器人大会现场迎来一场别开生面的“人机对决”——360集团创始人周鸿祎现身加速进化机器人展台,亲自下场与机器人展开1V1足球大战,以球技较量科技实力,引发现场观众阵阵喝彩。 根据现场拍摄的视频画面,这场人机足球赛战况异常激烈。比赛伊始,周鸿祎迅速进入状态,展现出灵活的盘带技术,在绿茵场上灵活穿梭,甚至一度险些晃过面前的机器人对手,

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • 周鸿祎和机器人擂台打拳:红衣教主一拳、一脚放倒机器人

    在2025世界机器人大会现场,360集团创始人周鸿祎与宇树一款拳击机器人上演了一场趣味对决。 网友拍摄的视频显示,周鸿祎直接零帧起手,上去就抱着机器人,右腿一个反向绊,直接一脚将机器人放倒。 等待几秒后,拳击机器人一个腰马合一成功起身,并摆出了拳击动作,周鸿祎和它碰手后,机器人快速使出了一套连环招,动作铿锵有力,周鸿祎有些吃不准它的实力,选择

  • 起猛了 看到“兵马俑”跳舞了:人形机器人“光子”惊艳亮相

    ​2025年世界人形机器人运动会赛事正酣,8月15日,一场别开生面的群体舞蹈赛吸引了全球目光。来自武汉的人形机器人“光子”凭借出色表现,一举夺得该赛事冠军,成为赛场上的耀眼明星。 在这场比赛中,9台由光谷东智精心研发的“光子”人形机器人与一名专业舞者携手共舞,演绎了经典曲目《秦俑魂》。舞者身着华服,饰演威风凛凛的“将军俑”,而“光子”机器人则�

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • 智元四足机器人 D1 系列重磅发布 ,同步上线智元商城开售

    智元机器人8月18日发布三款四足机器人产品:D1Pro(文娱商演)、D1Edu(教育科研)和D1Ultra(工业级应用)。D1Pro主打轻量化(15kg)与高动态性能,可实现3.7m/s奔跑、35cm跳跃及2小时续航;D1Edu配备标准化接口支持二次开发,适配复杂地形教学研究;D1Ultra具备IP54防护和2kW/kg功率密度,支持8kg负载及恶劣环境作业,集成360°监控与智能识别功能。全系列产品已登陆电商平台,覆盖消费级到工业级应用场景,加速四足机器人产业化进程。

  • 谁在往“DeepSeek们”的回答里塞广告?

    AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝…… 从数据来看,头豹研究院数据显示,全球AI搜索的用户量从2024年1月的3.1亿增长至2025年2月份的19.8亿,增长率达538.7%。 而当AI在日常工作和生活中越来越成为不可或缺的工具,变化正悄然发生。当DeepSeek的回答里频繁�

今日大家都在搜的词: