首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌DeepMind推出RT-2 使机器人更智能

2023-08-01 09:24 · 稿源:站长之家

站长之家(ChinaZ.com)8月1日 消息:谷歌DeepMind宣布了机器人变换器2(RT-2),这是一种首创的视觉-语言-行为(VLA)模型,可以使机器人在没有特定训练的情况下执行新的任务。

AI教师机器人老师

就像语言模型如何从网络规模的数据中学习一般的想法和概念一样,RT-2使用网络上的文本和图像来理解不同的现实世界概念,并将这些知识转化为机器人行为的通用指令。

当这项技术得到改进时,它可以导致具有上下文感知、适应性强的机器人,它们可以根据不同的情况和环境执行不同的任务——而且所需的训练比目前要少得多。

早在2022年,DeepMind就推出了RT-1,这是一个多任务模型,它在13万个演示上进行了训练,并使日常机器人能够以97%的成功率执行700多个任务。现在,使用RT-1的机器人演示数据和网络数据集,该公司已经训练了该模型的后继者:RT-2。

RT-2最大的亮点是,与RT-1和其他模型不同,它不需要数十万个数据点来让机器人工作。组织长期以来发现特定的机器人训练(涵盖每一个对象、环境和情况)对于在高度可变的环境中处理复杂、抽象的任务至关重要。

然而,在这种情况下,RT-2从少量的机器人数据中学习,以执行基础模型中看到的复杂推理,并将所获得的知识转移用于指导机器人行为——即使是它从未见过或被训练过的任务。

“RT-2显示出了改善的泛化能力和超越它所接触到的机器人数据的语义和视觉理解,”谷歌解释说。“这包括解释新的命令并通过执行初级推理来响应用户命令,比如关于对象类别或高级描述的推理。”

谷歌DeepMind的机器人负责人文森特·范霍克(Vincent Vanhoucke)举例说,以前训练一个机器人扔掉垃圾意味着明确地训练机器人识别垃圾,以及捡起垃圾并扔掉它。

但是对于RT-2来说,由于它是在网络数据上进行训练的,所以不需要这样做。该模型已经有了什么是垃圾的一般概念,并且可以在没有明确训练的情况下识别它。它甚至有了如何扔掉垃圾的想法,尽管它从未被训练过采取这样的行动。

当处理内部测试中看到的任务时,RT-2表现得和RT-1一样好。然而,对于新颖、看不见的场景,它的表现几乎提高了一倍,从RT-1的32%提高到62%。

当进步时,像RT-2这样的视觉-语言-行为模型可以导致具有上下文感知能力的机器人,它们可以根据手头的情况在现实世界中执行各种各样的行为,并进行推理、解决问题和解释信息。

例如,企业可以看到的不是在仓库中执行相同重复动作的机器人,而是可以根据对象的类型、重量、易碎性和其他因素以不同的方式处理每个对象的机器人。

根据Markets and Markets的数据,AI驱动的机器人领域预计将从2021年的69亿美元增长到2026年的353亿美元,预期的复合年增长率为38.6%。

举报

  • 相关推荐
  • AI日报:快手KAT-Dev代码模型开源登顶;全球首款IP66防护人形机器人DR02发布;谷歌Chrome即将引入Gemini新功能

    快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%,创国产AI编程里程碑;杭州云深处推出全球首款IP66防护全候作业机器人DR02;谷歌Chrome将集成Gemini引发隐私担忧;学者指控苹果使用盗版书籍训练AI,版权争议再起;Liquid AI发布高效稀疏激活模型LFM2-8B-A1B;苹果拟收购Prompt AI布局智能家居视觉技术;AI伴侣应用泄露4300万条用户隐私对话;西湖大学DeepScientist显著提升科研效率。

  • 宇树机器人与舞蹈家“斗舞” 网友:动作丝滑到像人类!

    近日,舞剧作品《天工开物》在北京天桥艺术中心再次上演。 在舞剧迎来国内巡演的第100场演出的同时,正式宣布启动海外巡演。 而在演出结束后的谢幕环节,宇树科技的机器人作为彩蛋登场,惊艳全场。

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 全民可感可玩可参与!2025北京机器人文化节落幕,昌平区打造沉浸式体验推动机器人产业场景融合

    10月2日,北京昌平举办“FutureBOT未来引力”2025机器人文化节,聚焦“全民可感、可玩、可参与”,通过四大沉浸式未来场景展示机器人技术。活动汇聚多家科技企业,覆盖人形机器人、家庭服务、教育娱乐等领域,推动技术从实验室走向产业应用,促进机器人产业与本地场景深度融合,助力构建国际领先机器人产业集群,彰显昌平区打造北部机器人产学研示范区的决心。

  • 马斯克晒特斯拉人形机器人练功夫:由AI驱动 不是遥控

    特斯拉CEO马斯克近日在社交平台X分享其机器人Optimus学习中国功夫的视频,引发广泛关注。视频中,Optimus能精准识别招式意图并自主做出反击动作,展现环境感知与实时反应能力。马斯克明确表示该机器人由AI自主驱动,非远程操控。网友反应两极,有人赞叹其酷炫,也有人认为AI尚无法完全掌握武术精髓。此外,马斯克曾在内部会议透露,特斯拉计划今年内完成首批Optimus机器人的生产目标。

  • 聚焦“视觉+机器人”!思看科技与艾利特机器人达成战略合作

    9月22日,思看科技与埃利特机器人在苏州签署战略合作协议。双方将聚焦“视觉+机器人”领域,在资源共享、市场拓展、生态共建等方面深化合作,共同推动机器人视觉感知与决策控制、人机交互等关键技术的创新突破。思看科技在三维视觉数字化领域技术领先,埃利特机器人拥有协作机器人全栈自研能力,双方优势互补,致力于在高端制造场景中实现“手眼合一”,赋能行业智能化转型。此次合作标志着两家企业在机器人与视觉融合领域迈出关键一步,未来将共同推动三维视觉与机器人技术的深度协同创新。

  • 金蝶参编工信部机器人行业场景图谱(2025 版)

    工信部印发《场景化、图谱化推进重点行业数字化转型参考指引(2025版)》,聚焦14个行业数字化转型场景图谱。金蝶依托机器人行业数字化实践经验,深度参编机器人行业场景图谱,为行业转型提供参考。该指引以“一图四清单”体系为核心,明确转型路径与四大攻关重点(数据要素、知识模型、工具软件、人才技能)。金蝶通过企业AI平台提供“SaaS+智能体+数据”服务,分步助力制造业企业提升数字化能力,为行业高质量发展注入新动能。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • 京东JDD现场直击:机器人组团踢足球还会叠衣服哄你开心

    9月25日,以“Enjoy AI”为主题的JDDiscovery 2025京东全球科技探索大会在北京开幕。大会通过人形机器人舞蹈、互动体验、足球表演等生动展示,呈现了AI技术的多样化应用场景。优必选、宇树科技等企业带来多款创新机器人,展现了我国在运动控制、仿生外观等领域的突破。京东还展示了其机器人生态布局,涵盖家庭陪护、教育、娱乐等产品。现场观众近距离感受AI技术的魅力,对未来人机和谐共处充满期待。

今日大家都在搜的词:

热文

  • 3 天
  • 7天