谷歌DeepMind推出RT-2 使机器人更智能

2023-08-01 09:24 · 稿源：站长之家

站长之家（ChinaZ.com）8月1日消息:谷歌的DeepMind宣布了机器人变换器2（RT-2），这是一种首创的视觉-语言-行为(VLA)模型，可以使机器人在没有特定训练的情况下执行新的任务。

AI教师机器人老师

就像语言模型如何从网络规模的数据中学习一般的想法和概念一样，RT-2使用网络上的文本和图像来理解不同的现实世界概念，并将这些知识转化为机器人行为的通用指令。

当这项技术得到改进时，它可以导致具有上下文感知、适应性强的机器人，它们可以根据不同的情况和环境执行不同的任务——而且所需的训练比目前要少得多。

早在2022年，DeepMind就推出了RT-1，这是一个多任务模型，它在13万个演示上进行了训练，并使日常机器人能够以97%的成功率执行700多个任务。现在，使用RT-1的机器人演示数据和网络数据集，该公司已经训练了该模型的后继者:RT-2。

RT-2最大的亮点是，与RT-1和其他模型不同，它不需要数十万个数据点来让机器人工作。组织长期以来发现特定的机器人训练（涵盖每一个对象、环境和情况）对于在高度可变的环境中处理复杂、抽象的任务至关重要。

然而，在这种情况下，RT-2从少量的机器人数据中学习，以执行基础模型中看到的复杂推理，并将所获得的知识转移用于指导机器人行为——即使是它从未见过或被训练过的任务。

“RT-2显示出了改善的泛化能力和超越它所接触到的机器人数据的语义和视觉理解，”谷歌解释说。“这包括解释新的命令并通过执行初级推理来响应用户命令，比如关于对象类别或高级描述的推理。”

谷歌DeepMind的机器人负责人文森特·范霍克（Vincent Vanhoucke）举例说，以前训练一个机器人扔掉垃圾意味着明确地训练机器人识别垃圾，以及捡起垃圾并扔掉它。

但是对于RT-2来说，由于它是在网络数据上进行训练的，所以不需要这样做。该模型已经有了什么是垃圾的一般概念，并且可以在没有明确训练的情况下识别它。它甚至有了如何扔掉垃圾的想法，尽管它从未被训练过采取这样的行动。

当处理内部测试中看到的任务时，RT-2表现得和RT-1一样好。然而，对于新颖、看不见的场景，它的表现几乎提高了一倍，从RT-1的32%提高到62%。

当进步时，像RT-2这样的视觉-语言-行为模型可以导致具有上下文感知能力的机器人，它们可以根据手头的情况在现实世界中执行各种各样的行为，并进行推理、解决问题和解释信息。

例如，企业可以看到的不是在仓库中执行相同重复动作的机器人，而是可以根据对象的类型、重量、易碎性和其他因素以不同的方式处理每个对象的机器人。

根据Markets and Markets的数据，AI驱动的机器人领域预计将从2021年的69亿美元增长到2026年的353亿美元，预期的复合年增长率为38.6%。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌整合 AI 重心，DeepMind 和研究团队合并

谷歌在周四宣布将整合旗下专注于构建人工智能模型的两个内部团队。Alphabet和谷歌CEO桑达尔・皮查伊在公司网站上发布了一篇博客文章，解释了将AI模型构建团队整合到谷歌DeepMind团队内的决定，其中包括来自公司研究部门的团队。公司还将其他责任团队划归到其中央信任与安全团队，公司正在加大对AI测试和评估的投资。

DeepMind AI头条
谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

英国政府最近宣布，谷歌旗下人工智能子公司DeepMind的首席执行官兼创始人之一德米斯·哈萨比斯因其在人工智能领域的杰出贡献被授予爵士爵位。此举反映了英国对人工智能发展的重视，并表彰了哈萨比斯在推动人工智能技术进步方面所做的努力。随着人工智能在全球范围内的迅速发展，英国政府希望将自己置于该领域的前沿，并表彰那些在推动人工智能技术发展方面做出卓越贡献的人士。

人工智能 DeepMind 英国政府
荐「有效上下文」提升20倍！DeepMind发布ReadAgent框架

【新智元导读】模仿人类阅读过程，先分段摘要再回忆，谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能，有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力，但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P，性能改进的代价是检索阶段的请求数量增加了六倍。

DeepMind ReadAgent
微软任命前 DeepMind 专家负责伦敦人工智能中心

站长之家（ChinaZ.com）4月9日消息:微软宣布在伦敦开设一个以前 Google DeepMind 研究人员领导的人工智能研究和开发中心。该中心将专注于推动这家软件巨头不断增长的机器学习工具组合。微软与 OpenAI 的长期合作已将人工智能整合到各种产品中，包括 Windows、Bing、Github 和 Office365。微软已经投入数十亿美元支持 OpenAI 模型的发展，但据报道，将这些投资转化为盈利仍面临困难，例�

微软 DeepMind AI头条
DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

谷歌的AI业务负责人表示，该公司将在未来投入超过1000亿美元开发人工智能技术，这是硅谷正在进行的投资竞赛的又一迹象。在温哥华举行的TED大会上，谷歌DeepMind首席执行官DemisHassabis被问及有关微软公司和OpenAI正在规划的一台名为“星门”的潜在价值1000亿美元的超级计算机的问题。”OpenAI的ChatGPT引发的全球兴趣表明，公众已经准备接受人工智能系统，即使这些系统仍然存在缺陷和错误。

DeepMind 谷歌AI AI头条
DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind发布了一种名为Gecko的文本嵌入模型，专注于文档检索、语义相似度和分类等多种任务。文本嵌入模型在自然语言处理中扮演着重要角色，通过将文本转换为高维向量空间中的向量表示，实现捕捉文本的语义信息。Gecko的出现为改善信息检索系统提供了一种强大的替代方案，同时在分类、STS和摘要方面也达到了新的SOTA水平。

Gecko DeepMind AI头条
DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

【新智元导读】AI在学会工作之后，终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理，能够在多种视频游戏设置中执行任务，未来甚至可能可以与任何虚拟环境进行互动。谷歌DeepMind在AI和游戏方面有着悠久的历史。SIMA只是刚刚开始，我们可以期待在更多的训练环境中继续建立SIMA，并整合更有能力的模型，让它变得更具泛化性和多功能性不仅仅局限于游戏。

DeepMind SIMA
INDEMIND机器人导航解决方案，让开发更简单，让机器人更高效

随着机器人进入到越来越多的生产生活场景中，作业任务和环境变得更加复杂，机器人需要更精准、更稳定、更智能、更灵敏的自主导航能力。自主导航技术作为机器人技术的核心，虽然经过了多年发展，取得了长足进步，但在实践过程中，依然面临较多难题，如面对特殊障碍物难以避障、复杂场景精度降低稳定性下降、智能交互支持不足等问题，且地图构建大多仍为传统的2D栅格地图、拓扑地图，缺乏机器人用于理解环境、人机交互等业务的高层次语义信息。结合INDEMIND提供成熟的硬件参考设计和量产设计服务及相对成熟的作业单元技术，整机从立项到量产最快可以控制到2个月以内，大大降低企业的研发周期和投入成本。

自主导航技术智能机器人高层次语义信息
Quora 旗下 Poe 推出多机器人聊天功能，计划推出企业版

人工智能聊天机器人平台Poe由问答网站Quora推出，近期迅速扩展，旨在成为用户访问各种对话AI模型的一站式平台。Poe最新的重要功能是“多机器人聊天”，允许用户在单个对话线程中同时与多个AI模型交互。各行各业的公司都应密切关注Poe，并考虑对话AI可能如何在未来几年重塑他们的业务。

Poe 机器人聊天 AI头条
MeMenteeBot ：能听懂人话并通过观察自我学习的机器人

MeMenteeBot是一款具有革命性功能的机器人，它能理解人类口头指令，并通过视觉模仿进行自我学习。这款机器人的先进之处在于其端到端的任务执行能力，它可以接收口头命令，并完成复杂的任务。它的出现标志着机器人技术迈向了一个新的阶段，为未来的机器人应用开辟了无限可能。

MeMenteeBot 机器人 AI头条

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

谷歌DeepMind推出RT-2 使机器人更智能

今日大家都在搜的词：

热文

站长商机