首页 > 业界 > 关键词  > AI最新资讯  > 正文

给AI Agent完整的一生!港大NYU谢赛宁等智能体研究:虚拟即现实

2024-03-03 13:01 · 稿源: 新智元

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。

【新智元导读】近日,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。

怎样能构建更强大的AI Agent?

答案是给他们一个完整而真实的世界。

最近,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人,联合发表了一项新研究:在虚拟环境中模拟现实世界。

图片

论文地址:https://arxiv.org/abs/2402.03310

代码地址:https://github.com/VIRL-Platform/VIRL

项目名称V-IRL,能够弥合数字环境与人类居住的世界之间存在的巨大差距,让Agent在模拟的真实世界环境中执行各种复杂的任务。

V-IRL中的环境数据完全来源于真实世界:地图、地理信息、街景......可以说,V-IRL给了Agent真实而完整的一生。

V-IRL是一个可扩展的平台,利用地图、地理空间和街景图像等API将AI智能体嵌入到地球上的真实城市中。

图片

V-IRL可以作为一个巨大的测试平台,用于衡量开放世界计算机视觉和具身人工智能的进展,具有前所未有的规模和多样性,提供对全球数千亿张图像的结构化访问。

截至2022年5月,仅Google街景就拥有超过2200亿张图像,并且还有许多其他图像和数据来源可以合并以丰富环境。

V-IRL Agent

研究人员使用V-IRL实例化了一系列智能体,他们以其丰富的感知和描述数据为基础,解决了各种实际任务。

图片

比如这个Peng,为了注册为访问学生,需要访问纽约市的几个地方来获得一些文件。

图片

利用地理定位和地图功能,Peng可以沿着最短的路径行走来节约时间:

图片

语言驱动

下面这位Aria,可以搜索附近的餐馆。然后,她综合公众评论,通过GPT-4提出最终建议。

图片

对于上面来自四川的Peng同学,Aria推荐了辛辣的中式联合餐厅Chow House,让他尝到了家的味道。

图片

Vivek是一位房地产经纪人,他使用房地产API在Peng所需的地区和价格范围内寻找潜在的公寓。

图片

图片

Vivek使用GPT-4提供整体评级和伴随推理。他最推荐的是一套性价比高的1居室公寓,每月1986美元,靠近超市、2个公交车站和健身房。

视觉驱动

RX-399,是一个城市辅助机器人。

图片

在下面的演示中,他沿着预定义的城市路线导航,使用开放世界探测器和地理定位模块标记所有垃圾箱。

图片

Imani是一位城市规划师,

图片

她为RX-399设置了穿越中央公园和感兴趣物体的路线,RX-399遍历了这些路线并记录了所有检测到的实例。

在RX-399完成其路线后,Imani会以不同的细节水平分析RX-399收集的数据。

图片

Imani使用RX-399收集的数据对纽约市中央公园的垃圾箱、消防栓、公园长椅进行可视化。上图显示了公园内垃圾箱、消防栓和长凳的一般分布,Imani还可以放大到特定区域。

Hiro是一位经验丰富的旅行者,他使用开放世界检测来寻找餐厅;使用VQA来选择合适的道路;使用地点评论和LLM来决定一个地点是否适合自己。

图片

下面是Hiro在香港的午餐探索:

图片

图片

图片

图片

图片

协作

人类经常通过协作来解决复杂的现实世界任务。将复杂任务拆解为简单的子任务,交给不同领域的专业人士。

所以当Agent自己没办法完成任务的时候,就应该求助。

图片

Ling是个游客,她首先从当地人那里获得路线描述,然后在V-IRL中,Ling可以使用开放世界识别和地图来调整自己的行进路线。

图片

同时,识别街道上的视觉地标有助于GPT-4就转向方向、前进和停止的位置给出正确的决定.

最后一位Diego是礼宾专家:

图片

他不仅会考虑你的身体和精神状态、每项活动的预算,还会预测你在参加每项活动时的状态变化和费用。

他会考虑到V-IRL平台提供的真实旅行时间,并与另一个餐厅推荐Agent合作选择合适的餐饮方案。

图片

当你调整了自己的状态并通知Diego之后,他会立即修改计划以满足要求。

Diego使用迭代计划流程。首先,Diego使用GPT-4为第一项活动创建一个初步计划草案,并将用户的简历、要求和以前的活动纳入工作记忆。

然后,通过分层协调(真实的地理空间/地点信息)、感知估算(活动成本和对人类状态的影响)和监督(预算和潜在干预)对草案进行细致完善。

系统基本原理

V-IRL的分层设计把全球各个真实的城市变成了一个庞大的虚拟空间。在这里,智能体可以被构建出来解决实际任务。

其中,平台是整个系统的基础,为智能体提供了必要的组件和基础架构。

在这之上,智能体能够展现出感知、思考、行动和合作等更高级的能力。

最后,智能体通过这些能力和用户自定义的信息,在针对特定任务设计的运行程序中找到解决问题的方法。

V-IRL基准测试的核心在于它能够处理来自真实世界感觉输入的地理上多样化的数据,并且提供了一个便捷的API与谷歌地图平台(GMP)进行交互。

基于此,研究人员构建了三个V-IRL基准测试,目的是检验现有视觉模型处理这类开放世界数据的能力。

V-IRL地点:定位

- 动机

人们每天在城市中穿梭,为了各种目的前往不同地点。

因此,可以利用街景图像及其相关的地点数据,来测试视觉模型在日常地点定位任务上的表现。

- 设置

研究人员对RX-399智能体进行了微调,使其能够在定位和识别20种地点类型的同时,穿越多边形区域。

测试共包含三种知名的开放世界检测模型:GroundingDINO、GLIP和Owl-ViT。

此外,研究人员还设置了一个简单的基准模型——CLIP(结合GLIP提案),即使用CLIP对GLIP提出的分类进行重新分类。

模型的评估依据是定位召回率,即正确定位的地点数与总定位尝试中的地点数之比。

图片

- 结果

由下表所示,开放世界检测器如GroundingDINO、Owl-ViT和GLIP对某些特定地点类型(例如学校、咖啡馆和便利店)是有明显偏好的。

与之相比,CLIP(结合 GLIP 提案)能识别更多种类的地点。这主要是因为对象检测数据集中存在的类别偏差,这些数据集通常只包含有限的词汇。

因此,即便是使用了CLIP进行初始化的检测器,如Owl-ViT,其能识别的词汇范围也会在微调之后缩小。

这些发现表明,对于那些在对象检测数据集中不太常见的类别,使用不依赖于特定类别的对象提案,进而利用零样本识别技术进行开放世界定位,是一种很有潜力的方法。

图片

V-IRL地点:识别与视觉问答

- 动机

相较于在街景图像上进行的复杂的V-IRL地点定位任务,人们在现实生活中可以通过近距离观察来轻松识别各种商业场所。

鉴于此,研究人员对现有的视觉模型在两种以地点为主的图像感知任务上进行了评估:

(1)识别具体的地点类型;

(2)通过视觉问答来识别人类的意图,也就是意图VQA。

- 设置

在识别方面,研究人员评估了10种开放世界识别模型。测试使用的是以地点为中心的图像,而模型需要从96个选项中识别出地点类型。

图片

在意图VQA方面,研究人员还评估了8种多模态大语言模型(MM-LLM),方法是通过包含有4个选项的多选题来判断人类的可能意图。

V-IRL地点VQA的过程如下图所示,其中每个问题的可能答案和正确答案都是由GPT-4自动生成的。

- 结果

如下表所示,在V-RL地点识别任务中,CLIP(L/14@336px)的表现超过了Eva-02-CLIP和SigLIP的最大版本,凸显了CLIP数据的质量之高。

表格的底部显示,在意图VQA方面,BLIP2、InstructBLIP和LLaVA-1.5表现优异,而其他模型则表现不佳。

可以看到,这三个表现最好的MM-LLM在评估过程中给出了一致的答案,而其他模型因为选择不一致而常常失败。

V-IRL视觉语言导航

- 动机

Intentional Explorer和Tourist智能体想完成复杂的任务,就必须要同时利用视觉和语言模型。

因此,研究人员通过引入结合了真实街景的新任务,创建出了V-IRL视觉语言导航(VLN)基准测试。

- 设置

研究人员微调了Tourist智能体的实现方式,将其识别组件替换为了不同的基准测试模型,负责在导航过程中识别视觉地标。接着,GPT-4会根据识别的结果预测下一步动作。其中,导航指令由Local智能体生成。

这里,研究人员共评估了四种方法在导航时识别地标的能力:

(1)通过搜索附近地标的近似方法;

(2)零样本识别器CLIP和EVA-02-CLIP;

(3)多模态大语言模型LLaVA-1.5;

(4)使用OCR模型识别街景中的文本,然后通过GPT解析答案。

- 结果

如下表所示,当使用oracle地标信息时,强大的LLM能够精准地理解导航指令并做出正确的决策,表现令人印象深刻。

但是,当依赖视觉模型从街景获取地标信息时,成功率大幅下降,这说明视觉模型的感知存在误导,影响了LLM的决策。

在这些识别器中,CLIP和EVA-02-CLIP的大规模版本表现更为出色,凸显了模型scaling的优势。

LLaVA-1.5作为视觉编码器使用CLIP(L/14@336px)时表现不佳,可能是因为在指令微调过程中存在对齐问题。

另外,PP-OCR(+ GPT-3.5)的成功率为28%,体现出OCR对于视觉地标识别至关重要。

地理多样性及挑战

V-IRL基准测试涵盖了全球12个不同的城市,进而提供了一个独特的视角,来观察视觉模型在不同地区可能存在的偏差。

正如下方图表所展示的,视觉模型在尼日利亚拉各斯、日本东京、中国香港和阿根廷布宜诺斯艾利斯的表现都不尽如人意。

其中,东京、香港和布宜诺斯艾利斯等城市普遍使用了非英语文字。而拉各斯的街景更是与发达城市相比大相径庭,直接难倒了几乎所有的视觉模型。

这一现象揭示了一个重要的问题:目前的视觉模型在处理包含多种语言的图像数据时面临挑战。

结论

开源平台V-IRL的设计初衷是为了缩小数字世界与真实世界之间的感知差异,让AI Agent能够在一个既虚拟又真实的环境中与现实世界进行交互。

借助V-IRL,智能体可以基于真实的地理信息和街景图片,培养出丰富的感知能力和对环境的理解。

研究人员通过构建不同的示例智能体和开展性能评估,展示了这个平台在全球视觉数据处理方面语言和视觉模型的广泛应用潜力,为提高AI在理解环境、做出决策和处理现实世界信息方面的能力开启了新的可能。

随着空间计算技术和机器人系统的日益普及,AI Agent的需求和应用场景将不断扩大。

从个人助手到城市规划,再到为视力受限者打造的生活辅助工具,我们期待着一个能够深刻理解周围世界的智能体时代的到来。

作者介绍

JihanYang

论文一作Jihan Yang目前在香港大学电子与电气工程学院攻读博士学位,导师是Xiaojuan Qi博士。

在此之前,他在中山大学获得了学士学位,导师是Liang Lin教授和Guanbin Li教授。

此外,他还与Ruijia Xu、Shaoshuai Shi博士、unyu Ding和Zhe Wang博士有着密切的合作。

参考资料:

https://virl-platform.github.io/

举报

  • 相关推荐
  • 大家在看
  • 知了zKnown:致力于信息降噪 / 阅读提效的个人知识助手

    知了 zKnown 是一款 AI-Native 构建的个人知识助手,专注于信息降噪和阅读提效。它通过多端同步、多渠道总结、长文本支持等功能,帮助用户高效地管理和整理信息。产品的主要优点包括:- 多端同步:用户可以在移动app、桌面客户端、网页版、小程序等多个平台同步使用。- 多渠道总结:支持微信公众号、知乎、简书、36Kr、少数派等多个渠道的文章总结。- 长文本支持:最长支持总结3万字的文章内容。- 摘要导出:用户可以将摘要保存到 Notion、Flomo 等平台。- 产品背景:知了 zKnown 致力于通过 AI 技术提升用户的阅读和信息管理效率,适合需要高效处理大量信息的用户。

  • MBox AI Meet:实时转录与会议总结的谷歌会议扩展

    MBox AI Meet是一款免费Chrome扩展,专为Google Meet设计,提供实时转录和自动生成会议总结的功能。它利用AI技术帮助用户在会议中专注于讨论,而无需担心记笔记。该工具通过实时转录捕捉会议的每一个细节,并在会议结束后自动生成总结,确保用户不会错过任何重要信息。MBox AI Meet的隐私优先策略确保会议安全,不存储任何音频或视频内容。此外,该扩展还计划在未来更新中增加更多AI功能,如发言人识别、实时AI助手等。

  • Klee:本地安全AI,保障数据隐私。

    Klee是一款macOS原生的AI助手应用程序,专注于本地处理数据,确保数据安全和隐私。它使用先进的AI技术,如RAG(检索增强生成)和开源大型语言模型,如Llama 3和Mistral,为用户提供高效、智能的笔记、搜索和知识管理功能。Klee的主要优点包括本地运行以保护隐私、支持团队协作、免费使用以及优化的macOS体验。

  • Kipps.AI:快速构建AI助手,提升业务效率

    Kipps.AI 是一个在线平台,允许用户在短短两分钟内构建自己的AI助手,并将其集成到业务中。该平台支持多种数据源,如PDF、Notion、网站链接和文本,用户只需提供这些数据,Kipps.AI 会处理其余部分。它还与常用的工具如GoDaddy、Wordpress、Drupal、Squarespace、Magento和Wix等进行集成,使得用户可以轻松地将AI助手集成到现有的业务流程中。

  • CrossPrism for MacOS:图像识别、标注和关键词生成工具

    CrossPrism for MacOS 是一款专为摄影师设计的图像识别、标注和关键词生成工具。它利用多核 CPU、GPU 和神经引擎,能够识别物种、生成标题和描述,并支持模型训练的可定制性。用户可以在本地自动标注无限量的原始照片,确保所有照片安全地存储在 Mac 上,无需担心云服务中断、数据锁定或文件传输问题。其20多个专家模型可以对从鸟类到地标的各种内容进行分类,并提供新的视角来整理目录和重新发现旧照片。此外,它还支持视频处理、Lightroom 插件、图像质量评估等功能,使其成为一个强大的筛选工具。

  • ZETIC.ai:构建零成本的设备端AI。

    ZETIC.ai提供了一种革命性的设备端AI解决方案,使用NPU技术帮助企业减少对GPU服务器和AI云服务的依赖,从而显著降低成本。它支持任何操作系统、任何处理器和任何目标设备,确保AI模型在转换过程中不损失任何核心功能,同时实现最优性能和最大能效。此外,它还增强了数据安全性,因为数据在设备内部处理,避免了外部泄露的风险。

  • Kerqu.Ai:一站式AI内容生成器,助力跨境电商提升效率。

    Kerqu.Ai是一个为跨境电商卖家提供一站式AI解决方案的平台,整合了先进的AI技术,帮助用户节约成本、提升品牌影响力和销售转化率。产品通过AI技术实现模特换场景、AI图片创作、批量抠图、图片变高清等功能,同时提供一键撰写文案、优化文案和多语言翻译服务,满足多站点经营需求。

  • ReviewHawk:通过分析用户评论,降低用户流失率。

    ReviewHawk是一个专注于分析应用商店评论的工具,旨在帮助企业降低用户流失率,获取用户反馈,从而改善产品。它通过数据驱动的决策和用户满意度分析,帮助企业了解用户真正想要的功能,从而提升用户留存率和产品满意度。

  • Airtable Cobuilder:快速创建与管理数据的应用程序

    Airtable Cobuilder 是一款强大的应用程序构建工具,旨在通过简单的拖放界面和AI辅助功能,帮助用户快速创建和管理数据。它允许用户连接和简化他们最关键的数据,通过可视化数据、自定义视图和集成其他业务工具,提高团队协作和数据管理的效率。该工具特别适合需要高度定制化和灵活性的业务应用场景。

  • Alertfor:追踪网络信息,及时获取答案变化

    Alertfor 是一个在线平台,通过其专有的AQTA (Ask Question Track Answer) 流程,允许用户提交复杂问题,并在网页上寻找最相关的答案。它通过持续追踪提供连续的更新,确保用户能够获得准确且及时的信息。

  • Unskool:家长支持工具,助力家庭教育

    Unskool是一个由家长为家长制作的辅助工具,旨在简化家庭教育过程。它通过去除繁琐的行政工作,让家长能够专注于创造一个丰富的学习环境,让家长和孩子都能茁壮成长。Unskool提供了跟踪、记录和灵感激发的功能,并通过人工智能生成定制的、按需的课程计划,帮助家长更高效地进行家庭教育。

  • AI Generated Diagram:智能生成图表工具

    AI Generated Diagram 是一款利用人工智能技术生成图表的工具。它通过用户输入的提示(prompts)来创建图表,支持多种布局类型,如水平布局(Horizontal)。用户可以通过编辑、配置等操作来调整图表的细节,并支持导出为SVG格式或导出数据。该工具不仅提高了设计图表的效率,还通过AI技术提升了图表的美观度和准确性。

  • Free AI Image Extender:使用人工智能扩展图像边界

    AI Image Extender 是一款利用人工智能技术扩展图像边界的工具,通过生成新内容与现有图像无缝融合,增强图像的视觉延展性。该产品通过先进的AI算法,能够智能识别图像内容并生成自然过渡的扩展区域,适用于需要图像扩展或背景生成的各种场景。

  • Capacities:一个为你的思维打造工作室的APP

    Capacities是一个旨在改善人们思考方式和工作流程的应用程序。它通过使用对象而非传统文件和文件夹来组织信息,帮助用户更直观地理解和连接复杂的信息结构。该应用支持网络化笔记,使用户能够自然地构建信息网络,激发新的创意。Capacities还提供AI助手,帮助用户与笔记中的对象动态互动,并提高写作质量。此外,该应用注重数据安全和隐私保护,符合GDPR标准,数据存储在欧盟的加密服务器上。

  • CLASI:高质量、类人同声传译系统

    CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。

  • image-matting:AI抠图项目,使用开源模型实现图像抠图。

    image-matting 是一个基于开源模型 briaai/RMBG-1.4 的AI抠图项目。该项目旨在通过学习AI技术、GUI开发、前端学习以及i18n国际化等技术,实现本地模型算法的图像抠图功能。它支持单张和批量抠图,用户可以通过拖拽和粘贴的方式快速进行图像处理。项目还提供了打包后的运行文件下载链接,方便用户使用。

  • OnlyPans:AI定制周晚餐计划

    OnlyPans是一个利用人工智能技术为用户提供定制化晚餐计划的应用程序。它通过与用户的简短聊天来了解用户的预算、口味偏好、语言习惯、饮食限制以及日常生活的忙碌程度,然后快速生成符合用户需求的晚餐计划。随着用户使用时间的增长,OnlyPans会不断学习和优化,提供更加个性化的服务。此外,OnlyPans还提供智能购物清单功能,帮助用户避免食品浪费和不必要的紧急购物。OnlyPans注重用户隐私保护,承诺不会出售用户的任何信息。

  • Excel Dashboard AI:将Excel转换为仪表板和报告的AI工具。

    Excel Dashboard AI是一款利用人工智能技术,将Excel数据快速转换为交互式仪表板和分析报告的工具。它通过自然语言处理能力,允许用户以对话形式与数据进行交流,从而迅速获得洞察。产品的主要优点包括快速生成多样化的数据分析维度、自然语言编辑和锁定分析视角、一键生成交互式仪表板、AI解读图表含义以及将仪表板转换为详尽的分析报告等。

  • 清影 AI 视频生成服务:基于 AI 技术生成视频内容的智能服务。

    清影 AI 视频生成服务是一个创新的人工智能平台,旨在通过智能算法生成高质量的视频内容。该服务适合各种行业用户,能够快速便捷地生成富有创意的视觉内容。无论是商业广告、教育课程还是娱乐视频,清影 AI 都能提供优质的解决方案。该产品依托于先进的 GLM 大模型,确保生成内容的准确性与丰富性,同时满足用户个性化需求。提供免费试用,鼓励用户探索 AI 视频创作的无限可能。

  • Tempest AI:无需编码,10分钟构建游戏

    Tempest AI是一个无需编码即可快速构建游戏的平台。它利用强大的AI助手帮助用户从零开始创建游戏,支持动态角色、适应性任务和互动世界。用户可以通过拖放编辑器构建世界,设计游戏机制,并通过故事构建器控制游戏叙事。Tempest AI不仅适合游戏开发者,也适合那些希望探索创意和互动叙事的爱好者。

今日大家都在搜的词: