首页 > 业界 > 关键词  > V-IRL最新资讯  > 正文

港大开发V-IRL平台:将真实世界地图纳入虚拟环境 给AI Agent完整的一生!

2024-03-04 09:15 · 稿源:站长之家

要点:

1. 港大和NYU的研究团队发展了一个名为V-IRL的平台,将真实世界的地图、街景等信息融入虚拟环境,为AI Agent提供了更真实和完整的生活体验。

2. V-IRL平台通过模拟真实世界环境,使智能体能够执行复杂任务,如寻找餐馆、房源、城市规划等,并且能够在不同任务间协作解决问题。

3. 研究人员进行了基于V-IRL的地点识别、视觉问答和导航等基准测试,发现视觉模型在处理多语言图像数据时面临挑战,但平台为AI在现实世界的应用提供了广阔的可能性。

站长之家(ChinaZ.com)3月4日 消息:近日,港大和NYU的研究团队合作开发了一个名为V-IRL的平台,该平台将真实世界的地图、街景等丰富信息融入到虚拟环境中,为AI Agent提供了更真实和完整的生活体验。

这项研究的核心在于构建一个可扩展的平台,利用地理信息和街景图像等API将AI智能体嵌入到真实城市环境中。研究人员使用V-IRL实例化了一系列智能体,它们可以执行各种任务,如寻找餐馆、房源、城市规划等。在这个平台上,智能体之间也可以协作解决复杂问题。

image.png

项目地址:https://github.com/VIRL-Platform/VIRL

此外,研究团队还进行了基于V-IRL的地点识别、视觉问答和导航等基准测试。结果显示,视觉模型在处理多语言图像数据时面临挑战,尤其是在一些地理多样性的城市中,模型的性能不如人意。

然而,这些挑战并没有阻止V-IRL平台为AI在现实世界的应用提供广阔的可能性。通过对不同任务的性能评估,研究人员展示了这个平台在全球视觉数据处理方面语言和视觉模型的广泛应用潜力,为提高AI在理解环境、做出决策和处理现实世界信息方面的能力开启了新的可能。随着空间计算技术和机器人系统的日益普及,AI Agent的需求和应用场景将不断扩大,我们期待着一个能够深刻理解周围世界的智能体时代的到来。

这项研究的意义在于,它将AI智能体从传统的虚拟环境中解放出来,让它们能够在与真实世界相似的环境中进行学习和交互。通过与真实世界的结合,AI Agent可以更好地理解人类行为和需求,从而为各种实际任务提供更准确、更高效的解决方案。同时,这项研究也展示了人工智能在未来城市规划、个人助手、生活辅助工具等领域的巨大潜力,为我们进入智能体时代打下了坚实的基础。

举报

  • 相关推荐
  • 多模态和Agent成为大厂AI的新赛 点

    这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多

  • 多模态和Agent成为大厂AI的新赛点

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 谷歌A2A协议是什么? MCP 和 Agent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 再获权威认可!数势科技上榜IDC中国AI Agent应用市场全景报告

    近日,国际数据公司(IDC)发布的《IDC Market Glance:中国AI Agent应用市场概览,1Q25》(Doc#CHC53057625, 2025 年 3 月)研究报告中,数势科技凭借在企业级智能体应用领域的技术突破,成功入围"数据分析"细分领域代表厂商,成为该赛道智能化转型的标杆企业。数势科技首发企业级决策分析智能体平台SwiftAgent数势科技SwiftAgent 作为基于DeepSeek及行业先进大模型构建的企业级智能决策分�

  • 刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

    今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。