首页 > 业界 > 关键词  > 正文

南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手

2023-11-09 16:51 · 稿源:站长之家

要点:

  • 通过在大量视觉输入和可执行代码的数据对的训练,Octopus 学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。

  • Octopus 通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。

  • 研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。

站长之家(ChinaZ.com)11月9日 消息:南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。

Octopus 具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus,研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。

image.png

论文地址:https://arxiv.org/abs/2310.08588

项目网页:https://choiszt.github.io/Octopus/

开源代码:https://github.com/dongyh20/Octopus

OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境,包含了476个符合现实生活的家务活动,模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》(GTA)游戏,构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus,并通过强化学习算法进一步提升模型的任务规划能力。

为了高效收集训练数据,研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者,通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4,再在仿真环境中执行代码,并判断任务是否完成。如果任务失败,会回到上一步的起始位置重新采集数据。在数据收集过程中,研究者记录了每个子任务的成功情况,为后续引入强化学习提供了基础。

通过在大量训练数据上进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵循固定格式输出的 VLM 模型。然后,他们引入了 RLEF(Reinforcement Learning with Environmental Feedback)来进一步提升 Octopus 的任务规划能力,利用先前采集的子任务的成功情况作为奖励信号。

实验结果显示,经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升,即使面对模糊的任务指令,也能提供更加合理的计划。

综上所述,Octopus 是一种具备视觉可编程能力的智能体,通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力,通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探索视觉 - 语言模型的应用提供了新的思路。

举报

  • 相关推荐
  • 谷歌A2A智能体交互协议是什么?A2A和MCP有什么关系?

    谷歌正式发布名为Agent2Agent的智能体互操作协议,并与Atlassian、Box、Cohere、Intuit、LangChain、MongoDB、Salesforce、SAP、ServiceNow、UKG、Workday等50余家科技企业达成合作,旨在将A2A打造为智能体交互领域的通用标准。此举被业界视为AI生态竞争的关键布局,其战略意义可追溯至10年前谷歌发布Kubernetes时对容器化技术的定义权争夺。谷歌此举不仅为智能体协作提供基础设施,更试图重新定义AI时代的协作范式。

  • 智邦国际一化ERP:企业一智能体成型,重塑企业未来

    近期制造业、轻工业、电子凭证、人工智能等领域密集出台政策,推动企业全方位数智化转型。智邦国际推出"企业一体化+"数智生态体系,以ERP为核心构建全维一体化管理平台,覆盖企业全生命周期各环节。其一体化ERP系统支持30多套软件灵活组合,并集成AI获客、智能客服等创新应用,帮助企业打通内外数据孤岛,实现从数字化向智能化的跃升。该方案通过一站式的数据互通和智能协同,正在成为企业降本增效的新引擎,引领万物互联时代的数智化转型浪潮。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

  • 全球首个!高德发布AI导航智能体 情绪价值拉满

    快科技4月14日,高德地图正式宣布推出全球首个基于地图的AI导航智能体(NaviAgent)。高德表示,AI导航智能体将推动导航由传统出行工具,向会思考、能预判、有温度”的智能出行伙伴蜕变。据技术负责人介绍,传统导航像按剧本演戏,预设路线后便机械执行;而我们的智能体更像经验丰富的老司机,能实时感知路况、预判风险并主动调整策略。”例如,它能提前预判前方路况�

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体

    宝马中国4月27日宣布接入深度求索(DeepSeek)AI大模型,深化本土AI生态布局。这是继宝马与阿里巴巴达成AI大语言模型合作后,再次联手中国科技企业。从今年三季度起,搭载第九代宝马操作系统的多款国产新车将率先应用该技术,通过智能个人助理提升人机交互体验。宝马还计划将DeepSeek功能应用于新一代国产车型。此前3月,宝马已与阿里云合作开发车载AI引擎,双方在上海车展展示了识别率达99%的智能语音交互系统。此次合作将突破车载场景限制,实现车辆与外部世界的智能连接,为用户提供个性化出行体验。

  • 599元起 酷开小C系列投影仪焕新发布:全面搭载酷开智能体

    快科技4月23日消息,日前,酷开举行2025春季发布会,发布超级智能体,宣布全面升级为AI原生企业,并推出影音、健康、生活、设备、创作、教育六大专业智能体及多款智能硬件产品。据了解,酷开小C系列投影仪也迎来焕新,全面搭载酷开智能体,其中C10 SE售价599元、C10售价799元,旗舰款C12售价899元。即使是599元的入门也能体验酷开智能体,将成为酷开AI普惠重要一步。据悉,酷开此次推出的六大智能体分别为影音智能体、健康智能体、生活智能体、设备智能体、创作智能体、教育智能体。其中,影音智能体可实现广度搜索、深度搜索、智能生成三

  • 超聚变数字技术有限公司刘宏云:探索不止,共建智能体时代

    4 月 15 日- 17 日,超聚变探索者大会 2025 在郑州召开。在大会主论坛上,超聚变数字技术有限公司董事长兼CEO刘宏云作《探索不止,共建智能体时代》主题演讲……

  • 华为Pura X重磅升级全新小艺智能体:像人类一样交流

    华为PuraX迎来了重磅升级,在发布上就介绍的全新小艺智能体登场。全新小艺可以通过外屏右滑快捷开启沉浸式对话交互,拥有呼吸感视效,用户可以通过AI外屏与小艺进行沉浸式对话交互。持有PuraX的用户,可通过【应用市场-搜索小艺-点击右边更新”按钮】或【小艺APP-右上角头像我的-设置-关于-小艺-版本信息】手动升级。