南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手

2023-11-09 16:51 · 稿源：站长之家

要点:
通过在大量视觉输入和可执行代码的数据对的训练，Octopus 学会了如何操控电子游戏的角色完成游戏任务，或者完成复杂的家务活动。
Octopus 通过视觉输入学习、理解真实世界，并以生成可执行代码的方式完成各种实际任务，具备了规划推理和根据实时环境做出反馈的能力。
研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境，提供了可用于训练和测试 Octopus 的场景，并开发了数据收集系统来高效获取训练数据。

站长之家（ChinaZ.com）11月9日消息:南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体，它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务，或者完成复杂的家务活动。

Octopus 具备规划推理和根据实时环境做出反馈的能力，能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus，研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境，提供了可用于训练和测试 Octopus 的场景，并开发了数据收集系统来高效获取训练数据。

论文地址:https://arxiv.org/abs/2310.08588

项目网页:https://choiszt.github.io/Octopus/

开源代码:https://github.com/dongyh20/Octopus

OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境，包含了476个符合现实生活的家务活动，模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》（GTA）游戏，构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus，并通过强化学习算法进一步提升模型的任务规划能力。

为了高效收集训练数据，研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者，通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4，再在仿真环境中执行代码，并判断任务是否完成。如果任务失败，会回到上一步的起始位置重新采集数据。在数据收集过程中，研究者记录了每个子任务的成功情况，为后续引入强化学习提供了基础。

通过在大量训练数据上进行监督式微调，研究者构建出了一个能够以视觉信息作为输入，遵循固定格式输出的 VLM 模型。然后，他们引入了 RLEF（Reinforcement Learning with Environmental Feedback）来进一步提升 Octopus 的任务规划能力，利用先前采集的子任务的成功情况作为奖励信号。

实验结果显示，经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升，即使面对模糊的任务指令，也能提供更加合理的计划。

综上所述，Octopus 是一种具备视觉可编程能力的智能体，通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力，通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义，为进一步探索视觉 - 语言模型的应用提供了新的思路。

（举报）

相关推荐

关键词：

北汽元境智能正式发布车辆升级“全域智能体”

10月28日，北汽极狐全新阿尔法T5上市发布会举行，北汽集团正式发布“北汽元境智能”技术架构。该架构覆盖从底层到体验、从真实到仿真世界的技术体系，实现研发到量产落地，展现北汽在智能网联汽车领域的最新成果。其核心为“全域融合”，通过三大层次——舱驾融合、跨生态AI融合、真实与虚拟世界融合，打破技术边界，提升智能驾驶与座舱体验。同时推出元境智驾和元境智舱两大产品，覆盖L2至L4全阶智驾，并强调安全开发理念，累计测试超5000万公里。北汽以开放平台与伙伴合作，推动智能出行技术进化。

北汽元境智能阿尔法T5 智能网联汽车
腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》，筑牢智能体应用安全基座

腾讯云与Gartner联合发布《企业级智能体产业落地研究报告》，提出智能体场景罗盘评估模型，覆盖金融、零售等14大行业100+应用场景。报告指出智能体正从辅助工具演进为关键业务引擎，同时企业面临安全、成本等落地挑战。腾讯云安全提供全生命周期技术保障，通过华住集团、绝味食品等案例展示智能体在提升效率、优化服务方面的显著成效，助力企业构建“高可靠、强防护”的智能体体系。

智能体落地腾讯云安全企业智能化转型
算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

10月24日，超聚变公司发布FusionXpark™智能体开发平台，实现AI算力从云端下沉至桌面设备。该平台搭载GB10架构，提供1PFLOPS本地算力，支持200B参数模型推理，助力开发者在边缘端运行高参数模型。发布会展示了政务、金融、工业等五大行业的30类“超级员工”智能体应用，通过私有化部署保障数据安全。专家指出，这一创新将推动AI普惠化，重塑产业生态。

AI原生计算智能体开发平台 FusionXpark
从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

AI时代重塑陪伴形式，联想“想帮帮AI服务智能体”以公益之心推出，通过五大功能（智玩、智验、智检、智修、智换）构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统，一键解决电脑卡顿等问题，让用户省时省心。该服务强调责任与长期守护，结合北京领养日公益理念，传递科技向善、服务有爱的智能温度，重新定义AI陪伴的全部意义。

AI陪伴领养代替购买智能服务
法大夫AI法律智能体首次亮相法博会引关注！“法小助”斩获卓越技术奖！

2025年10月25-26日，深圳法律服务博览会（法博会）在福田会展中心举办。本届展会聚焦“法律服务创新保障科技与产业创新”，汇聚众多法律科技企业。法大夫推出的AI法律智能体矩阵备受关注，其与广东宝城律师事务所联合研发的“法小助”AI律师智能体成为亮点，荣获法博会法律科技产品大赛“卓越技术奖”。该智能体集成九大核心功能，覆盖法律咨询、合同审查、文书生成等场景，提供24小时不间断服务，通过“Web端+小程序+智能终端”实现多端覆盖，已落地多地法院及企业园区，有效提升法律服务效率与普惠性。

法律服务创新 AI法律智能体法律科技
从温室气体核查到产品LCA，SUPER DRY 干霸干燥剂系统性推进低碳转型

11月6日，SUPER DRY干霸干躁剂在第八届中国国际进口博览会上，为其三款核心产品获得SGS颁发的生命周期评价（LCA）声明书。该认证覆盖氯化钙、硅胶和矿物干躁剂，标志企业迈出产品全生命周期环境管理关键一步。公司表示将基于LCA报告优化设计、降低碳足迹，并携手合作伙伴推动低碳转型，提升国际市场竞争力与品牌声誉，践行可持续发展承诺。

干燥剂生命周期评价 SGS认证
墨刀AI Agent：更懂产品经理的超级智能体上线

2025年AI将进入"智能体时代"，从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造，具备三层核心能力：懂逻辑（理解需求生成原型）、懂场景（熟悉全流程工作）、懂协作（跨角色沟通优化）。它能贯穿调研、原型、文档、评审等环节，解放重复劳动，让产品经理专注高价值决策，实现从效率提升到决策升级的人机协作新模式。

AI智能体产品经理墨刀AI
一图读懂FusionXpark™随身智能体开发平台

文章搜索核心标签内容检索
美的联名“疯狂动物城”，共创有温度的全屋智能体验

美的与迪士尼《疯狂动物城》跨界合作，将童话中的理想生活融入全屋智能空间。当代年轻人对家的期待已超越居住功能，更渴望一个能卸下压力、自由放松的情感避风港。美的通过智能卧室与厨房等场景，结合朱迪、尼克等角色性格，打造有温度、能陪伴的智能家居体验。线上线下的沉浸式互动让用户从体验者变为共创者，推动品牌从功能提供者向情感关怀者转型，重塑科技与人的美好关系。

疯狂动物城全屋智能理想生活
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech

今日大家都在搜的词：

热文

3 天
7天

南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手

北汽元境智能正式发布车辆升级“全域智能体”

腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》，筑牢智能体应用安全基座

算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

法大夫AI法律智能体首次亮相法博会引关注！“法小助”斩获卓越技术奖！

从温室气体核查到产品LCA，SUPER DRY 干霸干燥剂系统性推进低碳转型

墨刀AI Agent：更懂产品经理的超级智能体上线

一图读懂FusionXpark™随身智能体开发平台

美的联名“疯狂动物城”，共创有温度的全屋智能体验

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

今日大家都在搜的词：

热文

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

华为Mate 70 Air维修备件价格公布：换主板2499元

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机