首页 > 业界 > 关键词  > 正文

南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手

2023-11-09 16:51 · 稿源:站长之家

要点:

  • 通过在大量视觉输入和可执行代码的数据对的训练,Octopus 学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。

  • Octopus 通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。

  • 研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。

站长之家(ChinaZ.com)11月9日 消息:南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。

Octopus 具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus,研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。

image.png

论文地址:https://arxiv.org/abs/2310.08588

项目网页:https://choiszt.github.io/Octopus/

开源代码:https://github.com/dongyh20/Octopus

OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境,包含了476个符合现实生活的家务活动,模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》(GTA)游戏,构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus,并通过强化学习算法进一步提升模型的任务规划能力。

为了高效收集训练数据,研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者,通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4,再在仿真环境中执行代码,并判断任务是否完成。如果任务失败,会回到上一步的起始位置重新采集数据。在数据收集过程中,研究者记录了每个子任务的成功情况,为后续引入强化学习提供了基础。

通过在大量训练数据上进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵循固定格式输出的 VLM 模型。然后,他们引入了 RLEF(Reinforcement Learning with Environmental Feedback)来进一步提升 Octopus 的任务规划能力,利用先前采集的子任务的成功情况作为奖励信号。

实验结果显示,经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升,即使面对模糊的任务指令,也能提供更加合理的计划。

综上所述,Octopus 是一种具备视觉可编程能力的智能体,通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力,通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探索视觉 - 语言模型的应用提供了新的思路。

举报

  • 相关推荐
  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • 智邦国际一化ERP:企业一智能体成型,重塑企业未来

    近期制造业、轻工业、电子凭证、人工智能等领域密集出台政策,推动企业全方位数智化转型。智邦国际推出"企业一体化+"数智生态体系,以ERP为核心构建全维一体化管理平台,覆盖企业全生命周期各环节。其一体化ERP系统支持30多套软件灵活组合,并集成AI获客、智能客服等创新应用,帮助企业打通内外数据孤岛,实现从数字化向智能化的跃升。该方案通过一站式的数据互通和智能协同,正在成为企业降本增效的新引擎,引领万物互联时代的数智化转型浪潮。

  • AIbase解锁AI无限可能!MCP 圈疯传的神器,让AI智能体直接原地起飞

    AI时代来临,MCP资源宝库网站(https://mcp.aibase.cn)横空出世,一站式整合12万+AI开发资源。该平台提供网页搜索、数据库交互、图像视频处理等全方位服务,包含DuckDuckGo搜索API、百度地图MCP协议等热门工具。精选服务如Figma设计数据转换、EdgeOne网页快速部署等,大幅提升开发效率。网站还提供详细教程,新手也能轻松上手。紧跟AI发展前沿,这个功能强大、资源丰富的平台为开发者搭建了通往无限可能的桥梁,助力打造更智能的AI应用。

  • 联想Lecoo战者G1智能体AI眼镜首发1999元:搭载天禧个人超级智能体

    据悉,这款产品搭载天禧个人超级智能体,天禧的突破在于,它首次将感知、认知、决策与自主演进能力深度融合,形成了一套完整的人工智能双胞胎”逻辑。支持AI翻译/AI对话/AI识图,通过Hi小天”启动多模态AI助手。

  • 宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体

    宝马中国4月27日宣布接入深度求索(DeepSeek)AI大模型,深化本土AI生态布局。这是继宝马与阿里巴巴达成AI大语言模型合作后,再次联手中国科技企业。从今年三季度起,搭载第九代宝马操作系统的多款国产新车将率先应用该技术,通过智能个人助理提升人机交互体验。宝马还计划将DeepSeek功能应用于新一代国产车型。此前3月,宝马已与阿里云合作开发车载AI引擎,双方在上海车展展示了识别率达99%的智能语音交互系统。此次合作将突破车载场景限制,实现车辆与外部世界的智能连接,为用户提供个性化出行体验。

  • 599元起 酷开小C系列投影仪焕新发布:全面搭载酷开智能体

    快科技4月23日消息,日前,酷开举行2025春季发布会,发布超级智能体,宣布全面升级为AI原生企业,并推出影音、健康、生活、设备、创作、教育六大专业智能体及多款智能硬件产品。据了解,酷开小C系列投影仪也迎来焕新,全面搭载酷开智能体,其中C10 SE售价599元、C10售价799元,旗舰款C12售价899元。即使是599元的入门也能体验酷开智能体,将成为酷开AI普惠重要一步。据悉,酷开此次推出的六大智能体分别为影音智能体、健康智能体、生活智能体、设备智能体、创作智能体、教育智能体。其中,影音智能体可实现广度搜索、深度搜索、智能生成三

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • 智能体生态圈破茧,联想与ISV编织千行百业 AI 落地未来

    5月9日,联想在上海举办2025智能体解决方案生态论坛,发布面向AI生态伙伴的私有化部署与行业场景落地合作战略。联想将通过品牌力、方案力、营销力与销售力四大核心方向,为AI解决方案提供商(ISV)提供全栈支持,加速智能体在垂直行业落地。联想集团副总裁王立平指出,每个场景背后都是真实行业问题,需要多方合作解决。联想推出"擎天AI适配中心"提供软硬件全栈适配支持,并发布"擎天智能体集市"平台,汇集超百家ISV产品,实现"线上体验+线下部署"闭环。针对不同发展阶段ISV,联想推出三种合作模式:品牌代销、联合品牌和方案整合,助力ISV跨越技术验证与商业转化鸿沟。联想ThinkStation智能体工作站系列成为硬件载体,其中PX型号支持4张RTX 5880 Ada GPU,兼顾高性能与便捷部署。天士力、蜜度等合作伙伴现场分享了与联想共同打造的医疗、政务行业智能体落地案例。

  • 谷歌A2A协议怎么用?A2A智能体协议和MCP有什么不同?

    本文对比分析了谷歌A2A协议与Anthropic MCP协议在智能体交互领域的异同。MCP协议采用Client-Server架构,专注于标准化AI与外部工具的交互,包含资源、提示、工具和采样四大核心机制,适用于金融报告生成等复杂任务。A2A协议则侧重智能体间协作,支持跨平台任务分配,具备能力发现、协作协商等功能。两者虽理念不同但具互补性:MCP在技术实现上更复杂耦合度高,A2A则因开放设计更吸引开发者。未来,这两种协议将共同推动构建更智能高效的AI生态系统。

热文

  • 3 天
  • 7天