首页 > 业界 > 关键词  > LEO最新资讯  > 正文

首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动

2023-12-08 17:43 · 稿源:站长之家

要点:

  • LEO首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。

  • 该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。

  • LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

站长之家(ChinaZ.com)12月8日 消息:近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

image.png

  • 论文链接:https://arxiv.org/abs/2311.12871

  • 项目主页:https://embodied-generalist.github.io/

  • 代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。

举报

  • 相关推荐
  • 全球首个!高德发布AI导航智能体 情绪价值拉满

    快科技4月14日,高德地图正式宣布推出全球首个基于地图的AI导航智能体(NaviAgent)。高德表示,AI导航智能体将推动导航由传统出行工具,向会思考、能预判、有温度”的智能出行伙伴蜕变。据技术负责人介绍,传统导航像按剧本演戏,预设路线后便机械执行;而我们的智能体更像经验丰富的老司机,能实时感知路况、预判风险并主动调整策略。”例如,它能提前预判前方路况�

  • 三维天地智能路径规划引擎:以算法驱动,重新定义智能路径优化技术

    本文探讨了环境监测和巡检工作中路径规划面临的挑战及智能化解决方案。随着采样点数量激增、合规要求趋严,传统人工规划方式难以满足高效精准的调度需求。三维天地公司研发的智能路径规划引擎通过多源数据融合、改进型进化算法优化和可视化展示,实现了复杂约束条件下的最优闭环巡检路线生成。该技术已应用于市场抽检、设备巡检、环境监测和物流运输等多个场景,显著提升了数据采集效率和质量。未来发展方向包括知识图谱融合、多模式协同规划和算法自进化,推动建立行业标准化的智能路径规划生态体系。

  • 重磅!仙库获批国内首个三维人体体表领域医疗器械注册证!

    深圳仙库智能公司近日获得国家二类医疗器械注册证,成为国内三维人体体表领域首个获证的医疗企业。该技术采用3D纯红外结构光扫描,具有无接触、零辐射、安全性高等特点,可快速完成毫米级精度的人体三维建模。产品可应用于骨科、康复科、儿科等多个科室,提供脊柱侧弯筛查、体态评估、康复跟踪等数字化解决方案,助力提升临床效率、优化治疗方案。此次获证标志着仙库在医疗健康领域的3D数字化应用取得重要突破。

  • 599元起 酷开小C系列投影仪焕新发布:搭载酷开智能体

    快科技4月23日消息,日前,酷开举行2025春季发布会,发布超级智能体,宣布全面升级为AI原生企业,并推出影音、健康、生活、设备、创作、教育六大专业智能体及多款智能硬件产品。据了解,酷开小C系列投影仪也迎来焕新,全面搭载酷开智能体,其中C10 SE售价599元、C10售价799元,旗舰款C12售价899元。即使是599元的入门也能体验酷开智能体,将成为酷开AI普惠重要一步。据悉,酷开此次推出的六大智能体分别为影音智能体、健康智能体、生活智能体、设备智能体、创作智能体、教育智能体。其中,影音智能体可实现广度搜索、深度搜索、智能生成三

  • 智邦国际一化ERP:企业一智能体成型,重塑企业未来

    近期制造业、轻工业、电子凭证、人工智能等领域密集出台政策,推动企业全方位数智化转型。智邦国际推出"企业一体化+"数智生态体系,以ERP为核心构建全维一体化管理平台,覆盖企业全生命周期各环节。其一体化ERP系统支持30多套软件灵活组合,并集成AI获客、智能客服等创新应用,帮助企业打通内外数据孤岛,实现从数字化向智能化的跃升。该方案通过一站式的数据互通和智能协同,正在成为企业降本增效的新引擎,引领万物互联时代的数智化转型浪潮。

  • 联想Lecoo战者G1智能体AI眼镜首发1999元:搭载天禧个人超级智能体

    据悉,这款产品搭载天禧个人超级智能体,天禧的突破在于,它首次将感知、认知、决策与自主演进能力深度融合,形成了一套完整的人工智能双胞胎”逻辑。支持AI翻译/AI对话/AI识图,通过Hi小天”启动多模态AI助手。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

  • 超聚变数字技术有限公司刘宏云:探索不止,共建智能体时代

    4 月 15 日- 17 日,超聚变探索者大会 2025 在郑州召开。在大会主论坛上,超聚变数字技术有限公司董事长兼CEO刘宏云作《探索不止,共建智能体时代》主题演讲……

  • 宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体

    宝马中国4月27日宣布接入深度求索(DeepSeek)AI大模型,深化本土AI生态布局。这是继宝马与阿里巴巴达成AI大语言模型合作后,再次联手中国科技企业。从今年三季度起,搭载第九代宝马操作系统的多款国产新车将率先应用该技术,通过智能个人助理提升人机交互体验。宝马还计划将DeepSeek功能应用于新一代国产车型。此前3月,宝马已与阿里云合作开发车载AI引擎,双方在上海车展展示了识别率达99%的智能语音交互系统。此次合作将突破车载场景限制,实现车辆与外部世界的智能连接,为用户提供个性化出行体验。

  • AI赋能千年本草|三维天地开启中药‘鉴’证新篇章

    一、 中药材鉴别面临的严峻挑战1.传统鉴别方法的局限性日益凸显人工经验依赖性高,主观误差率较大随着中医药产业的迅猛发展,中药材的质量管控已经成为推动行业进步的关键环节。但是,传统的鉴别技术在实际操作中显现出诸多局限性。现行药典所规定的“性状鉴别”和“显微鉴别”方法仍然依赖于人工操作,其结果很大程度上受到检验人员经验和主观判断的影响。以�