首页 > 业界 > 关键词  > LEO最新资讯  > 正文

首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动

2023-12-08 17:43 · 稿源:站长之家

要点:

  • LEO首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。

  • 该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。

  • LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

站长之家(ChinaZ.com)12月8日 消息:近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

image.png

  • 论文链接:https://arxiv.org/abs/2311.12871

  • 项目主页:https://embodied-generalist.github.io/

  • 代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。

举报

  • 相关推荐
  • HDC2025丨华为推出小艺智能体开放平台,全面赋能鸿蒙智能体开发

    6月20日,华为在开发者大会2025上发布鸿蒙智能体框架(HMAF)及白皮书,标志着鸿蒙系统全面进入Agent时代。该框架定义了操作系统、应用与智能体的交互模式,支持自主决策与群体协作的AI生态。小艺智能体作为系统级中枢,可拆解复杂任务并调度多智能体协同完成。同时推出小艺智能体开放平台,提供全链路开发方案,支持50+系统插件和自然语言创建工作流。目前已有50+鸿蒙智能体即将上线,覆盖天气、音乐、资讯等场景。华为表示,鸿蒙智能体将带来更高效、自主的人机交互新模式,未来将持续开放AI能力,与开发者共建智能生态。

  • 淘宝跑步进入三维世界

    6月10日,苹果给今年获得苹果设计大奖(Apple Design Award,简称ADA)的应用颁了奖。 要知道,在业内,ADA是被称作应用界“奥斯卡”的。1997年,苹果濒临破产时,乔布斯再次回归苹果,同一年的 WWDC(苹果全球开发者大会) 上,苹果正式推出“人机交互杰出设计奖”,以表彰苹果生态中最出色的第三方软件设计,两年后,这一奖项更名为大众熟悉的苹果设计大奖。 今年尤其特

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 微软张祺:智能体将成为广告行业的变革引擎

    微软在北京举办"MSA Accelerate营销峰会2025",聚焦AI与智能体对广告行业的变革。微软全球资深副总裁张祺博士指出,AI时代已至,推理能力和记忆机制的突破让模型更强大高效。峰会发布多项创新产品,包括海外市场"品牌智能体",可执行复杂任务、实时响应并自主决策,显著提升品牌与消费者互动效率。微软广告业务中国区副总裁黄秀兰强调将持续深化本土生态合作,通过技术赋能助力中国品牌拓展国际市场。核心亮点包括:Copilot在广告个性化体验的重大突破,相关搜索广告效果提升25%;沉浸式展厅广告打造线上品牌旗舰店;动态筛选器通过对话交互实现精准投放。微软承诺坚持"信任优先"原则,确保数据安全可控。

  • 综合采纳率75%,这个“下场打工”的外贸智能体强得可怕

    这一年,我们经历了无数个Agent「下场」的时刻。 越来越多的行业将Agent作为「数字员工」融入到企业实际业务当中,但真正能跑通落地、带来实效的,还不多。 而在外贸这个落地的产业里,AI正在突破“试试看”的阶段。原因不难理解:客户从哪来、怎么转化、效率能不能提上去,这些都是AI深入外贸产业一线后,绕不开的经营命题。

  • 今夏增长卷上天?看百度商家智能体玩转服务预约!

    文章探讨了数字化浪潮下商家经营从"经验驱动"转向"智能驱动"的趋势。通过教育、旅游、法律三大行业的实战案例,展示了智能体如何助力企业实现"省人、省心、省钱"目标。在教育领域,智能体帮助机构精准解读家长需求,提升招生效率;在旅游业,智能体化身"旅行搭子",提供个性化行程规划;在法律行业,智能体24小时提供专业咨询和情感支持。智能体正从单纯工具进化为懂行业、懂场景、懂人心的"金牌销售",通过预约化服务和场景适配能力升级,助力企业降本增效,实现服务温度与商业效率的双赢。

  • 下手帮你干活直接交付结果 纳米AI超级搜索智能体发布

    ​当搜索不再只是获取信息的工具,而能直接帮你完成购物决策、行程规划甚至输出专业报告——这一愿景随着纳米AI超级搜索智能体的发布成为现实。

  • 周鸿祎:未来一个员工领导100个智能体将成常态

    今晚,在纳米AI超级搜索智能体”发布会上,周鸿祎兑现了前几日放出的狠话:一个人完成一场完整的新产品发布会。 在发布会上,周鸿祎认为:未来一个员工领导100个智能体将成为常态,届时,个人会成为超级个体,拥有高比例数字员工的公司将成为超级公司。” 据悉,6月6日,周鸿祎在微博发文称:我准备干掉360整个市场部,这样一年可以给公司省下几千万。” 他表示�

  • 三六零首批入选信通院“智能体产业图谱1.0”

    中国信通院发布《智能体产业图谱1.0》,收录近200家智能体技术创新企业,360集团与华为、阿里、腾讯等首批入选基础支撑开发平台。图谱分为基础支撑层、通用场景层和专用场景层,其中基础层提供大模型服务、开发工具等能力。360创始人周鸿祎表示,智能体将弥补大模型"不会用工具"的短板,未来可能比SaaS大10倍。360已推出纳米AI超级搜索智能体,可跨平台获取信息并调用复杂工具,开启搜索3.0时代。4月还发布"MCP万能工具箱",接入超110款工具,推动AI应用普惠。

  • 李未可AI眼镜新品发布会:零级智能体开启人机交互新纪元

    李未可科技发布2025年度新品,推出三款AI智能眼镜及专属大模型"WAKE-AI任务式交流系统"。核心亮点是"零级智能体ZeroAgent",通过多智能体协同实现任务分发与动态决策,打破传统硬件依赖单一AI功能的局限。新品包括轻量化设计的LAWK City系列(续航14小时,仅重23-27克)和旅拍版LAWK View(支持20种语言翻译)。公司联合米奥兰特国际会展瞄准跨境商务场景,并与博士眼镜达成战略合作,推动AI眼镜线下体验。创始人茹忆强调"AI定义硬件"理念,预测未来十年传统眼镜将全面智能化,轻量化、长时佩戴与场景适配是竞争核心。