首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

2023-12-08 17:43 · 稿源：站长之家

要点:
LEO是首个具身通才智能体，以GPT-4等大语言模型为基础，实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白，通过高效学习策略和数据生成方法，构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异，具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

站长之家（ChinaZ.com）12月8日消息:近年来，多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而，这些模型主要基于二维图片和文本数据，对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题，北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员，提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础，在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重，LEO能够在不同任务之间实现无缝切换，构建了一个统一的处理框架。在数据集的收集方面，研究团队通过两阶段训练策略，包括物体级别和场景级别的大规模数据集，为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先，构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次，提出了高效的学习策略，通过将以物体为中心的三维表征与语言模型相结合，成功打通了视觉-语言-动作的通道。最后，研发了生成高质量三维视觉语言数据的方法，构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛，作为未来的家庭助理，它能够与人进行交互，调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面，LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运，展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破，为实现通用人工智能迈出了重要一步。

（举报）

相关推荐

关键词：

入行精英强化训练营：我们的老师不是Vivian也不是Leo

十一长假即将到来，除了短期旅游开始受到关注外，各类培训也成为热门。不少自我提升意愿强烈的学生、白领会充分利用十一假期进行充电。其中，职前教育竟意外走红，高踞知识付费类产品榜首。笔者对其中一家新成立的企业进行了探访。入行是一家成立不久的专注于在线教育的公司，因为背靠黑白校园的渠道流量，入行迅速获得了大学生的青睐，已经拥有一批忠实的拥趸者。据悉，入行十一未来精英训练营已经逐步上线，目前报名学生较为踊跃

在线教育平台在线教育
“Leo肖”推广价格预估，靠谱的自媒体推广平台

备注：本文数据来自站长之家移动传媒平台，文章涉及的数据依托平台大数据计算所得，非百度官方数据，仅供参考。Leo肖是当前百家号中的普通号，目前账号百家号权重为2，综合排名位列819435名，国际分类排名位列5981名，领先了26.3%的百家号。 Leo肖百家号概况 Leo肖的简介为分享海外资产配置资讯。，是一家主旨明确、领域专注的自媒体作者，截止目前为止他们已经在百家号上发布了超过4篇的游戏内容，最近该作者创作的文章中暂无热点

Leo肖 Leo肖百家号 Leo肖头条
荐@勇仔leo 年涨粉800万，被唱衰的美妆赛道还能卷出新顶流？

2019年，美妆赛道高速崛起...在众多老面孔之外，如果非要在其中寻找新的流量黑马，男性美妆博主@勇仔leo或许能够拥有一席之地...据观测，去年年中时，@勇仔leo的粉丝量还在30W左右徘徊，而今，他的粉丝量已达到824.1W，相当于一年时间内涨粉800W...而从骆王宇、程十安an等这几个屈指可数的流量达人出现，再到@勇仔leo凭借反差色化妆出圈，整个美妆赛道似乎在对外释放一个强烈的信号:用户对于美妆内容的要求正在朝着极度专业和极度实用，且人设要极度真实的方向发展......

抖音视频美妆美妆博主
利欧数字推出营销行业AIGC生态平台「LEO AIAD」

利欧数字宣布，通过开源生态、合作开发、自主研发等多种模式，以及与众多国内外顶级人工智能公司的合作，率先推出面向营销全行业的AIGC生态平台「LEO+AIAD」。利欧数字与国内首家实现AI风格化视频商用标准的企业「奥创光年」达成深度战略合作，将人工智能对生产力的优化能力，从图文进一步扩展至视频内容的创作，打造营销领域生成式AI的全新生态圈。营销AI助手还可�

利欧数字 AIGC生态平台创作生产力
如果巴菲特不碰比特币和黄金，你还敢投 Bitfinex 的 LEO 吗？

随着比特币重新回到近 6000 美元价位，整个加密货币投资市场又复苏了，数字资产投资也再次引起了人们的关注。最近，加密市场里最受关注的就是Bitfinex 交易所发行价值 10 亿 USDT 的 LEO 代币，这对于投资者来说会是一次“抄底”投资机会?还是会被“抽血”?

巴菲特比特币黄金
融资117亿，如今Telegram的lEO却是一次大鲸出货？

Telegram终于要面向公众发售了。不过，Telegram这一次是采用的lEO模式，在加密货币交易所Liquid上架，向有限国家的用户限量发行。

Telegram lEO却 Telegram发币
“Leo篮人说”百家号体育领域排名-大v推荐排行榜作者有哪些？

Leo篮人说是当前百家号中的普通号，目前账号百家号权重为2，综合排名位列795826名，体育分类排名位列28733名，领先了28.4%的百家号。 Leo篮人说百家号概况 Leo篮人说的简介为热爱篮球，更热爱生活！，是一家主旨明确、领域专注的自媒体作者，截止目前为止他们已经在百家号上发布了超过45篇的游戏内容，最近该作者创作的文章中暂无热点词。站长之家百家号传媒平台对Leo篮人说的运营数据估算如下：预估总阅读数：1000-2000，综合排

Leo篮人说 Leo篮人说百家号 Leo篮人说头条
LEOMASTER焕新发布LEO隐私卫士4.0版本——为你而变!

“嘿!不要乱翻我的照片!”“这个应用不可以随意打开!”......曾几何时，我们习惯将身边的秘密都藏于手机中，不期望被别人看到、知道。并且随着网络的覆盖率提高，智能手机也在逐年普及，截至2016年一季度，全球智能手机用户达34亿，调查显示，用户在使用手机的过程中平均遭遇6.5次的手机被偷窥!移动终端的私人信息在不断增加，隐私泄露的风险时刻围绕在我们身边!此次LEOMASTER焕新发布LEO隐私卫士4.0版本，与你携手保护只属于你的隐私安全。

LEO隐私卫士4.0版本 LEO隐私卫士
LEO隐私卫士3.6版本升级发布保护隐私首页一键操作

进入智能手机时代后，手机已经成为我们日常生活中不可缺少的一部分，随之而来的隐私安全也成为每个手机用户格外重视的问题。近日，国内首家提出“移动互联网隐私防护”概念的LEOMASTER发布了LEO隐私卫士(LEO Privacy)3.6版本。

LEO隐私卫士
加密货币交易所Bitfinex计划通过发行“LEO” 代币筹集10亿美元

加密货币交易所Bitfinex的股东赵东在推特上发布宣传文件，阐述了该交易所即将进行的高达 10 亿美元的IEO。

Bitfinex LEO IEO

今日大家都在搜的词：

热文

3 天
7天

首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

入行精英强化训练营：我们的老师不是Vivian也不是Leo

“Leo肖”推广价格预估，靠谱的自媒体推广平台

荐@勇仔leo 年涨粉800万，被唱衰的美妆赛道还能卷出新顶流？

利欧数字推出营销行业AIGC生态平台「LEO AIAD」

如果巴菲特不碰比特币和黄金，你还敢投 Bitfinex 的 LEO 吗？

融资117亿，如今Telegram的lEO却是一次大鲸出货？

“Leo篮人说”百家号体育领域排名-大v推荐排行榜作者有哪些？

LEOMASTER焕新发布LEO隐私卫士4.0版本——为你而变!

LEO隐私卫士3.6版本升级发布保护隐私首页一键操作

加密货币交易所Bitfinex计划通过发行“LEO” 代币筹集10亿美元

今日大家都在搜的词：

热文

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

华为Mate 70 Air维修备件价格公布：换主板2499元

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机