三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

2023-12-08 17:43 · 稿源：站长之家

要点:
LEO是首个具身通才智能体，以GPT-4等大语言模型为基础，实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白，通过高效学习策略和数据生成方法，构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异，具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

站长之家（ChinaZ.com）12月8日消息:近年来，多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而，这些模型主要基于二维图片和文本数据，对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题，北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员，提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础，在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重，LEO能够在不同任务之间实现无缝切换，构建了一个统一的处理框架。在数据集的收集方面，研究团队通过两阶段训练策略，包括物体级别和场景级别的大规模数据集，为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先，构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次，提出了高效的学习策略，通过将以物体为中心的三维表征与语言模型相结合，成功打通了视觉-语言-动作的通道。最后，研发了生成高质量三维视觉语言数据的方法，构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛，作为未来的家庭助理，它能够与人进行交互，调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面，LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运，展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破，为实现通用人工智能迈出了重要一步。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
百度灵境矩阵升级文心智能体平台，人人都是智能体开发者

4月16日，Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏发表主题为「人人都是开发者」的演讲，现场展示了「组团出道」的文心大模型系列以及AgentBuilder、AppBuilder、ModelBuilder三大开发神器。对于AI时代和每个个体来说，百度文心智能体平台正像阿基米德的支点、纳瓦尔的杠杆，给予每个人机会，让每个人有可能成为「超级个体」。

Create2024 百度 AI开发者大会
Gnomic智能体基础模型能力全面升级，多功能焕新上线！

hi，超懂你的一站式AI智能体平台，又开始了一轮小“更新”!简单对齐一下颗粒度，不仅增加了文档解析、查看历史对话等功能可以创建Agent元宇宙，可以邀请自己的的粉丝，一起群聊了~Agent元宇宙，焕新上线那下面就来一起了解下“Agent元宇宙”。step1:点击创建Agent元宇宙，目前仅支持邀请「关注自己的粉丝」，邀请完成即可开始元宇宙聊天。添加完成后就可以回答知识库内独

Gnomic智能体 Agent元宇宙 ai头条
于海：联想小天个人智能体，最懂你的个人AI伙伴

4月18日，在2024联想创新科技大会现场，一场独特的演示吸引了众多目光。联想集团高级副总裁、IDG商用产品中心及全球中小企业业务总经理于海使用最新发布的联想AIPC新品，在无网络环境下，仅数秒就将十几页的英文科研论文精准总结成中文摘要。作为推动AI普惠的第一终端，联想的AIPC在注入“联想小天”这一灵魂之后，不仅将实现从工具到个人AI伙伴的跃升，也将成为新质生产力的AI伙伴。

联想创新科技大会联想AI PC
Gnomic：人人都可创建专属自己的智能体小助理

在快速迭代的技术蓝图中，私人智能体，或者说“智能体小助理”正迅速成为一个备受关注的领域。这些被称为“Agent”的智能体将颠覆我们与计算机互动的传统方式，其能力远超现有的基础语音助手。

人工智能智能体小助理用户需求
华为要把纯血鸿蒙打造成原生智能的操作系统 “小艺”超级智能体来了

在第21届华为分析师大会上，华为副董事长、轮值董事长徐直军发表了题为《全面智能化之路》的主题演讲。徐直军在演讲中提到，随着大模型出来以后，为每一个终端用户配一个智能助手，越来越成为了现实。但之前都没用到大模型，很多场景用专署模型也够了，如今大模型问世，华为也将抓住智能化战略机遇，推进全面智能化。
荐AI时代新风口！吴恩达亲授智能体四大设计模式

【新智元导读】吴恩达认为，智能体的发展将会成为AI时代重要的力量，甚至比基础模型还要重要。「吴老师」连发多篇博客，向大家介绍了AI智能体的四大设计模式。吴恩达表示Planning仍是一项不太成熟的技术，用户很难提前预测它会做什么，——不过我们可以期待技术的快速发展来解决这个问题。

智能体
联想昭阳AI 商用笔记本内置“联想小天”智能体

4月18日，以“AIforAll，让世界充满AI”为主题的2024联想创新科技大会在上海成功举办。大会全面展现了联想围绕混合式人工智能所构建的核心主张、战略图蓝图及最新技术成果，联想昭阳AI笔记本也进行了全新升级，并内置了AI新物种——“联想小天”商用版。这意味着联想小天将作为个人专属“智能体”，带领我们正式迈入AI时代，为各行各业带来更高效、智能的工作体验，激发更澎湃的创新动能。

人工智能联想商用笔记本
百度何俊杰：文心智能体平台，让人人可开发、人人可经营、人人可获益

4月16日，Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏以“人人都是开发者”为题发表演讲，为全球开发者带来“组团出道”的文心大模型系列以及AgentBuilder、AppBuilder、ModelBuilder三大“开箱即用”的AI开发工具。百度欢迎所有企业、开发者、生态伙伴，共同把握智能体带来的新机遇，开辟下一个流量黄金时代。

百度AI开发者大会李彦宏文心大模型
Gnomic智能体工作流上线！支持处理多任务流需求

我们新上新了功能，一起来体验一下呀~01什么是工作流?工作流是规划和实施复杂功能逻辑的有用工具，通常用于规划和报告分析等多步骤任务。对于功能复杂、稳定性要求高的任务，通过工作流实施是理想的选择。从这里可以看出，“超级翻译助理”智能体应用了“超级助理”工作流，并把搜索到的内容翻译成了英文。

工作流任务规划多步骤任务
思看科技新品技术交流峰会全新发布全无线三维扫描仪！

2024年4月9日-10日，以“耀临新境·且随光行”为主题的思看科技2024年新品技术交流峰会于杭州未来科技城海创园圆满举行。此次大会邀请来自全球众多行业大咖、专家、合作伙伴齐聚一堂，会上隆重发布智能无线NimbleTrack灵动式三维扫描系统和AM-CELLC系列自动化光学3D检测系统，并预告了全新软件平台DefinSight，聚焦面向未来的三维数字化创新科技，与全球合作伙伴共谋数字化技术未来新发展。公司产品广泛应用于航空航天、汽车制造、工程机械、交通运输、3C电子、绿色能源等工业应用领域，以及教学科研、3D打印、艺术文博、医疗健康、公安司法、虚拟世界等万物数字化应用领域，致力于提供高精度、高便携和智能化的三维视觉数字化系统解决方案，打造三维视觉数字化民族品牌。

智能无线NimbleTrack灵动式三维扫描系统 AM-CELL C系列自动化光学3D检测系统

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

今日大家都在搜的词：

热文

站长商机