3D-LLM：让AI聊天机器人可以解读三维世界

2023-08-01 10:11 · 稿源：站长之家

站长之家（ChinaZ.com）8月1日消息:研究人员推出了一款名为3D-LLM的新方法，可以将对3D 环境的理解融入到大型语言模型中。这意味着聊天机器人将能够理解和处理3D 空间的概念，从而更好地在三维世界中导航和操作。

大型语言模型和多模态语言模型可以处理语音和2D 图像，比如ChatGPT、GPT-4和Flamingo。然而，这些模型缺乏对3D 环境和物理空间的真正理解。研究人员现在提出了一种称为3D LLM 的新方法来解决这个问题。

3D LLM 旨在通过使用点云等3D 数据作为输入，为 AI 提供3D 空间的概念。通过这种方式，多模态语言模型应该理解空间关系、物理和可供性等概念，而这些概念仅靠2D 图像很难掌握。3D LLM可以使人工智能助理能够在3D 世界中更好地导航、规划和行动，例如在机器人技术和实体人工智能领域。

为了训练模型，团队需要收集足够数量的3D 和自然语言数据对 - 与网络上的图像文本对相比，此类数据集是有限的。因此，团队开发了ChatGPT的提示技术来生成不同的3D描述和对话。

结果是包含超过300，000个3D 文本示例的数据集，涵盖3D 标记、回答视觉问题、任务分解和导航等任务。例如，ChatGPT 被要求通过询问有关从不同角度可见的物体的问题来描述3D 卧室场景。

然后，该团队开发了3D 特征提取器，将3D 数据转换为与预训练的2D 视觉语言模型（例如 BLIP-2和 Flamingo）兼容的格式。

此外，研究人员使用3D 定位机制，允许模型通过将文本描述与3D 坐标相关联来捕获空间信息。这也促进了使用 BLIP-2等模型来有效地训练3D LLM 来理解3D 场景。

实验结果显示，3D 语言模型可以生成对3D 场景的自然语言描述，进行3D 感知对话，并将复杂任务分解为3D 动作。这表明，通过结合空间推理能力，人工智能有潜力开发出更接近人类的3D 环境感知。

研究人员计划将这种模型扩展到其他数据模式，如声音，并训练它们执行其他任务。这将进一步提高 AI 助手在多模态环境中的能力。最终的目标是将这些进步应用到可以与3D 环境智能交互的具体 AI 助手中。这意味着未来可能会有更智能的机器人和具体人工智能应用程序。

（举报）

相关推荐

关键词：

科学家发现，AI聊天机器人只在你认为它有用时才有用

MIT媒体实验室的研究人员在《自然机器智能》杂志上发表的一项新研究中发现，被“预设”期待获得某种AI体验的受试者最终几乎总能获得那种体验。这一发现非常引人注目，因为它似乎表明，聊天机器人引人瞩目的能力可能源自用户将期望投射到系统上。你需要考虑人们带入系统的偏见类型。

AI聊天机器人 AI AI头条
Salesforce将收购Airkit.ai，致力构建AI客服聊天机器人

Salesforce宣布了一项重大计划，计划收购Airkit.ai，这家低代码平台将帮助电子商务公司构建强大的AI客服聊天机器人。该交易的具体条款并未公开披露。这一交易对于Salesforce来说无疑是加强其AI客服代理能力的重要举措，也将进一步提高其在电子商务领域的竞争力。

Airkit.ai AI客服 Salesforce
研究：近10%AI聊天机器人用户对话内容涉及色情主题

根据最新研究，使用AI聊天机器人的用户中，有近10%的人滥用这一技术来追求色情目的，这一发现或许令人感到不意外，但却引发了对这一现象的关注。研究人员通过分析了10万次聊天机器人对话，揭示了这一令人不适的统计数据。这些发现的研究人员表示，他们希望他们的研究将有助于在现实世界中为所有用户使聊天机器人更加安全。

AI聊天机器人 AI头条
英国因青少年隐私问题对 Snap AI 聊天机器人展开调查

Snap公司因其生成式人工智能聊天机器人可能对Snapchat用户，尤其是13至17岁的青少年，构成的潜在隐私风险在英国面临调查。图片来自Snap英国数据保护监管机构信息专员办公室上周发布了初步强制执行通知，指称Snap的聊天机器人MyAI可能会对Snapchat用户，特别是13至17岁的用户，构成风险。必应的生成式AI图像已被极端分子讨论板4chan用来制作种族主义图像。

Snap 人工智能 MyAI
谷歌AI聊天机器人 Bard 新增Gmail等谷歌应用插件

谷歌的AI聊天机器人Bard最近获得了更新，增加了对Gmail、Docs和Drive等谷歌应用的插件支持。更新后的谷歌Bard支持的应用插件可以实时获取来自谷歌地图、YouTube、酒店和航班等应用的信息，并允许用户随时关闭。除了插件支持外，谷歌Bard还增加了一项公共链接分享功能，使用户能够将与Bard的对话分享给其他人，他们可以在自己的设备上继续与Bard对话。
谷歌内部员工质疑AI聊天机器人Bard的有效性和价值

近几个月来，谷歌母公司Alphabet一直在对其AI聊天机器人Bard进行内部讨论，特别邀请重度使用者参与。内部员工开始质疑Bard的有效性和功能，引发了有关投入海量资源是否值得的疑虑。谷歌内部员工对Bard的有效性和价值提出了质疑，这对谷歌来说是一项严峻的挑战，尤其是在竞争日益激烈的AI领域。
Snap AI聊天机器人涉嫌侵犯青少年隐私，英国展开调查

英国信息委员会，该国的数据保护监管机构，最近对Snap公司进行了一项调查，涉及其生成式人工智能聊天机器人"MyAI"存在的潜在隐私风险，特别是对13至17岁的Snapchat用户。调查结果表明，Snap未能充分识别和评估"MyAI"对儿童和其他用户隐私的潜在风险。其他生成式AI形式也面临了批评，例如Bing的图像生成AI被极端消息论坛4chan用来制作种族主义图像。

Snap SnapAI
Snap 与微软合作在其「My AI」聊天机器人对话中投放广告

Snapchat与微软合作，将在其AI产品MyAI中插入广告。MyAI是今年早些时候向更广泛的Snapchat用户推出的一个AI聊天机器人。该公司还建议正在与其他各种合作伙伴合作，以在未来增强MyAI。

Snap 微软人工智能
Tubi推出基于ChatGPT的影视推荐聊天机器人Rabbit AI

在线影视平台Tubi日前宣布，将推出一款基于ChatGPT的智能聊天机器人RabbitAI，以提升用户的内容发现和交流体验。这标志着娱乐内容推荐正式进入人工智能时代。随着技术的进步，基于人工智能的创新应用有望不断涌现，给用户带来更好的个性化体验。

ChatGPT
对标ChatGPT！亚马逊计划推出AI聊天机器人：最快明年1月上线

亚马逊正打造一款AI驱动的聊天机器人，并拟将其整合进亚马逊网站的搜索栏中，可优化客户在其电商网站的搜索体验，最快可能在明年1月推出。该项目的内部代号为ProjectNile”，将在亚马逊现有搜索栏的基础上，增加一层人工智能，实现即时产品比较，允许用户提出更具体化的问题，以及基于搜索上下文和个人购物数据，给出更精准的推荐。亚马逊也一直在使用经过微调的Titan版本，通过其主页提供搜索服务。

今日大家都在搜的词：

热文

3 天
7天

3D-LLM：让AI聊天机器人可以解读三维世界

科学家发现，AI聊天机器人只在你认为它有用时才有用

Salesforce将收购Airkit.ai，致力构建AI客服聊天机器人

研究：近10%AI聊天机器人用户对话内容涉及色情主题

英国因青少年隐私问题对 Snap AI 聊天机器人展开调查

谷歌AI聊天机器人 Bard 新增Gmail等谷歌应用插件

谷歌内部员工质疑AI聊天机器人Bard的有效性和价值

Snap AI聊天机器人涉嫌侵犯青少年隐私，英国展开调查

Snap 与微软合作在其「My AI」聊天机器人对话中投放广告

Tubi推出基于ChatGPT的影视推荐聊天机器人Rabbit AI

对标ChatGPT！亚马逊计划推出AI聊天机器人：最快明年1月上线

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

卢伟冰：小米手机双11连续三年国产销量第一

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

卢伟冰：小米手机双11连续三年国产销量第一

OPPO Reno15系列定档11月17日发布

焕新享界S9开卖72小时预订突破8000台

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

站长商机