UCLA提出多模态具身智能大模型MultiPLY AI拥有类人感官

2024-01-22 13:56 · 稿源：站长之家

要点:
UCLA等机构的研究人员最近推出了具身智能大模型MultiPLY，该模型具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。
通过与3D环境的交互，MultiPLY在对象检索、工具使用、多感官标注和任务分解等具体任务实验中，表现出比当前技术水平更高的性能。
为了训练MultiPLY，研究人员创建了一个大规模多感官数据集Multisensory-Universe，包含50万条由AI智能体在3D虚拟环境中交互时收集的数据，涵盖了多种任务类型。

站长之家（ChinaZ.com）1月22日消息:近日，UCLA等机构的研究人员推出了具身智能大模型MultiPLY，该模型不仅具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。

MultiPLY在多任务实验中表现出色，包括对象检索、工具使用、多感官标注和任务分解等，刷新了当前技术水平。为了训练这一新模型，研究人员创建了Multisensory-Universe数据集，包含50万条多感官数据，涵盖了多种任务类型。尽管面临挑战，如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息，但MultiPLY的出现为实现AGI提供了新的方向。

在模型训练阶段，研究人员引入了新物体，并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式，让模型学会感知物体的多模态信息。

为此，研究人员提出了多感官全景生成管线，通过不同传感器收集触觉、声音、温度等信息。整个训练过程中，MultiPLY通过智能体与3D环境交互，生成多感官观测值，并在推理过程中不断生成动作token，展现出强大的多模态能力。这一研究的出现，为构建更全面、具备多感官能力的大模型提供了新思路。

（举报）

相关推荐

关键词：

大模型

易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
免费 GEO品牌可见度查询——让大模型信得过就这么玩

本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括：可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力；提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度，通过持续优化提升在大模型入口的推荐概率。

文章搜索核心标签可信信息源
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型
国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

AI搜索时代，品牌若未出现在AI回答中就等于"不存在"。GEO（生成引擎优化）成为新战场，核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点：文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略：内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况，通过数据驱动优化策略。

今日大家都在搜的词：

热文

3 天
7天

UCLA提出多模态具身智能大模型MultiPLY AI拥有类人感官

易鑫正式发布汽车金融行业首个Agentic大模型

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

免费 GEO品牌可见度查询——让大模型信得过就这么玩

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机