首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

UCLA提出多模态具身智能大模型MultiPLY AI拥有类人感官

2024-01-22 13:56 · 稿源:站长之家

要点:

  • UCLA等机构的研究人员最近推出了具身智能大模型MultiPLY,该模型具备多模态感知能力,包括触觉、视觉、听觉等,使得AI能够更全面地与3D环境进行交互。

  • 通过与3D环境的交互,MultiPLY在对象检索、工具使用、多感官标注和任务分解等具体任务实验中,表现出比当前技术水平更高的性能。

  • 为了训练MultiPLY,研究人员创建了一个大规模多感官数据集Multisensory-Universe,包含50万条由AI智能体在3D虚拟环境中交互时收集的数据,涵盖了多种任务类型。

站长之家(ChinaZ.com)1月22日 消息:近日,UCLA等机构的研究人员推出了具身智能大模型MultiPLY,该模型不仅具备多模态感知能力,包括触觉、视觉、听觉等,使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。

image.png

MultiPLY在多任务实验中表现出色,包括对象检索、工具使用、多感官标注和任务分解等,刷新了当前技术水平。为了训练这一新模型,研究人员创建了Multisensory-Universe数据集,包含50万条多感官数据,涵盖了多种任务类型。尽管面临挑战,如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息,但MultiPLY的出现为实现AGI提供了新的方向。

image.png

在模型训练阶段,研究人员引入了新物体,并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式,让模型学会感知物体的多模态信息。

为此,研究人员提出了多感官全景生成管线,通过不同传感器收集触觉、声音、温度等信息。整个训练过程中,MultiPLY通过智能体与3D环境交互,生成多感官观测值,并在推理过程中不断生成动作token,展现出强大的多模态能力。这一研究的出现,为构建更全面、具备多感官能力的大模型提供了新思路。

举报

  • 相关推荐
  • DeepSeek深夜发布全新多模态大模型 性能碾压OpenAI

    爆火的国产大模型DeepSeek又放大招,今天凌晨突然发布Janus-Pro多模态大模型,进军文生图领域。在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3击败了StableDiffusion、Emu3-Gen等热门模型。作为多模态模型,Janus-Pro不仅能文生图能对图片进行描述,识别地标景点,识别图像中的文字,并能对图片中的知识进行介绍。

  • 多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!

    【新智元导读】开年放大招!阶跃星辰重磅升级Step系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家AI明星公司目前已拥有业内最全模型矩阵。在通过AGI的征程上,只有那些能够持续积累的玩家,才有可能走到最后。

  • AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

  • AI日报:赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国产大模型再突破!DeepSeekR1开源,性能直逼OpenAI,开启AI平权新时代DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。

  • 百度今年将发布人工智能模型Ernie 5.0:大幅增强多模态能力

    据报道,百度计划在今年下半年发布下一代人工智能模型Ernie5.0,将大幅增强多模态能力。多模态人工智能能够处理和融合文本、视频、图像和音频等多种信息形式,并实现跨模态转换,例如将文本转换为视频,或将音频转换为图像。Ernie模型的当前版本为第四代,于2023年10月发布,其升级版涡轮版Ernie4.0于2024年8月发布。

  • 搭载多模态AI助理 三星Galaxy S25系列重塑移动AI新格局

    正文不久前,市场研究机构CounterpointResearch发布了一份报告,预计到2028年,全球生成式AI智能手机的出货量将达到7.3亿台,其市场份额占比将攀升至54%,这一数字是2024年预期水平的三倍以上。到2028年,在售价超过250美元的智能手机中,预计每10部中就有9部将具备生成式AI功能。这一切成就,都是三星GalaxyS系列坚持长期主义创新理念、不懈追求技术突破与用户体验优化的璀璨结晶。

  • Sam Altman炸场东京,亲曝GPT-5研发路线图,多模态能力颠覆传统

    OpenAI联合创始人兼首席执行官SamAltman出席了日本东京大学活动,介绍了OpenAI的技术研发、产品规划以及GPT模型未来发展等重要信息。在问答环节,有学生提到了大家比较关心的GPT-5问题,Altman表示,GPT-5将是一个超级混合模型,计划会把GPT和o系列模型整合在一起,并且支持视频、音频、图像的多模态交互。Altman表示,OpenAI积极倡导与全球各界共同探讨伦理问题,希望通过广泛的交流和合作,形成一套科学合理、切实可行的伦理规范。

  • 中科金财多模态应用拓展新领域,AI大剧1月24日起快手独播

    北京中科金财科技股份有限公司与北京快手科技有限公司、北京北斗映画传媒有限公司、南京造火文化传媒有限公司联合出品的微短剧《浮梦吟》,将于2025年1月24日起在快手平台全网独播。这是快手首部将实景拍摄与AIGC制作结合的精品古风微短剧,在奇幻叙事中融入现实意义主题,借助AI技术呈现东方美学,打造现象级精品之作。中科金财将继续深化AI技术在多模态领域的研究与应用,定期评测国内外领先的多模态大模型,向客户提供优质AIGC技术服务,搭建全球多模态创作与应用生态,降低创作门槛,为行业带来更多优质内容供给,并继续拓展多模态应用服务领域,低成本解决长尾企业宣传片生产、投放视频制作等需求,利用AI技术创造业务价值,推动产业的智能化升级。

  • 智谱发布电脑智能大模型GLM-PC:回车即用 协助完成各电脑任务

    智谱科技近日宣布其最新研发的电脑智能体GLM-PC正式开放体验。这款基于智谱多模态大模型CogAgent的智能体,是全球首个面向公众开放的电脑智能体,能够模拟人类的观察”和操作”行为,协助用户高效完成各类电脑任务。智谱还开源了CogAgent-9B-20241220模型,以促进GUIAgent的预训练研究,推动人工智能在电脑操作自动化领域的进步。

  • 三星Galaxy S25系列多模态感知 树立人机交互新范式

    2025年1月23日,三星在AI手机领域再次迈出重要一步,推出了其最新一代旗舰手机——GalaxyS25系列。借助前沿的GalaxyAI技术、多模态AI助理,三星GalaxyS25系列可实现更加自然、直观、易用的人机交互体验,树立了移动交互新范式。随着AI技术的不断进步,我们有理由相信,未来的智能手机将更加智能与人性化三星GalaxyS25系列正是这一愿景下的先行者。

热文

  • 3 天
  • 7天