首页 > 业界 > 关键词  > 4M最新资讯  > 正文

EPFL与苹果研究人员开源4M:跨多种模态和任务训练多模态基础模型的人工智能框架

2023-12-18 10:48 · 稿源:站长之家

**划重点:**

- 🌐 **多模态挑战:** 自然语言处理中训练大型语言模型(LLMs)变得流行,但在视觉领域仍需灵活可扩展的模型。

- 🤖 **4M框架:** EPFL和苹果团队提出"Massively Multimodal Masked Modeling"(4M)框架,整合Transformer技术,具备强大的跨模态能力。

- 🚀 **可扩展性与效率:**4M通过模态特定的标记器实现对各种输入模态的训练,提高兼容性、可扩展性,并通过输入和目标掩码实现高效训练。

站长之家(ChinaZ.com) 12月18日 消息:近日,瑞士洛桑联邦理工学院(EPFL)与苹果联手推出了一项名为"Massively Multimodal Masked Modeling"(4M)的人工智能框架,旨在解决训练跨多模态视觉基础模型的挑战。尽管在自然语言处理领域,训练大型语言模型(LLMs)已经取得了显著成功,但在视觉领域,仍需要构建能够灵活处理多种输入模态和输出任务的模型。

image.png

4M框架采用了一种独特的策略,通过训练单一的Transformer编码器-解码器,具备多模态的掩码建模目标。"Massively Multimodal Masked Modeling"强调了该方法在扩展到多种各异模态方面的能力。这一方法融合了掩码建模和多模态学习的最佳特性,包括强大的跨模态预测编码能力、共享场景表示以及通过迭代抽样实现生成任务的能力。

不仅如此,4M在保持高效性的同时,通过模态特定的标记器将各种格式的输入模态转换为离散标记的集合或序列,使得单一的Transformer可以同时处理文本、边界框、图片或神经网络特征等多种输入模态,实现它们的统一表示领域。

此外,4M采用了输入和目标掩码的方式,即从所有模态随机选择一小部分标记作为模型输入,另一小部分作为目标。通过将输入和目标标记的数量与模态数量解耦,防止了随着模态数量增加而导致的计算成本快速上升。通过利用CC12M和其他可用的单模态或文本-图片对数据集,使用强大的伪标签网络创建模态对齐的绑定数据,4M在不需要多模态/多任务注释的情况下,可以在不同且大规模的数据集上进行训练。

研究人员发现,4M模型不仅在多个重要的视觉任务上表现出色,而且可以进行精细调整以在未来的任务和输入模态上取得显著成果。为了训练可导向的生成模型,可以根据任何模态进行条件化,必须使用多模态的掩码建模目标。通过对4M性能影响的深入消融分析,结合该方法的简便性和通用性,研究人员认为4M在许多视觉任务和未来发展中具有巨大的潜力。

项目体验网址:https://4m.epfl.ch/

论文网址:https://arxiv.org/abs/2312.06647

举报

  • 相关推荐
  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 首发3229元起 小米年度旗舰智能门锁M40 Pro开售:AI掌静脉识别 隔空刷掌开锁

    今日,小米智能生态官微宣布,小米年度旗舰智能门锁M40 Pro今晚8点开售。 小米智能门锁M40 Pro建议零售价3799元,首发到手价3229.15元。 据了解,该门锁支持12种开锁方式,除AI掌静脉、AI 3D人脸识别、AI指纹、长期密码、周期/一次性密码、远程开锁、手机蓝牙开锁、应急机械钥匙外,还支持小米手机、手表、手环、NFC门卡(均需加购)开锁。

  • 首款20万以内的鸿蒙智行!尚界M5上市43天交付破万台

    鸿蒙智行官方宣布,尚界H5上市43天交付即破万,目前产能正在稳步爬升。 同时,尚界H5的限时权益也同步上新,12月1日24:00前完成大定锁单,可享至高43588元限时权益,及至高9000元跨年购置税全额兜底。

  • 大朋AI眼镜1349元起加入AI墨镜热潮,以更高质价比回应行业关注

    11月13日,Rokid与暴龙联合发布BOLON AI智能眼镜(2199元起),推动AI穿戴成为行业热点。同时,大朋AI眼镜以更实用定位和1349元起的价格策略,成为舆论对比焦点。两者发布叠加热度,共同验证AI眼镜正向“户外实用型”赛道转型。大朋明确切入户外场景,定位“年轻人潮流装备”,强调真实佩戴与第一视角记录功能。千元价格带形成品类竞争分水岭,被视为“普及路径”与“高端探索”的首次正面交锋。行业观察指出,大朋让AI眼镜从尝鲜产品转向“可真戴、真用、真买”的消费品,契合户外活动升温趋势。目前该产品已在京东开启预约,将于11月进入放量阶段,被视为最有机会在大众市场率先跑通的品牌之一。

  • 限量200台!小鹏商城发售Mona M03 24K镀金车模:仅售398元

    为纪念小鹏MONA交付突破20万台,小鹏商城推出1:43复刻版MONA纪念金车模型。该模型采用锌合金精密铸造,配24K真金电镀,限量200台,售价398元(支持积分抵扣)。配备钻石压纹礼盒,内置防尘罩和环保底座,适合收藏或送礼。小鹏MONA M03上市14个月交付达20万台,连续12个月交付破万,创下新势力纯电轿车首月交付纪录。

  • 智检加速:AI云测试如何为香港企业 IT 项目减负40%人力成本

    香港企业在App研发中面临高昂人力成本与复杂技术栈挑战,导致测试效率低、交付缓慢。Testin云测通过AI驱动的自动化测试方案,整合云端资源与专业服务,实现降本增效:硬件投入优化50%,人力成本降低40%;AI脚本生成技术提升测试效率60%,支持跨平台复用;精准OCR识别助力迭代周期缩短50%。聚焦金融、政企、交通等重点行业,提供符合国际标准的安全测试保障,助力企业从人力密集型向技术密集型转型,以更高质量、更快速度赢得市场竞争。

  • 横扫拉美、力压字节系,「AI届的4399」成为出海AI应用新王?

    在 Sensor Tower 发布的 Q3应用出海榜单中,我们注意到了一个特别的 AI 应用「Seekee」。 它空降下载榜 Top9,是当季度在海外获得最多下载量的出海 AI 应用,而由字节跳动出品、近一段时间炙手可热的「Cici」尽管排名上涨,但仅位列第13。

  • 小米智能门锁M40 Pro发布:售价3229元起 33D人脸+掌静脉

    小米正式发布智能门锁M40 Pro,预售价3229.15元,叠加补贴后低至2880.4元。配备5英寸高清大屏与AI双摄全景猫眼,实现无死角监控;搭载6颗夜视补光灯,支持多种夜视模式。提供12种开锁方式,包括创新AI掌静脉识别(解决老人指纹磨损问题)和AI 3D人脸识别(防伪检测)。采用自研降噪全自动锁体,支持双电池供电(总续航10.5个月),新增门内长时插线充电功能,支持Type-C应急供电和手机无线反向充电。

  • 小鹏MONA M03累计交付破20万台

    小鹏汽车MONA M03车型上市14个月累计交付20万台,连续12个月月交付破万。该车去年8月上市,定位年轻群体,价格区间11.98-15.58万元。动力搭载160千瓦电机,配备磷酸铁锂电池,CLTC续航最高620公里,支持快充功能,15分钟可补能200公里。市场表现亮眼,首月即实现交付破万,创下新势力纯电轿车首月交付纪录。

  • 寒冬出行便捷与舒适兼得,问界新M5 Ultra凭实力助您告别烦恼

    冬季出行面临晨雾、路面湿滑等挑战,问界新M5 Ultra凭借卓越软硬件配置,成为用户安心之选。其搭载华为ADS辅助驾驶系统,配备多雷达与摄像头,实现360°环境感知,浓雾中仍能精准识别路况。舒适制动功能优化减速曲线,减轻晕车感。主动安全配置如全向防碰撞系统,配合高强度车身,全面守护驾乘安全。同时,快速空调升温与加热座椅提升冬季舒适性。当前购车可享至高价值37794元权益,含多项补贴与服务优惠,助您从容应对寒冬出行。

今日大家都在搜的词: