首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

EPFL联合苹果开源人工智能框架4M

2023-12-18 14:41 · 稿源:站长之家

要点:

  • 瑞士洛桑联邦理工学院(EPFL)与苹果的研究人员共同开源了名为4M的人工智能框架,旨在训练跨足多个模态和任务的多模态基础模型。

  • 为了提高视觉领域的可伸缩性和多样性,研究团队采用了一种策略,通过训练单一集成的Transformer编码器-解码器,实现了大规模多模态遮蔽建模目标。

  • 4M框架通过使用模态特定的分词器,能够将各种格式的输入,包括文本、边界框、图片或神经网络特征等,转换成离散标记的集合或序列,从而实现了单一Transformer对各种模态的训练,提高了兼容性、可伸缩性和参数共享。

站长之家(ChinaZ.com)12月18日 消息:瑞士联邦理工学院(EPFL)与苹果的研究人员合作开发的4M框架在人工智能领域引起了广泛关注。该框架的核心目标是训练多模态基础模型,能够跨足多个模态和任务,以提高视觉处理的可伸缩性和多样性。在自然语言处理领域,大型语言模型(LLMs)的训练已经变得流行,但在视觉领域,仍然需要创建同样灵活和可扩展的模型。为了克服这些障碍,研究团队提出了一种训练单一Transformer编码器-解码器的策略,该策略使用了一种名为“Massively Multimodal Masked Modeling”(4M)的方法。

image.png

项目地址:https://4m.epfl.ch/

该方法通过结合遮蔽建模和多模态学习的优点,实现了强大的跨模态预测编码能力和共享场景表示。4M通过使用模态特定的分词器,能够将不同格式的输入转换成集合或序列的标记,从而使单一Transformer可以用于文本、边界框、图片或神经网络特征等各种模态的训练。这种标记化的方法不仅提高了模型的兼容性和可伸缩性,还避免了使用任务特定的编码器和头部,使得Transformer能够在任何模态下保持完全参数共享。

值得注意的是,4M框架在训练效率方面也取得了成功。它通过利用输入和目标遮蔽,即从所有模态中随机选择少量标记作为模型输入和另一组作为目标,实现了对大量模态的高效训练目标。这种策略在防止计算成本随模态数量增加而急剧增加的同时,还允许在不同和大规模数据集上进行训练,而无需多模态/多任务注释。

总的来说,4M框架通过使用多模态遮蔽建模目标,实现了可控生成模型的训练,这使得模型能够根据任何模态进行条件化。这为用户意图的多样表达和各种多模态编辑任务提供了可能。通过对4M框架性能的深入分析,研究团队展示了其在许多视觉任务和未来发展中的巨大潜力。这一研究不仅对于提高视觉处理模型的灵活性和性能至关重要,也为人工智能领域的未来发展提供了有益的启示。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: