首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌推多模态自回归模型Mirasol3B

2023-11-23 16:57 · 稿源:站长之家

要点:

  • Google AI 发布了一种名为 Mirasol3B 的多模态自回归模型,可以学习处理音频、视频和文本等不同的模态数据。

  • Mirasol3B 采用了多模态自回归结构,将时间对齐和上下文模态分开建模,通过交叉注意力机制实现模态之间的信息交换。

  • Mirasol3B 的关键在于其应用了自回归建模到时间对齐的模态中,能够有效地处理长视频输入,并通过一个学习模块 Combiner 来协调视频和音频信号。

站长之家(ChinaZ.com)11月23日 消息:Google AI 推出的 Mirasol3B 是一种创新的多模态自回归模型,能够处理音频、视频和文本等不同模态的数据。该模型通过采用多模态自回归结构,将时间对齐和上下文模态分开建模,并通过交叉注意力机制实现模态之间的信息交换。

image.png

论文地址:https://arxiv.org/abs/2311.05698

Mirasol3B 还应用了自回归建模到时间对齐的模态中,通过智能分块和学习模块 Combiner 协调视频和音频信号,从而有效地处理长视频输入。该模型在各项评估中表现出色,并且相较于更大的模型,在文本生成方面表现出更好的泛化能力。

Mirasol3B 的创新思路和高性能使其成为解决多模态机器学习问题的重要进展,为实际应用提供了强大的多模态理解能力。作为多模态领域的进步标志,Mirasol3B 在不断探索 AI 模型理解世界复杂性的道路上起到了积极的推动作用。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天