首页 > 业界 > 关键词  > 正文

多模态神经网络SALMONN 能够理解声音世界的AI模型

2023-10-25 10:51 · 稿源:站长之家

站长之家(ChinaZ.com)10月25日 消息:SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

image.png

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf

SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。

论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: