首页 > 业界 > 关键词  > SALMONN最新资讯  > 正文

音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频

2023-11-29 10:57 · 稿源:站长之家

**划重点:**

1. 🤖 SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。

2. 🎙️ 该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAI Whisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。

3. 📊 在经过激活调整阶段后,SALMONN框架在训练任务中取得了竞争性的性能,包括音频字幕、语音翻译和识别,但在不经过激活调整的情况下,对于跨模态任务的性能下降明显,激活调整阶段的加入显著提高了性能。

站长之家(ChinaZ.com)11月29日 消息:近日,一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。

SALMONN,全称Speech Audio Language Music Open Neural Network,是一个单一的音频-文本多模型大型语言模型框架。它的独特之处在于,它整合了语音和音频编码器与预训练的基于文本的大型语言模型,形成了一个统一的音频-文本多模型。这使得大型语言模型能够直接理解和处理通用音频输入,从而在多种音频和语音任务中取得竞争性的性能,包括问题回答、语音识别和翻译、说话者验证、情感识别以及音频和音乐字幕等。

image.png

SALMONN的核心架构包括两个听觉编码器:一个用于非语音BEATs音频编码器,另一个来自OpenAI Whisper框架的语音编码器。这两个编码器通过自监督迭代学习方法进行训练,以提取语音和非语音高级音频语义。框架还采用窗口级Q-Former结构,用于在帧级别作为连接模块,将Q-Former生成的序列与文本指令提示相结合,然后提供为LoRA适应方法的输入,以生成所需的响应。

在训练方法方面,SALMONN框架采用了三阶段的跨模态训练方法。预训练阶段使用大量音频字幕和语音识别数据对LoRA和Q-Former组件进行预训练。指令微调阶段使用音频事件、音乐任务和语音事件的列表对音频-文本指令进行微调。最后,激活调整阶段针对音频字幕和语音识别任务的过拟合问题进行了调整。

SALMONN框架通过三个不同级别的基准测试来评估其认知听觉能力,涵盖了从简单的翻译和音频字幕到复杂的语音-音频共同推理和基于音频的叙事任务。结果表明,在第一级别的任务上,SALMONN框架在不经过激活调整的情况下取得了竞争性的结果。然而,对于第二和第三级别的任务,没有激活调整,SALMONN框架在任务上过度拟合,性能显著下降。但是,通过激活调整,结果得到了显著改善。

image.png

SALMONN框架标志着大型语言模型迈向通用听觉能力的重要一步。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。

举报

  • 相关推荐
  • 张艺兴×全红婵集体打call!最嗨音乐班凭啥让明星排队合拍?

    ​最近,抖音上一个“音乐班”的视频突然爆火,原因无他——张艺兴和全红婵竟然同框打call了! 一个是国民级偶像,一个是奥运跳水冠军,看似毫无交集的两人,却在和同一个短视频合拍,为这段节奏感炸裂的音乐班表演疯狂喊麦。

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • AI日报:Google Skills平台向公众免费开放内部AI知识;LiblibAI 完成1.3亿美元融资;Sora更新推出“角色客串”功能

    本期AI日报聚焦视频生成领域重大进展:昆仑万维SkyReels将于11月上线新版AI视频工具;LiblibAI完成1.3亿美元融资;阿里推出夸克对话助手;豆包视频模型Seedance1.0pro实现首尾帧一致性突破;Vidu Q2全面开放API;Sora新增角色客串功能并即将推出安卓版;MiniMax海螺2.3在真实感方面超越Veo;谷歌推出免费AI学习平台"Google Skills";字节跳动Seed团队发布3D生成模型Seed3D1.0,支持单图生成高质量3D资产。

  • 多模态神经网络SALMONN 能够理解声音世界的AI模型

    SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。论文地址:https://arxiv.org/pdf/2310.13289v1.pdfSALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。这一研究有望推动具有通用听觉能力的人工智能的发展。

  • 研究显示:语言模型causalLM在上下文学习中不如prefixLM

    近期的研究发现,在上下文学习中,基于Transformer的前缀语言模型表现更优于因果语言模型,然目前仍缺乏这一差异的理论解释。本文采用理论分析和实验验证,揭示了前缀语言模型和因果语言模型在上下文学习中的性能差异,并证明了前缀语言模型在收敛行为和优化解上的优势。这一研究对于了解上下文学习中语言模型的工作原理和优化行为具有重要意义,值得进一步深入探究和应用。

  • Ballmer:微软不会给苹果留任何余地

    冰冻三尺非一日之寒,微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵,而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺,微软将与苹果斗争到底。 在本周微软全球合作者大会上,Ballmer称:“微软的目标很明确 — 不给苹果留下任何余地。”目前,微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示:

  • 清华电子系联合火山语音开源全新的听觉大语言模型——SALMONN

    SALMONN是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型,能够处理语音、音频事件和音乐输入。相比于只能处理语音或音频事件的模型,SALMONN能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频-语音推理等新兴能力。4.支持根据文本和语音命令进行操作。

  • 菲洛嘉医学科学升级,菲欧曼FILLMED让你逆转时光,定格青春

    在岁月面前,我们总是感叹自己的无能为力,因为每个人都要经历身体从充满力量到步履蹒跚,肌肤从光滑水嫩到布满皱纹,因此延缓衰老、永驻青春,成为了女人们永恒的梦想,这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此,为了守护广大爱美人士的肌肤状态,让每个人相遇最好状态的自己, 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。 自创立以来,菲洛嘉医学便始终致力于抗衰老

  • Richard Stallman发布GNU C语言参考手册

    GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册,今天他宣布了GNUC语言介绍和参考手册,以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念,但对C语言一无所知,你可以从头开始按顺序阅读本手册,也可以用来学习C语言...如果你是编程的初学者,建议你首先学习一种具有自动垃圾收集和无显式指针的语言,而不是从C语言开始,其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告:......

  • 安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

    余斌作为FILLMED艺术填充臻选注射医师、美国舒铂面部假体指定临床手术专家、诺鼻尔美鼻整形大赛金奖获得者, 在为期 3 天的学术盛宴中,先后带来了关于艺术填充、鼻整形、面部假体手术三节大师课,受到现场嘉宾的们的一致好评...2019 年,以色列医疗整形发展组织对余斌的技术能力和成果案例给予高度评价,特邀余斌医生成为以色列整形美容推广大使,希望共同推动整形美容在中国乃至世界的发展......

今日大家都在搜的词: