11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。论文地址:https://arxiv.org/pdf/2310.13289v1.pdfSALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。这一研究有望推动具有通用听觉能力的人工智能的发展。
SALMONN是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型,能够处理语音、音频事件和音乐输入。相比于只能处理语音或音频事件的模型,SALMONN能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频-语音推理等新兴能力。4.支持根据文本和语音命令进行操作。