首页 > 业界 > 关键词  > SALMONN最新资讯  > 正文

音频文本多模态LLM SALMONN:可处理语音、音乐等基本音频

2023-11-29 10:57 · 稿源:站长之家

**划重点:**

1. 🤖 SALMONN是一个单一的音频-文本多模型大型语言模型框架,旨在使大型语言模型能够直接理解和处理包括语音、音频事件和音乐在内的通用音频输入。

2. 🎙️ 该框架通过使用两个听觉编码器(非语音BEATs音频编码器和源自OpenAI Whisper框架的语音编码器)以及窗口级Q-Former等组件,实现了高水平的时间分辨率,用于音频-文本对齐。

3. 📊 在经过激活调整阶段后,SALMONN框架在训练任务中取得了竞争性的性能,包括音频字幕、语音翻译和识别,但在不经过激活调整的情况下,对于跨模态任务的性能下降明显,激活调整阶段的加入显著提高了性能。

站长之家(ChinaZ.com)11月29日 消息:近日,一个名为SALMONN的新型框架引起了广泛关注,旨在将大型语言模型的能力扩展到通用听觉领域。这个由语音、音频事件和音乐构成的通用音频输入是人工智能在真实环境中的关键组成部分。

SALMONN,全称Speech Audio Language Music Open Neural Network,是一个单一的音频-文本多模型大型语言模型框架。它的独特之处在于,它整合了语音和音频编码器与预训练的基于文本的大型语言模型,形成了一个统一的音频-文本多模型。这使得大型语言模型能够直接理解和处理通用音频输入,从而在多种音频和语音任务中取得竞争性的性能,包括问题回答、语音识别和翻译、说话者验证、情感识别以及音频和音乐字幕等。

image.png

SALMONN的核心架构包括两个听觉编码器:一个用于非语音BEATs音频编码器,另一个来自OpenAI Whisper框架的语音编码器。这两个编码器通过自监督迭代学习方法进行训练,以提取语音和非语音高级音频语义。框架还采用窗口级Q-Former结构,用于在帧级别作为连接模块,将Q-Former生成的序列与文本指令提示相结合,然后提供为LoRA适应方法的输入,以生成所需的响应。

在训练方法方面,SALMONN框架采用了三阶段的跨模态训练方法。预训练阶段使用大量音频字幕和语音识别数据对LoRA和Q-Former组件进行预训练。指令微调阶段使用音频事件、音乐任务和语音事件的列表对音频-文本指令进行微调。最后,激活调整阶段针对音频字幕和语音识别任务的过拟合问题进行了调整。

SALMONN框架通过三个不同级别的基准测试来评估其认知听觉能力,涵盖了从简单的翻译和音频字幕到复杂的语音-音频共同推理和基于音频的叙事任务。结果表明,在第一级别的任务上,SALMONN框架在不经过激活调整的情况下取得了竞争性的结果。然而,对于第二和第三级别的任务,没有激活调整,SALMONN框架在任务上过度拟合,性能显著下降。但是,通过激活调整,结果得到了显著改善。

image.png

SALMONN框架标志着大型语言模型迈向通用听觉能力的重要一步。其多模型架构和激活调整阶段的引入使其在音频和语音任务中取得了显著的竞争性性能,为大型语言模型的通用听觉能力提供了新的可能性。

举报

  • 相关推荐
  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频!

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • 破局多模态数据治理难点,数据标注重构企业营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • 喜马拉雅200亿“打折卖身”腾讯音乐,音频平台“捅不破”商业化天花板?

    这场传闻已久的收购终于尘埃落定。 6月10日,腾讯音乐宣布拟收购喜马拉雅,交易对价包括12.6亿美元现金,外加5.1986%的A类普通股,以及为创始股东准备的不超过0.37%的A类普通股激励。以6月10日港股腾讯音乐290亿美元的市值估算,交易总对价约28亿美元,约合200亿,相较于喜马拉雅2021年最高点时50亿美元的估值,相当于打了五六折。考虑到眼下的市场环境,已经算是不坏的结�

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • 短剧深陷复制狂欢:“一本多拍”让跟风越演越烈?

    “这是我看到的第四个姜姒了,我现在满脑子都是姜姒。” “这个本子今天上了四版,观剧体验跟着男主颜值走,王道铁的军官造型帅,李沛洋奶狗型,陈凯洲腼腆型,这版刘俊达也不错,现在就等刘宇航版本了。” “目前四个,第五个待播,以后肯定不止十个。” 正如上述评论所言,对于这种同一剧本(小说IP)被不同团队拍成多部短剧的现象,业界称之为“一本多拍”