首页 > 业界 > 关键词  > 阿里巴巴最新资讯  > 正文

阿里巴巴推大规模音频语言模型Qwen-Audio

2023-11-23 11:04 · 稿源:站长之家

要点:

  • 阿里巴巴研究团队推出了Qwen-Audio系列,这是一组具有通用音频理解能力的大规模音频语言模型。

  • Qwen-Audio通过采用层次标签的多任务框架,成功应对了多样化任务的挑战,并在基准任务上取得了令人印象深刻的性能,无需特定任务的微调。

  • Qwen-Audio-Chat是在Qwen-Audio基础上构建的,支持多轮对话和各种音频中心场景,展示了其通用音频理解能力。

站长之家(ChinaZ.com)11月23日 消息:阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架,成功解决了有限的预训练音频模型面临的多样化任务的挑战。

相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。

Qwen-Audio的多任务框架有助于减轻干扰,实现了在基准任务上的显著性能。Qwen-Audio-Chat作为扩展,不仅支持多轮对话,还适用于各种音频中心场景,展示了在大规模音频语言模型中全面的音频交互能力。

image.png

项目地址:https://github.com/qwenlm/qwen-audio

尽管大规模语言模型在通用人工智能方面表现出色,但它们缺乏对音频的理解。Qwen-Audio系列的推出填补了这一空白,将预训练扩展到30个任务和多种音频类型。

Qwen-Audio系列的训练方法分为两种:Qwen-Audio采用多任务预训练方法,优化音频编码器同时冻结语言模型权重;相反,Qwen-Audio-Chat采用监督微调,优化语言模型同时固定音频编码器权重。这一训练过程包括多任务预训练和监督微调,使Qwen-Audio-Chat具有多样的人际交互能力,支持从音频和文本输入中的多语言、多轮对话。

Qwen-Audio在各种基准任务上表现出色,明显优于没有特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终超越基线,同时在CochlScene、ClothoAQA和VocalSound上取得了最先进的结果,展示了其在挑战性音频任务中的有效性和能力。

Qwen-Audio系列未来的探索方向包括扩展不同音频类型、语言和特定任务的能力。通过优化多任务框架或探索替代的知识共享方法,可以解决协同训练中的干扰问题。

研究人员还计划通过不断更新基于新基准、数据集和用户反馈的内容,提高通用音频理解水平。Qwen-Audio-Chat将进一步优化以符合人类意图,支持多语言互动,并实现动态多轮对话。

举报

  • 相关推荐
  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • 魅族Flyme AIOS 2宣布接入阿里云端到端大模型Qwen Omni

    Flyme AIOS2系统引入全新设计的智能助手Aicy,其界面设计更具呼吸感与动态效果,同时搭载升级后的思考引擎,可实现更精准的语义理解和场景响应。值得关注的是,该系统成为业内首家接入阿里云自主研发的Qwen Omni云端到端大模型的操作系统,支持超低延迟的自然语音交互,并覆盖多地

  • 阿里巴巴内网曝出四件大事 阿里员工兴奋值拉满

    阿里巴巴5月10日宣布四项重大组织文化调整:1)打通内网论坛"阿里味儿";2)调整员工跨业务流动机制;3)延续510阿里日等文化活动;4)启动工牌焕新。CEO吴泳铭发帖强调阿里基因里只有"创造"没有"守成"。此次调整旨在保持业务灵活性的同时强化文化一致性。值得注意的是,内网打通后10万员工首次同步看到高管发帖,员工反响热烈。新流动机制保留司龄激励,但跨业务流动仍需先离职再入职。多位员工表示感受到阿里创业激情的回归。

  • 阿里巴巴正式开源千问3 仅需4张H20即可部署满血版

    阿里巴巴开源新一代通义千问模型Qwen3,采用混合推理架构,集成"快思考"与"慢思考"模式,能根据任务复杂度自动调整计算资源。该模型参数规模235B,在GPQA等权威评测中表现优异,以更小规模实现超越上一代模型的性能。Qwen3包含2款MoE模型和6款密集模型,部署成本大幅降低,仅需4张H20显卡即可运行满血版,显存占用仅为同类模型的三分之一。新模型通过智能分配算力,在简单任务上快速响应,复杂问题上深度思考,显著提升能效比。

  • 全球首创!阿里巴巴AI攻克“癌症之王”早筛难题 获FDA最高级别认证

    快科技4月18日消息,据报道,阿里巴巴AI模型DAMO PANDA被FDA认定为突破性医疗器械”。DAMO PANDA是阿里巴巴达摩院研发的胰腺癌筛查AI模型,可精准识别平扫CT影像中的细微病灶,攻克了胰腺癌早期筛查的国际难题。这也是中国头部科技企业首次拿下该项权威认可。达摩院在国际上率先提出平扫CT AI”筛查方案,联合全球顶尖医学机构开发出DAMO PANDA模型。测试数据显示,其筛查敏感

  • 阿里Qwen3发布后 马斯克立刻官宣:下周推出Grok 3.5

    快科技4月29日消息,马斯克刚刚在社交平台X上称,下周将向SuperGrok订阅者推出Grok 3.5,并将该条信息顶置。据马斯克称,Grok 3.5是第一个能够准确回答有关火箭发动机或电化学技术问题的人工智能。同时,Grok可以从第一原理推理并得出互联网上根本不存在的答案。Grok 3.5被马斯克旗下的xAI宣传为全球首个人工智能能从第一性原理推理,生成网络上不存在的答案”。而今年2月18日,xAI正式发布Grok 3,并在两天后把Grok 3免费向所有公众开放,超越ChatGPT,登顶苹果应用商店免费应用下载排行榜第一名。马斯克曾称Grok 3为地球上最聪明的人工智

  • 联发科:天玑9400已率先完成阿里Qwen3端侧部署

    阿里巴巴通义千问团队开源发布新一代Qwen3系列混合推理模型,包含2个MoE模型和6个dense模型,参数规模从0.6B到235B。该系列采用前沿的混合专家架构,预训练数据量达36T tokens,在推理、指令遵循、多语言能力等方面显著提升。联发科宣布天玑9400芯片率先完成Qwen3端侧部署,其搭载的第八代AI处理器NPU+890在ETHZ AI Benchmark测试中表现优异。天玑9400凭借强大AI算力,可让用户在手机等终端设备上高效使用Qwen3模型。旗舰模型Qwen3-235B-A22B在编码、数学等基准测试中展现出与DeepSeek、Grok-3等模型的竞争优势,同时部署成本大幅降低,显存占用仅为性能相近模型的三分之一。

  • Qwen3深夜正式开源,小尺寸也能大力出奇迹。

    阿里发布通义千问Qwen3大模型系列,包含8个不同规模的模型,从0.6B到235B参数全覆盖。亮点包括:1)全球顶尖模型能力;2)首个开源的混合推理模型;3)支持119种语言;4)部署成本仅为DeepSeek+R1的三分之一;5)支持MCP协议。其中235B旗舰模型性能对标顶级闭源模型,30B-MoE模型激活参数仅3B。所有模型均采用Apache2.0协议开源,支持商用。实测显示Qwen3在代码和写作方面优于DeepSeek

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分