Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

2024-07-17 14:54 · 来源： AIbase基地

阿里云最新发布了一名为 Qwen-Audio 的大规模音频语言型，该模型可接受多种音频信号输入，够进行音频分析或直接回答语音指令极大地提升了语音交互体验。

产品入口:https://top.aibase.com/tool/qwen2-audio

在此次发布中，Qwen2udio 提供了两种独特的音交互模式:音聊天和音频分析。用户无需输入文字即与 Qwen2-Audio 进行语音交，同时还可以交互中提供音频和文本令进行分析为用户带来更便捷的体验。

Qwen2-Audio能够智能地理解音频中的内容，并按照语音命令做出适当的响应。例如，在同时包含声音、多扬声器对话和语音命令的音频段中，Qwen2-Audio 可以直接理解该命令并提供对音频的解释和响应。

此外，DPO 还优化了模型在事实性和对期望行为的遵守方面的性能。根据AIR-Bench的评估结果，Qwen2-Audio在专注于以音频为中心的指令跟踪功能的测试中，优于以前的SOTA，如Gemini-1.5-pro。Qwen2-Audio是开源的，旨在促进多模态语言社区的进步。

据了解，Qwen2-Audio 系列将推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat，为用户提供更丰富的音频互体验。

研究人员将对 Qwen2-Audio 模型进行全面评估，评估其在各种任务中的性能，而无需进行任何特定于任务的微调。英语自动语音识别（ASR）结果方面，其中Qwen2-Audio与以前的多任务学习模型相比表现出更高的性能。

Qwen2-Audio的聊天能力方面，研究人员在AIR-Bench的聊天基准上测量了其性能（Yang et al.，2024），Qwen2-Audio 展示了跨语音、声音音乐和混合音频子集的最先进的 (SOTA) 指令跟踪功能。与 Qwen-Audio 相比，它显示出实质性的改进，并且显着优于其他 LALM。

划重点:
🌟 阿里云发布 Qwen2-Audio，一款革新性的大规模频语言模型，提升了语音交互体验;
Qwen2-Audio 可接受多种音频信号输入进行音频分析或直接回答语音指令，大地拓展了语音交互功能;
🌟 通过三段训练过程，Qwen2-Audio 的模型结构训练方法和性能表现得到了全面展示为用户带来更加优质的音频交互体验。

相关推荐

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效
寒武纪智能芯片赋能多模态大模型应用

大模型快速发展推动人工智能技术迈向新阶段，从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示，2024年中国大模型开发平台市场规模达16.9亿元，人工智能算力市场约190亿美元，预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发，推出多款处理器及加速卡产品，支持大模型训练推理及多模态任务，并与产业链合作共同推进人工智能产业发展。

大模型人工智能强人工智能
阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今晚，阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V，并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程，仅需提供一张静态图片和一段音频，模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成，不止嘴动，手势、表情、姿态都能动。

视频生成模型通义万相数字人视频
倍思 Inspire系列重磅发布！携手Sound by Bose重新定义专业音频，售价799元起

2025年9月5日，倍思与Bose联合发布Inspire系列三款旗舰音频新品：全球首款圈铁双单元耳夹耳机XC1、真无线降噪耳机XP1及头戴式降噪蓝牙耳机XH1。新品融合Bose声学技术，支持Hi-Res认证、LDAC高清解码，主打专业音质与舒适佩戴。价格亲民（XC1补后764元，XH1补后849元，XP1补后679元），旨在打破高端音频价格壁垒，让专业音质走进大众生活。即日起开启预售，9月12日正式发售。

倍思Inspire 音频新品 Sound
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
松胜按摩椅有了大师系列还推时空系列，背后藏着这些小心思

松胜推出时空系列按摩椅，旨在满足高端用户对按摩体验和家居颜值的双重需求。相比主打性价比的大师系列，时空系列采用4D按摩机芯、加长导轨和气囊包裹技术，提供SPA级沉浸式享受；外观采用现代设计语言，适配多种装修风格。品牌通过双系列布局覆盖不同消费群体，实现专业普惠与高端体验的互补。

松胜大师系列按摩椅性价比时空系列
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
华为千元内最好的降噪耳机！华为FreeBuds 7i来了：接入鸿蒙智能体

华为FreeBuds 7i即将登场，预计8月28日预售，9月4日首销。官方宣传图称其为华为千元内最好的降噪耳机”，支持新一代智慧动态降噪，全频段平均降噪深度28dB。支持90dB噪声下，消除环境背景音，精准拾取人声。耳机采用11mm四磁铁动圈单元，支持头部跟踪空间音频，带来声临其境的体验。关闭降噪最长使用时间为35小时，支持快充，充电10分钟就能听歌4小时。

华为FreeBuds 7i 降噪耳机
真我15系列官宣9月16日发布号称夜拍神器

今日，真我手机正式对外宣布，备受期待的真我 15 系列将于 9 月 16 日19: 00 盛大发布，其产品Slogan定为“夜拍神器，放肆去拍”，彰显出该系列在夜间拍摄方面的强大实力。据悉，该系列将提供8GB+256GB和16GB+256GB两种存储规格供消费者选择，同时推出钛灰（灰）和樱粉两种时尚配色，满足不同用户的个性化需求。在设计方面，真我 15 系列采用了矩阵相机模组设计，后摄呈�

真我15系列夜拍神器矩阵相机模组

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

寒武纪智能芯片赋能多模态大模型应用

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

倍思 Inspire系列重磅发布！携手Sound by Bose重新定义专业音频，售价799元起

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

松胜按摩椅有了大师系列还推时空系列，背后藏着这些小心思

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

华为千元内最好的降噪耳机！华为FreeBuds 7i来了：接入鸿蒙智能体

真我15系列官宣9月16日发布号称夜拍神器

今日大家都在搜的词：

热文

雷军第90次健身房打卡距离健身目标仅剩10次

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

全新问界M7开售1小时订单破10万售价28.8万元起

尊界S800选配星空顶涨价3万：价格上调至 8 万元

站长商机

Qwen2-Audio：千问系列的音频多模态模型 无需文字即可语音交互

今日大家都在搜的词：

热文

站长商机

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互