阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

2025-09-23 09:29 · 来源： AIbase基地

阿里云发布了 Qwen3-Omni，标志着全球首个原生端到端全模态 AI 模型的问世，并且该模型现已开源。Qwen3-Omni 具备处理文本、图像、音频和视频等多种输入类型的能力，能够实现实时流式输出，无论是通过文本还是自然语音，均能快速响应。

Qwen3-Omni 模型在多个领域展现出跨模态的先进表现。通过早期以文本为核心的预训练和混合多模态训练，该模型具备了强大的多模态能力。在音频和视频的性能上尤为出色，同时在文本和图像的效果上也能保持高标准。根据36项音频和视频的基准测试，Qwen3-Omni 在22项中达到了最新的领先水平，尤其是在自动语音识别和音频理解等领域的表现已与同行业的 Gemini2.5Pro 不相上下。

Qwen3-Omni 支持119种文本语言和19种语音输入语言，另外还有10种语音输出语言，包括英语、中文、法语和德语等多种语言。此项功能让它能够更好地服务于全球用户。其创新的架构设计基于 MoE（专家混合）系统，结合了 AuT 预训练，从而使模型具有强大的通用表征能力。同时，多码本设计确保了低延迟的实时音频和视频交互，支持自然对话的流畅进行。

除了 Qwen3-Omni，阿里云还发布了 Qwen3-TTS，一个支持17种音色选择的文本转语音模型。该模型在多项评估基准中表现出色，超越了多款竞品，尤其在语音稳定性和音色相似度方面尤为突出。

Qwen-Image-Edit-2509是另一个新发布的工具，专注于图像编辑的多图像支持，显著提升了编辑的一致性和效果。它不仅能够处理单图像，还支持多图像的拼接编辑，能够满足更复杂的编辑需求。

GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

划重点:
🌟 Qwen3-Omni 是全球首个原生端到端全模态 AI 模型，支持文本、图像、音频和视频的统一处理。
🌐 模型支持119种文本语言和19种语音输入，能够满足全球用户的多语言需求。
🖼️ 新发布的 Qwen-Image-Edit-2509支持多图像编辑，显著提升编辑的一致性和效果。

相关推荐

云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

9月24日，2025云栖大会在杭州开幕，主题为“云智一体·碳硅共生”，汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型，其中Qwen3-Omni作为行业首个端到端全模态AI大模型，在36项基准测试中实现22项SOTA，性能全面突破。大会聚焦多模态技术，斑马智行宣布率先接入Qwen3-Omni，并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni，具备主动智能、断网可用、隐私无忧三大特点，推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产，标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日，预计更多创新技术将亮相。

云栖大会通义大模型 AI技术
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
统一全球保鲜标准后，海尔又制定全球首个冰箱声音舒适度标准

海尔冰箱连续17年全球销量第一，持续引领行业标准创新。针对用户对家居静音需求提升，海尔牵头制定全球首个《家用冰箱声音舒适度评价方法》，从分贝数值竞争升级至听觉体验优化。其首创多维声屏障科技，通过低、中、高频分段降噪，实现运行噪音低至31分贝，达“一米外听不见”的静音效果。9月26日，搭载该技术的麦浪冰箱9系新品通过德国VDE最高A级认证并正式发布。海尔联合多家权威机构填补行业标准空白，推动冰箱从“功能合格”迈向“体验优秀”，巩固全球引领地位。

冰箱品牌国际标准声音舒适度
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
模型即服务，应用即未来：阿里云助力中小企业AI应用规模化落地

阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点，提出全链路解决方案。数据显示，77%全球中小企业已定期使用AI工具，中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架，降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”，博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业，助力企业从“有算力”到“能落地”，推动AI应用成为行业常态。

中小企业AI落地 AI解决方案 AI应用实践
腾讯混元图像3.0登顶LMArena榜一

腾讯混元图像3.0模型发布仅一周，即在全球26个顶尖大模型中脱颖而出，登顶LMArena权威榜单首位，成为AI生图领域新王者。其成功得益于三大核心优势：能运用知识推理生成有逻辑内涵的图像；精准实现中英文长文本及细节标注的渲染；兼具真实质感与审美把控。作为开源模型，混元系列已构建覆盖多模态的技术生态，社区衍生模型超3000个，其中混元3D模型下载量超260万次，是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

腾讯混元图像3.0 AI文生图开源生图模型
小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

AI语音开源模型少样本学习
AI落地难？阿里云AI先锋新成员实战证明，对症的场景化方案才是关键

本文探讨AI技术如何通过精准定位与协同合作破解行业难题。文章指出，AI渗透速度远超传统技术，IDC预测2025年全球AI支出将达3370亿美元。以阿里云为例，其通过算力底座与通用技术链接垂直领域伙伴，提供"技术+场景"一体化方案。文中列举挖地兔、集思科技等6家企业案例，展示AI在量化投资、电商直播等场景的实际应用，强调AI落地需找准对应场景，而阿里云的技术支撑与生态协同正推动千行百业实现数字化转型。

AI渗透技术支出应用落地
华为云GaussDB将接入全球首个通算超节点性能提升2.9倍

华为在第十届全联接大会上发布基于TaiShan950超节点的GaussDB多写架构，性能提升2.9倍，每分钟可处理540万笔事务。该架构实现计算、内存、存储三层资源池化，支持秒级故障恢复，可平滑替代传统数据库。GaussDB已应用于金融、政务等关键行业，在中国数据库市场以13.9%份额首次超越Oracle登顶。华为通过20余年研发实现全栈自主创新，标志着中国数据库技术从跟随到引领的关键跨�

华为全联接大会 GaussDB多写架构 TaiShan950
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问

今日大家都在搜的词：

热文

3 天
7天

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

统一全球保鲜标准后，海尔又制定全球首个冰箱声音舒适度标准

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

模型即服务，应用即未来：阿里云助力中小企业AI应用规模化落地

腾讯混元图像3.0登顶LMArena榜一

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

AI落地难？阿里云AI先锋新成员实战证明，对症的场景化方案才是关键

华为云GaussDB将接入全球首个通算超节点性能提升2.9倍

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

今日大家都在搜的词：

热文

雷军：小米17系列开售仅5天销量破100万台

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

今日大家都在搜的词：

热文

站长商机

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理