首页 > AI头条  > 正文

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni,实现文本、图像、音频与视频的统一处理

2025-09-23 09:29 · 来源: AIbase基地

阿里云发布了 Qwen3-Omni,标志着全球首个原生端到端全模态 AI 模型的问世,并且该模型现已开源。Qwen3-Omni 具备处理文本、图像、音频和视频等多种输入类型的能力,能够实现实时流式输出,无论是通过文本还是自然语音,均能快速响应。

image.png

Qwen3-Omni 模型在多个领域展现出跨模态的先进表现。通过早期以文本为核心的预训练和混合多模态训练,该模型具备了强大的多模态能力。在音频和视频的性能上尤为出色,同时在文本和图像的效果上也能保持高标准。根据36项音频和视频的基准测试,Qwen3-Omni 在22项中达到了最新的领先水平,尤其是在自动语音识别和音频理解等领域的表现已与同行业的 Gemini2.5Pro 不相上下。

Qwen3-Omni 支持119种文本语言和19种语音输入语言,另外还有10种语音输出语言,包括英语、中文、法语和德语等多种语言。此项功能让它能够更好地服务于全球用户。其创新的架构设计基于 MoE(专家混合)系统,结合了 AuT 预训练,从而使模型具有强大的通用表征能力。同时,多码本设计确保了低延迟的实时音频和视频交互,支持自然对话的流畅进行。

除了 Qwen3-Omni,阿里云还发布了 Qwen3-TTS,一个支持17种音色选择的文本转语音模型。该模型在多项评估基准中表现出色,超越了多款竞品,尤其在语音稳定性和音色相似度方面尤为突出。

Qwen-Image-Edit-2509是另一个新发布的工具,专注于图像编辑的多图像支持,显著提升了编辑的一致性和效果。它不仅能够处理单图像,还支持多图像的拼接编辑,能够满足更复杂的编辑需求。

  • GitHub:https://github.com/QwenLM/Qwen3-Omni

  • huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

划重点:  

🌟 Qwen3-Omni 是全球首个原生端到端全模态 AI 模型,支持文本、图像、音频和视频的统一处理。  

🌐 模型支持119种文本语言和19种语音输入,能够满足全球用户的多语言需求。  

🖼️ 新发布的 Qwen-Image-Edit-2509支持多图像编辑,显著提升编辑的一致性和效果。  

  • 相关推荐
  • 云栖大会智舱黑科技:全球首个全模态端侧大模型解决方案,斑马智行首发

    9月24日,2025云栖大会在杭州开幕,主题为“云智一体·碳硅共生”,汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型,其中Qwen3-Omni作为行业首个端到端全模态AI大模型,在36项基准测试中实现22项SOTA,性能全面突破。大会聚焦多模态技术,斑马智行宣布率先接入Qwen3-Omni,并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni,具备主动智能、断网可用、隐私无忧三大特点,推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产,标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日,预计更多创新技术将亮相。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • 统一全球保鲜标准后,海尔又制定全球首个冰箱声音舒适度标准

    海尔冰箱连续17年全球销量第一,持续引领行业标准创新。针对用户对家居静音需求提升,海尔牵头制定全球首个《家用冰箱声音舒适度评价方法》,从分贝数值竞争升级至听觉体验优化。其首创多维声屏障科技,通过低、中、高频分段降噪,实现运行噪音低至31分贝,达“一米外听不见”的静音效果。9月26日,搭载该技术的麦浪冰箱9系新品通过德国VDE最高A级认证并正式发布。海尔联合多家权威机构填补行业标准空白,推动冰箱从“功能合格”迈向“体验优秀”,巩固全球引领地位。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地

    阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点,提出全链路解决方案。数据显示,77%全球中小企业已定期使用AI工具,中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架,降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”,博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业,助力企业从“有算力”到“能落地”,推动AI应用成为行业常态。

  • 腾讯混元图像3.0登顶LMArena榜一

    腾讯混元图像3.0模型发布仅一周,即在全球26个顶尖大模型中脱颖而出,登顶LMArena权威榜单首位,成为AI生图领域新王者。其成功得益于三大核心优势:能运用知识推理生成有逻辑内涵的图像;精准实现中英文长文本及细节标注的渲染;兼具真实质感与审美把控。作为开源模型,混元系列已构建覆盖多模态的技术生态,社区衍生模型超3000个,其中混元3D模型下载量超260万次,是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

  • AI落地难?阿里云AI先锋新成员实战证明,对症的场景化方案才是关键

    本文探讨AI技术如何通过精准定位与协同合作破解行业难题。文章指出,AI渗透速度远超传统技术,IDC预测2025年全球AI支出将达3370亿美元。以阿里云为例,其通过算力底座与通用技术链接垂直领域伙伴,提供"技术+场景"一体化方案。文中列举挖地兔、集思科技等6家企业案例,展示AI在量化投资、电商直播等场景的实际应用,强调AI落地需找准对应场景,而阿里云的技术支撑与生态协同正推动千行百业实现数字化转型。

  • 华为云GaussDB将接入全球首个通算超节点 性能提升2.9倍

    华为在第十届全联接大会上发布基于TaiShan950超节点的GaussDB多写架构,性能提升2.9倍,每分钟可处理540万笔事务。该架构实现计算、内存、存储三层资源池化,支持秒级故障恢复,可平滑替代传统数据库。GaussDB已应用于金融、政务等关键行业,在中国数据库市场以13.9%份额首次超越Oracle登顶。华为通过20余年研发实现全栈自主创新,标志着中国数据库技术从跟随到引领的关键跨�

  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

今日大家都在搜的词: