首页 > 热点 > 关键词  > 全模态大模型最新资讯  > 正文

阿里发布新一代全模态大模型Qwen3.5-Omni

2026-03-31 09:39 · 稿源:站长之家

站长之家(ChinaZ.com)3月31日 消息:今日,阿里巴巴正式推出了其新一代全模态大模型——千问Qwen3.5-Omni。这款大模型采用了先进的混合注意力MoE架构,能够轻松处理图片、视频、语音以及文字等多种模态内容的输入与输出,展现出强大的多模态处理能力。

在多项测试中,Qwen3.5-Omni表现卓越,尤其在音视频理解、识别与交互等215项任务中,均取得了SOTA(性能最佳)的佳绩,成功超越了Gemini-3.1Pro,跻身全球最强全模态大模型之列。具体而言,在DailyOmni、QualcommInteractive、Omni Cloze等聚焦视听交互能力的测试中,Qwen3.5-Omni的得分远超Gemini-3.1Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中,其错误率极低,识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样展现出了显著优势,优于Gemini-2.5-Pro-TTS。

狂揽 200 余项SOTA!阿里发布Qwen3.5-Omni:多模态能力超越Gemini-3.1 Pro

Qwen3.5-Omni不仅具备出色的音视频理解与实时交互能力,还能对音视频内容生成详细且可控的结构化描述。新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成,即便是使用人数较少的毛利语和国内的海南方言,也能实现精准识别。

值得一提的是,基于一系列技术创新,Qwen3.5-Omni将Vibe Coding能力提升至新高度。与纯文本或图片驱动的Vibe Coding不同,千问实现了音视频编程:用户只需打开摄像头,对着草图口述需求,即便是包含复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现了“动动嘴即可编程”的便捷体验。

狂揽 200 余项SOTA!阿里发布Qwen3.5-Omni:多模态能力超越Gemini-3.1 Pro

此外,Qwen3.5-Omni的全模态能力还能为专业领域带来显著的生产力提升。新模型能够对画面主体、人物关系、对话逻辑乃至人物情绪起伏进行细致拆解,并自动完成视频章节切片与时间戳标注,支持长达10小时以上的音频输入。

目前,阿里云百炼平台已上线Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等多个行业。普通用户可前往Qwen Chat免费体验,开发者和企业则可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入费用不到0.8元,仅为Gemini-3.1Pro的十分之一。

举报

  • 相关推荐
  • 国产编程模型新王诞生!阿里Qwen3.6-Plus正式发布

    阿里千问今天正式发布新一代大语言模型Qwen3.6-Plus,这也是当下编程能力最强的国产模型。 在核心能力上,千问3.6较上一代进步明显,在系列编程能力权威评测中,编程表现超越GLM-5、Kimi-K2.5等参数量达其2至3倍的国产模型,接近全球最强编程模型Claude系列水平。 在SWE-bench真实编程任务、Terminal-Bench2.0终端编程、NL2Repo长程编程任务,以及Claw-Eval、QwenClawBench等Agent能力评测中,

  • DeepSeek V4又又灰度测试:全新界面、多模态重大升级没跑了

    快科技4月7日消息,DeepSeek V4预计本月发布,新模型可能包含快速版、深度版及多模态版三款,支持视觉功能。此前系统崩溃和灰度测试均暗示升级在即。程序员展示的新界面含快速、专家及视觉选项,与现有界面形成对比。此外,DeepSeek至少还有两款使用国产芯片的大模型在开发中。用户期待官方正式发布,并希望推出面向AI编程的特别版。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • AI日报:火山引擎Seedance2.0 API全面开放;阿里巴巴首款具身机器人曝光;Skywork AI发布实时视频生成系统Matrix-Game 3.0

    本期AI日报聚焦多领域前沿动态:火山引擎Seedance 2.0 API上线,提供SOTA级视频生成能力;Skywork AI发布Matrix-Game 3.0,实现720p实时高清“世界生成”;特斯拉2026春季更新将带来Grok语音助手升级与FSD一键订阅。此外,五部门联合部署“人工智能+教育”行动,计划到2030年构建深度融合格局;爱奇艺CEO预测3-6个月内或出现AI商业大片;阿里巴巴发布首款具身四足机器人;LPM1.0模型实现单图转实时交互式数字人视频;谷歌Gemini推出基于Nano Banana技术的交互式可视化图像生成功能。

  • 腾讯云发布 Token 防刷解决方案,精准狙击大模型黑产

    随着AI编程助手普及,开发者效率提升,但免费Token成为黑产套利目标。黑产通过批量注册、虚拟环境等手段薅取Token,用于倒卖或生成内容牟利。腾讯云天御Token防刷方案从入口验证到全链路风控,通过设备指纹识别批量注册和伪装行为,并对Token发放、流转、消耗全环节布控,确保补贴流向真实用户。该方案支持极简接入,规则秒级热更新,有效打击规模化黑产作业,保护企业营销预算与利润。

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • 最强游戏小钢炮!红魔游戏平板5 Pro关键配置曝光:骁龙8E5、内置豆包大模型

    红魔游戏平板5 Pro已官宣即将登场,不过具体发布时间尚未公布。 随着预热推进,新机核心配置逐步浮出水面。 今日,博主数码闲聊站”曝光红魔游戏平板5 Pro最新工程机核心配置,新机将配备一块9英寸OLED屏幕,分辨率为2400*1504,支持185Hz超高刷新率。 相较于LCD屏幕,OLED屏会在亮度、刷新率、对比度、色准、屏占比等各方面都明显领先。

  • 当健康产业换上“AI操作系统”:2026西普会发布年度主题,大模型进入垂直产业深水区

    从“通用大模型”到“产业智能体”,健康产业正在成为AI技术落地的最大试验场之一。4月9日,第十九届西普会主题正式发布——“走进AI时代:健康产业的范式革命与路径选择”,大会定于8月11日至16日在海南博鳌举行。对于AI科技圈的从业者而言,这个主题的价值不在于它提到了AI,而在于它释放了一个信号:健康产业正在将AI视为底层操作系统,而不是一个提效工具。 这意味

  • 与谷歌Genie 3竞争!阿里发布世界模型HappyOyster

    今日,阿里发布可实时构建和交互的世界模型产品HappyOyster(快乐生蚝),该模型基于原生多模态架构而建,支持多模态理解与音视频联合生成。 目前,HappyOyster可实现漫游(Wander)和导演(Direct)两大核心能力,用户可实时构建可互动、可演绎、可探索的AI数字世界。 用户生成的数字世界不仅能被完整保存,还能开放给其他用户进行二次创作。 据悉,该产品由阿里ATH创新�

今日大家都在搜的词: