首页 > AI头条  > 正文

通义千问再下一城:Qwen3-VL双子星开源,多模态检索迎来新范式

2026-01-09 09:17 · 来源: AIbase基地

当图文、视频、图表甚至UI界面都能被统一“理解”并精准匹配,多模态信息检索的边界正在被彻底重构。今日,阿里通义实验室正式开源Qwen3-VL-Embedding与Qwen3-VL-Reranker两大模型,它们基于强大的Qwen3-VL多模态基座构建,专为跨模态理解与高效检索而生,一举将多模态搜索从“关键词匹配”时代推进至“语义对齐”的新纪元。

这两款模型并非孤立存在,而是构成了一套协同作战的智能检索引擎。Qwen3-VL-Embedding采用高效的双塔架构,能将文本、图像、可视化文档(如代码截图、数据图表、App界面)乃至视频等异构内容,独立编码为统一高维语义空间中的向量表示。这意味着,无论用户输入是一段文字描述、一张产品图,还是一段短视频,系统都能将其映射到同一语义坐标系中,实现毫秒级的跨模态相似度计算与海量数据召回。

image.png

而Qwen3-VL-Reranker则扮演着“精修大师”的角色。它采用单塔交叉注意力架构,对Embedding初步召回的结果进行深度重排序。当面对一个“图文查询匹配图文文档”或“视频片段检索相关文章”等复杂任务时,Reranker会将查询与候选文档联合编码,通过模型内部的交叉注意力机制,逐层剖析二者在语义、细节甚至上下文逻辑上的深层关联,最终输出一个精确的相关性分数。这种“Embedding快速召回 + Reranker精细排序”的两阶段流程,显著提升了最终检索结果的准确率与相关性。

image.png

技术实力最终由数据说话。在MMEB-v2和MMTEB等权威多模态基准测试中,Qwen3-VL系列表现亮眼。其8B版本的Embedding模型在MMEB-v2上超越了所有已知的开源模型及主流闭源商业服务;Reranker模型则在包括JinaVDR、ViDoRe v3在内的视觉文档检索任务中持续领先,8B版本在多数子项中拔得头筹。尤为难得的是,该系列继承了Qwen3-VL的多语言基因,支持超过30种语言,且提供灵活的向量维度选择、指令微调能力以及高性能量化版本,极大降低了开发者集成门槛。

此次开源不仅是技术成果的释放,更标志着多模态AI基础设施的成熟。过去,图文检索、视频理解、文档分析往往需要各自独立的模型和流程;如今,Qwen3-VL双子星提供了一个统一、高效且开源的解决方案,让开发者能够在一个框架内处理几乎所有混合模态内容。随着真实世界的数据日益以多模态形式涌现,这套工具或将加速推动搜索引擎、内容平台、企业知识库乃至智能助理的下一代进化——在那里,机器真正“看懂”并“理解”我们所见、所写、所拍的一切。

项目地址:https://github.com/QwenLM/Qwen3-VL-Embedding

  • 相关推荐
  • AI日报:千问Qwen3-VL双子星开源;腾讯内测“上头蛙”AI互动故事小程序;小鹏祭出“物理世界大模型”

    本期AI日报聚焦多领域进展:阿里开源Qwen3-VL多模态检索模型,腾讯推出AI互动故事小程序“上头蛙”,小鹏发布第二代VLA模型剑指L4智驾。MiniMax港股上市首日暴涨42%,高德世界模型登顶国际榜单。阿里千问下载量突破7亿,单月击败Meta、OpenAI总和。谷歌Gmail引入AI专属收件箱与自然语言搜索,马斯克xAI进军“氛围编程”推Grok Build。

  • 什么是GEO品牌监控?怎么看自己的品牌在通义千问里有没有被推荐?

    本文探讨了在AI搜索时代,品牌如何监测在通义千问等国产AI模型中的曝光情况。文章介绍了GEO品牌监控的概念,即追踪品牌在AI回答中的提及率、排名及平台分布。推荐使用GEObase工具,它能监控五大国产AI平台,提供曝光率、竞品对比等数据。若发现提及率低,建议在知乎、微信公众号等中文平台多发内容,并针对常见问题撰写答案。品牌监控需定期进行,以适应AI模型更新和竞争变化,确保品牌在AI时代不“失踪”。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • 千问APP与通义系列大模型,才是智能汽车的“黄金组合”

    近年来,车企普遍采用大模型提升智能座舱体验,但效果未达预期。行业共识是,仅接入大模型不够,需构建完整的场景化智能体验。阿里通义系列大模型能力领先,已服务超百万客户,成为众多车企开发智能座舱的首选。千问APP作为超级应用,整合阿里生态资源,能打通车载场景的各类需求,为用户提供端到端的智能服务。未来智能座舱的关键在于系统级玩家,能协同云端智能与生态,真正理解并减轻用户负担。

  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

  • 阿里“王牌”产品重磅升级,淘系商家迎来超级流量入口

    正式发布不到2个月,千问App再次迎来一场大规模更新。 1月15日,千问App召开产品发布会,重磅推出新功能。 事前,这场发布会极尽神秘,没有任何官方资料泄露。好奇者却发现,千问App暗藏剧透,它如是告诉用户:“此次升级将让我拥有‘自主办事’的能力,接入购物、外卖、订票等生活场景,让AI从‘对话伙伴’进化为‘跑腿办事’的智能助手。” 与发布会当天的真实内�

  • 对话吴嘉:打通阿里生态之后,千问还要做什么?

    ​千问对自己挺狠的,或者说阿里对自己挺狠的。 用一个千问,把过去二十年的阿里,变成了一个AI Agent。 1 月 15 日,千问App宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等基本上阿里生态中的关键的所有业务,上线超 400 项AI办事功能,在全球首次实现点外卖、买东西、订机票等AI购物能力,向所有用户开放。 基本上你可以用一个千问,调用整个阿里。阿里巴巴副总

  • 开源向实 产业筑基:RT-Thread睿赛德的二十年跨越之路

    2026年1月17日,“开源向实·生产力进化启示录”全球峰会暨RT-Thread睿赛德二十周年开发者大会在沪举行。大会汇聚政府领导、院士、企业代表、全球开发者及技术管理者,共话开源如何重构生产关系,促进生产力发展变革。RT-Thread创始人熊谱翔回顾了系统二十年从实时内核起步到形成完整生态闭环的关键演进,累计装机量超25亿台,社区开发者规模突破30万。大会通过四大分论坛探讨“芯片+生态”“汽车+AI”等核心场景,并举行多项签约仪式。与会者一致认为,基础软件正被多行业同步认可与采用,逐步沉淀为产业级通用能力,开源已成为推动产业升级与自主可控建设的重要支撑力量。

  • 直播流量枯竭,下一个带货风口是它?

    ​2025年,头部达人不再是好的投资标的,一批只有几千粉丝的素人带货账号,却在创造单月百万销量的奇迹。 安然曾就职于热度电商。该公司是达人分销的头部玩家,曾经月销上亿,现在正悄然拆分,十几家分公司收缩,上千人的团队裁员过半。 安然在行业变革期选择独立创业,组建“寺图”机构,专注于KOC测品打品业务。 “5万块给一个头部达人,可能只能买一场讲解位

  • 移动、联通押注下一代“手机”

    2025年是AI应用爆发的一年,而被视作“AI大模型落地的最佳载体之一”的智能眼镜,无疑是科技行业中最“热闹”的赛道之一。 从 Meta 推动 Ray-Ban Meta 销量快速增长,到国内“百镜大战”骤然升温,从创业公司到互联网大厂、手机厂商,几乎所有人都在谈论 AI/AR 眼镜。资本的迅速涌入,让这个曾一度沉寂的行业迅速站上风口。 然而,“百镜大战”背后,真正能形成持续出货�

今日大家都在搜的词: