首页 > AI头条  > 正文

​阿里通义 Qwen3-VL 新增 2B、32B 两个模型尺寸,手机也能轻松运行

2025-10-22 14:25 · 来源: AIbase基地

阿里通义千问近日宣布,Qwen3-VL 家族迎来了新的成员,新增了2B 和32B 两种密集模型尺寸。这一扩展使得模型覆盖了从轻量级到高性能的视觉语言理解场景,开发者可以在手机等设备上运行这些模型,极大地方便了开发与应用。

image.png

此次推出的两种模型版本各有特色。首先是 Instruct 模型,该模型具有响应速度快、执行稳定的优势,特别适合用于对话系统及工具调用。其次是 Thinking 模型,这一版本则在长链推理和复杂视觉理解方面表现出色,具备 “看图思考” 的能力,可以处理更具挑战性的任务。

根据官方发布的信息,Qwen3-VL-32B 在多个领域的表现均优于市场上的一些竞争对手,如 GPT-5mini 和 Claude4Sonnet。它仅使用32B 参数就能够与高达235B 参数的模型相媲美,甚至在 OSWorld 上取得了优异的成绩。与此同时,Qwen3-VL-2B 则以其小巧的体量,在极限端侧设备上也能实现令人惊讶的性能表现,适合开发者进行实验和部署。

对于有兴趣的开发者,阿里通义还提供了体验链接,方便用户在 ModelScope 和 Hugging Face 上试用这些新模型。这些模型的推出不仅扩展了阿里通义在人工智能领域的产品线,也为视觉语言理解的应用提供了更多可能。

划重点:  

🌟 新增模型:阿里通义 Qwen3-VL 家族新增2B 和32B 两种密集模型尺寸。  

📱 设备兼容:新模型可在手机等设备上运行,便于开发者使用。  

🏆 性能卓越:Qwen3-VL-32B 在多领域表现优于许多竞争对手。  

  • 相关推荐
  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • AI日报:阿里发布紧凑型Qwen3-VL模型;科大讯飞AI翻译耳机全球首发;Gemini代码惊现Veo3.1

    阿里巴巴发布紧凑型Qwen3-VL多模态模型,推动边缘设备AI应用;科大讯飞推出全球首款AI翻译耳机,支持60种语言实时翻译;谷歌NotebookLM集成图像生成功能,可将笔记转为动态视频;ChatGPT将于12月向成人开放限制内容并推出自定义交互功能;谷歌Gemini代码泄露Veo3.1视频模型升级迹象;马斯克宣布X平台将全面转向AI推荐系统;巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS;vivo公布X200系列影像升级计划;字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • 1.3亿美元!LiblibAI拿下国内最大AI应用融资

    2025年AI应用公司LiblibAI完成1.3亿美元B轮融资,由红杉中国等机构领投,创国内AI应用赛道最大单笔融资。该公司通过“工具集成+社区生态”模式,整合图像、视频、3D等多模态能力,覆盖从灵感到成片的完整AI工作流,已孵化超2000万创作者。平台将加速全球化布局,打造多模态内容生态,标志着AI投资正从底层模型转向应用层落地。

  • iOS 26液态玻璃效果能关了 苹果iOS 26.1 Beta 4新增液态玻璃开关

    苹果公司10月21日向iPhone用户推送iOS 26.1开发者预览版Beta4更新,新增Liquid Glass液态玻璃透明度切换开关,用户可将界面调整为“色调”模式以增强通知可读性。此次更新延续iOS 26的液态玻璃设计语言,带来更沉浸的视觉体验。同时支持关闭锁屏滑动相机功能避免误触,并扩展Apple Intelligence对丹麦语、荷兰语、繁体中文等七种语言的支持,让更多地区用户享受智能服务。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 400万月活,2500万用户,1.3亿美元:LiblibAI拿到今年国内AI应用最大一笔钱

    AI应用公司LiblibAI近期完成1.3亿美元B轮融资。从目前公开数据来看,这是国内AI应用公司今年最大的一笔融资。 据官方透露,本轮融资由红杉中国、CMC资本及一战略投资方联合领投,老股东顺为资本、源码资本、明势创投、渶策资本均超额增持,远识资本继续担任本轮融资的独家财务顾问。 Liblib是ChatGPT出现后AI应用井喷般创业潮里十分典型的一家公司,它由在大厂打过硬仗的

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • 华为陈浩:AI UBB三重跃迁,激发商业新增长

    在2025年UBBF全球超宽带高峰论坛上,华为运营商业务总裁陈浩发表演讲,提出AI与超宽带融合的“三重跃迁”战略:深度上,从带宽销售转向体验保障,通过AI精准优化云游戏、4K直播等应用;广度上,业务从连接延伸至家庭智能、中小企业数智化服务及企业感知应用,提升ARPU;高度上,推动网络从工单驱动迈向L4级自动驾驶,实现智能运维。华为通过实践案例展示了如何助力运营商抓住AI机遇,激发新增增长。

今日大家都在搜的词: