首页 > 业界 > 关键词  > 阿里云最新资讯  > 正文

阿里云通义开源Qwen2.5-VL:视觉AI 超越GPT-4o

2025-01-28 16:12 · 稿源: 快科技
<a href="//www.chinaz.com/tags/aliyun.shtml" target="_blank"><span>阿里云</span></a>通义推出<a href="//www.chinaz.com/tags/835650.shtml" target="_blank"><span>视觉模型</span></a> <a href="//www.chinaz.com/tags/932444.shtml" target="_blank"><span>Qwen2.5-VL</span></a>

阿里云通义推出视觉模型 Qwen2.5-VL

阿里云通义近日开源了其最新的视觉模型 Qwen2.5-VL,该模型推出三个版本:3B、7B 和 72B。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,超越了 GPT-4o 和 Claude3.5。

Qwen2.5-VL 模型能够更准确地解析图像内容,并支持超过 1 小时的视频理解。它可以在视频中搜索特定事件,并对视频的不同时间段进行要点总结,帮助用户快速有效地提取视频中的关键信息。

此外,Qwen2.5-VL 还可以无需微调就变身为一个能够操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。它还将 OCR 识别能力提升到了一个新的水平,增强了多场景、多语言和多方向的文本识别和定位能力。

在信息抽取方面,Qwen2.5-VL 也进行了大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

举报

  • 相关推荐

热文

  • 3 天
  • 7天