首页 > 业界 > 关键词  > 阿里云最新资讯  > 正文

阿里云通义开源Qwen2.5-VL:视觉AI 超越GPT-4o

2025-01-28 16:12 · 稿源: 快科技
<a href="//www.chinaz.com/tags/aliyun.shtml" target="_blank"><span>阿里云</span></a>通义推出<a href="//www.chinaz.com/tags/835650.shtml" target="_blank"><span>视觉模型</span></a> <a href="//www.chinaz.com/tags/932444.shtml" target="_blank"><span>Qwen2.5-VL</span></a>

阿里云通义推出视觉模型 Qwen2.5-VL

阿里云通义近日开源了其最新的视觉模型 Qwen2.5-VL,该模型推出三个版本:3B、7B 和 72B。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,超越了 GPT-4o 和 Claude3.5。

Qwen2.5-VL 模型能够更准确地解析图像内容,并支持超过 1 小时的视频理解。它可以在视频中搜索特定事件,并对视频的不同时间段进行要点总结,帮助用户快速有效地提取视频中的关键信息。

此外,Qwen2.5-VL 还可以无需微调就变身为一个能够操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。它还将 OCR 识别能力提升到了一个新的水平,增强了多场景、多语言和多方向的文本识别和定位能力。

在信息抽取方面,Qwen2.5-VL 也进行了大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:GPT-4.1正式上线ChatGPT阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 阿里通义成了AI的“黄埔军校”?

    从去年开始,各大科技巨头就纷纷调整战略,加大了人才招揽的力度:腾讯的“青云计划”以“业界Top0级别薪资”和“不设职级上限”吸引顶尖人才,并计划新增2.8万实习岗位以充实后备力量;字节跳动则启动“Top Seed计划”,专门为大模型、多模态等前沿领域的顶尖博士

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像AgentAI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 阿里云携手博登智能,升级AI数据标注服务——以数据驱动人工智能

    博登智能与阿里云达成战略合作,共同推动AI数据标注智能化发展。博登智能自主研发的BASE平台通过AI技术实现数据标注自动化,最高提升600%效率,降低成本40%,已服务自动驾驶、智慧医疗等领域。双方将结合博登的数据服务优势与阿里云的技术实力,构建从数据采集到模型训练的全流程解决方案,推动AI技术在千行百业落地。此次合作将加速数据智能服务升级,让更多企业以更低门槛拥抱AI技术。

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

  • 2.5K档内最强性能!真我Neo7 Turbo首批搭载天玑9400e

    真我Neo7+ Turbo将于5月29日14:00发布,首发搭载天玑9400e芯片,跑分高达245万。该芯片采用台积电4nm工艺,CPU为1+3+4三丛架构,GPU为Immortalis-G720 MC12,配备NPU 790 AI引擎,性能超越天玑9300+和高通骁龙8s Gen4。此外还支持蓝牙6.0、5公里超远距离连接。手机配备1.5K直屏、7000mAh以上电池、100W快充,采用类似Nothing Phone的半透明装饰背板设计。

  • 2.5K档内最强性能!真我Neo7 Turbo明天发布:参数汇总来了

    真我Neo7+Turbo将于5月29日发布,搭载天玑9400e芯片,号称挑战2.5K档最强性能。新机采用6.8英寸京东方Q10直屏,支持144Hz高刷和4608Hz超高频PWM调光。配备7200mAh电池+100W快充,支持边充边用不发烫。外观延续Neo7设计,但新增透明后壳和晶刻纹理工艺。核心配置包括台积电4nm工艺天玑9400e,跑分达245万,配备电竞网络芯片提升游戏体验。其他亮点包括IP68防水、realme UI 6.0系统,预计售价可能低于1999元起。