首页 > 业界 > 关键词  > 阿里云最新资讯  > 正文

阿里云通义开源Qwen2.5-VL:视觉AI 超越GPT-4o

2025-01-28 16:12 · 稿源: 快科技
<a href="//www.chinaz.com/tags/aliyun.shtml" target="_blank"><span>阿里云</span></a>通义推出<a href="//www.chinaz.com/tags/835650.shtml" target="_blank"><span>视觉模型</span></a> <a href="//www.chinaz.com/tags/932444.shtml" target="_blank"><span>Qwen2.5-VL</span></a>

阿里云通义推出视觉模型 Qwen2.5-VL

阿里云通义近日开源了其最新的视觉模型 Qwen2.5-VL,该模型推出三个版本:3B、7B 和 72B。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,超越了 GPT-4o 和 Claude3.5。

Qwen2.5-VL 模型能够更准确地解析图像内容,并支持超过 1 小时的视频理解。它可以在视频中搜索特定事件,并对视频的不同时间段进行要点总结,帮助用户快速有效地提取视频中的关键信息。

此外,Qwen2.5-VL 还可以无需微调就变身为一个能够操控手机和电脑的 AI 视觉智能体(Visual Agents),实现给指定朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。它还将 OCR 识别能力提升到了一个新的水平,增强了多场景、多语言和多方向的文本识别和定位能力。

在信息抽取方面,Qwen2.5-VL 也进行了大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

举报

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 数字“潮”市点燃AI火花,Yoosee携手阿里云解锁未来安防新模样

    2025年6月27-28日,Yoosee在阿里云"AI花火市集"展示其智能安防产品,宣布与阿里云达成深度合作。双方将共同推动"重构安防思考力"理念,通过AI技术实现从被动监控到主动守护的转变。Yoosee展示了搭载AI芯片的智能摄像机,具备毫秒级精准识别、智能图文解析等能力,可自动生成事件摘要并精准推送告警信息。合作将结合阿里云的云计算与Yoosee的硬件优势,提升80%以上的检索效率,打造更智能、高效的安防体系,为用户提供无缝的安全守护体验。

  • 阿里云瓴羊连续6年入选 Gartner®ABI 魔力象限报告,中国唯一!

    Gartner发布2025年商业智能平台魔力象限报告,阿里云Quick BI凭借其数据分析能力连续第六年入选"挑战者"象限。报告指出,生成式AI正推动商业智能平台变革,供应商聚焦AI代理和自然语言处理能力创新。Quick BI的核心竞争力在于可视化、报表和自然语言查询功能,通过AI助手"智能小Q"提升用户体验,支持企业级数据分析全链路。该产品已服务多个行业头部客户,如圣迪乐优化鸡蛋生产全流程、跨越速运降低人力成本等。阿里云表示将持续深化AI在数据分析领域的应用,巩固其在全球商业智能市场的地位。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 微软以Maia 280开启新局对垒英伟达,Meta/微美全息开源联动引领AI创新

    微软自研AI芯片Braga因设计问题延期至2026年,将推出过渡产品Maia280,性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖,但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位(市占率超80%,年销售额增长10倍),微软正调整战略转向更务实的迭代路线。与此同时,Meta成立"超级智能团队"加速AI研发,微美全息押注量子计算等前沿技术。行业分析师认为,由于英伟达技术迭代速度极快(年增长32%),多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 重庆暴雨后村民捡到280斤大鱼:长2.5米 一人抱不动

    ​近日,重庆多地遭遇强降雨侵袭,至 9 日下午 3 时,城区积水虽已消退,但部分低洼地带仍残留近 1 米深的积水。在这场极端天气过后,巴南区某村庄上演了一幕令人瞠目结舌的场景—— 20 余名村民在河滩泥沼中发现一条体长2. 5 米、重达 280 斤的巨型野生大口鲶,相关视频在网络平台引发热议。 据现场目击者描述,这条大鱼鱼身长度超过成年男子身高,尾鳍拍打泥浆时发�

  • 最强Agent?3分钟看懂Kimi K2真的好用吗?

    Moonshot AI于2025年7月11日发布开源大模型Kimi K2,主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构(1T参数,激活32B),在SWE-Bench等测试中表现优异,数学推理得分达97.4。支持128k上下文、工具调用和API集成,定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型,Kimi K2具有开源免费、成本低等优势,适合开发者和企业使用。同时推荐AIbase平台,可系统比较�