阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

2024-08-30 09:28 · 来源： AIbase基地

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容，包括图片和视频，甚至可以实时分析长达20分钟的视频，可以说相当强悍。

产品入口:https://qwenlm.github.io/blog/qwen2-vl/

与其他领先的先进模型（如 Meta 的 Llama3.1、OpenAI 的 GPT-4o、Anthropic的 Claude3Haiku 和 Google 的 Gemini-1.5Flash）相比，它在第三方基准测试中表现十分优秀。

阿里从六个关键维度评估模型的视觉能力：复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。其 72B 模型在大多数指标上都展示了顶级性能，甚至超过了 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是，它在文档理解方面表现出显着优势。

具体如下图所示：

超强分析图像和视频能力

Qwen2-VL 旨在提升我们对视觉数据的理解和处理能力。它不仅能够对静态图片进行分析，还能总结视频内容、回答与之相关的问题，甚至可以实时提供在线聊天支持。

正如 Qwen 研究团队在 GitHub 上关于新 Qwen2-VL 系列模型的博客文章中所写的那样:“除了静态图像之外，Qwen2-VL 还将其能力扩展到视频内容分析。它可以总结视频内容，回答与之相关的问题，并实时保持持续的对话流，提供实时聊天支持。此功能使其能够充当个人助理，通过提供直接从视频内容中提取的见解和信息来帮助用户。

更重要的是，官方称，可以分析超过20分钟的视频并回答有关内容的问题。这意味着，无论是在线学习、技术支持，还是任何需要对视频内容进行理解的场合，Qwen2-VL 都可以成为得力助手。官方还展示了一个新模型的例子，正确地分析和描述了以下视频:

另外，Qwen2-VL 的语言能力也相当强大，支持英语、中文以及多种欧洲语言，日语、韩语、阿拉伯语和越南语等多种语言，让全球用户都能轻松使用。为了让大家更好地理解它的能力，阿里巴巴还在他们的 GitHub 上分享了相关的应用示例。

三个版本

这款新模型有三个不同参数的版本，分别是 Qwen2-VL-72B（720亿参数）、Qwen2-VL-7B 和 Qwen2-VL-2B。其中，7B 和2B 版本在开源宽松的 Apache2.0许可证下提供，允许企业随意将它们用于商业目的。

不过，最大的72B 版本目前还没有公开，只能通过专门的许可证和 API 获取。

此外，Qwen2-VL 还引入了一些全新的技术特性，比如 Naive Dynamic Resolution 支持，可以处理不同分辨率的图像，确保视觉解读的一致性和准确性。还有 Multimodal Rotary Position Embedding（M-ROPE）系统，能够在文本、图像和视频之间同步捕捉和整合位置信息。

Qwen2-VL 的发布标志着视觉语言模型技术的又一次突破，阿里巴巴的 Qwen 团队表示，他们将继续致力于提升这些模型的功能，探索更多应用场景。

划重点:
🌟 ** 强大的视频分析能力 **:能够实时分析20分钟以上的视频内容，回答相关问题!
✅ 🌍 ** 多语言支持 **:支持多种语言，让全球用户都能轻松使用!
✅ 📦 ** 开源版本可用 **:7B 和2B 版本开源，企业可以自由使用，适合创新团队!

相关推荐

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
京东取消外卖超时20分钟免单服务：已升级为“准时保”

近日，京东外卖在服务政策上做出了一项重要调整，引发了广泛关注和讨论。据悉，京东外卖已取消了此前备受瞩目的“超时20分钟免单”服务，转而推出“超时20分钟赔付4元优惠券”的新政策。针对消费者的疑问和市场的热议，京东客服方面给出了官方解释。据客服人员透露，自7月11日左右起，京东外卖平台已开始逐步将原有的超时赔付服务升级为全新的“准时宝”服务。�
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
AI大模型排名前十：谁主2025智能时代沉浮？

本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长；Anthropic的Claude3系列擅长长文本分析和专业写作；Google的Gemini1.5具备强大的多模态处理能力；Meta的Llama3是性能强劲的开源模型；xAI的Grok系列擅长实时信息处理；Mistral AI以高效混合专家架构著称；Cohere专注企业级应用；Inflection Pi主打情感陪伴；中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型，并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

人工智能 AI大模型技术创新
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

【AI日报】今日AI领域7大突破：1）阿里通义Qwen-TTS实现方言语音合成重大突破；2）Cursor发布Web版AI编程工具；3）字节XVerse技术实现多对象精准图像生成；4）NoteGen跨平台AI笔记工具革新知识管理；5）ManimML动画库可视化Transformer架构；6）TEN+Agent开源语音交互技术降低延迟；7）Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

人工智能语音合成 Qwen-TTS
京东取消外卖超时20分钟免单服务官方回应：准时率已大幅提升

近日，社交平台上多位网友发帖称，京东外卖对原有的“超时20分钟免单”服务进行了调整，改为“超时20分钟赔付4元优惠券”。这一变动引发了消费者的广泛关注和讨论。针对这一疑问，京东方面迅速作出回应。京东表示，自推出超时保障服务以来，平台一直致力于优化配送体验，目前京东外卖订单的准时率已得到显著提升。为了进一步提供更全面的保障，覆盖更多常见场�
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

今日上午11时，华语流行乐巨星周杰伦在其抖音账号“周同学”上发布了首部视频作品，以一段90秒的精彩视频回顾了自己的成长历程，迅速在网络上引发了广泛关注和热议。视频中，周杰伦通过展示自己从小到大的珍贵照片，带领观众穿越时光，见证了他从童年到青年的蜕变。画面里的童年周杰伦，眼神清澈，笑容可爱，神态娇憨，让人不禁为之动容。尤为有趣的是，周杰�

今日大家都在搜的词：

热文

3 天
7天

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

京东取消外卖超时20分钟免单服务：已升级为“准时保”

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI大模型排名前十：谁主2025智能时代沉浮？

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

京东取消外卖超时20分钟免单服务官方回应：准时率已大幅提升

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

苹果iOS 26公测版本周发布：预计7月23日亮相

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

华为Pura 80标准版7月23日开启预售

特斯拉Model3全球销量达300万辆夏日福利大放送

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

站长商机