首页 > AI头条  > 正文

阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频

2024-08-30 09:28 · 来源: AIbase基地

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。

image.png

产品入口:https://qwenlm.github.io/blog/qwen2-vl/

与其他领先的先进模型(如 Meta 的 Llama3.1、OpenAI 的 GPT-4o、Anthropic的 Claude3Haiku 和 Google 的 Gemini-1.5Flash)相比,它在第三方基准测试中表现十分优秀。

阿里从六个关键维度评估模型的视觉能力:复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。其 72B 模型在大多数指标上都展示了顶级性能,甚至超过了 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是,它在文档理解方面表现出显着优势。

具体如下图所示:

image.png

超强分析图像和视频能力

Qwen2-VL 旨在提升我们对视觉数据的理解和处理能力。它不仅能够对静态图片进行分析,还能总结视频内容、回答与之相关的问题,甚至可以实时提供在线聊天支持。

正如 Qwen 研究团队在 GitHub 上关于新 Qwen2-VL 系列模型的博客文章中所写的那样:“除了静态图像之外,Qwen2-VL 还将其能力扩展到视频内容分析。它可以总结视频内容,回答与之相关的问题,并实时保持持续的对话流,提供实时聊天支持。此功能使其能够充当个人助理,通过提供直接从视频内容中提取的见解和信息来帮助用户。

更重要的是,官方称,可以分析超过20分钟的视频并回答有关内容的问题。这意味着,无论是在线学习、技术支持,还是任何需要对视频内容进行理解的场合,Qwen2-VL 都可以成为得力助手。官方还展示了一个新模型的例子,正确地分析和描述了以下视频:

另外,Qwen2-VL 的语言能力也相当强大,支持英语、中文以及多种欧洲语言,日语、韩语、阿拉伯语和越南语等多种语言,让全球用户都能轻松使用。为了让大家更好地理解它的能力,阿里巴巴还在他们的 GitHub 上分享了相关的应用示例。

三个版本

这款新模型有三个不同参数的版本,分别是 Qwen2-VL-72B(720亿参数)、Qwen2-VL-7B 和 Qwen2-VL-2B。其中,7B 和2B 版本在开源宽松的 Apache2.0许可证下提供,允许企业随意将它们用于商业目的。

不过,最大的72B 版本目前还没有公开,只能通过专门的许可证和 API 获取。

此外,Qwen2-VL 还引入了一些全新的技术特性,比如 Naive Dynamic Resolution 支持,可以处理不同分辨率的图像,确保视觉解读的一致性和准确性。还有 Multimodal Rotary Position Embedding(M-ROPE)系统,能够在文本、图像和视频之间同步捕捉和整合位置信息。

Qwen2-VL 的发布标志着视觉语言模型技术的又一次突破,阿里巴巴的 Qwen 团队表示,他们将继续致力于提升这些模型的功能,探索更多应用场景。

划重点: 

 🌟 ** 强大的视频分析能力 **:能够实时分析20分钟以上的视频内容,回答相关问题!

✅ 🌍 ** 多语言支持 **:支持多种语言,让全球用户都能轻松使用!

✅ 📦 ** 开源版本可用 **:7B 和2B 版本开源,企业可以自由使用,适合创新团队!

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 京东取消外卖超时20分钟免单服务:已升级为“准时保”

    近日,京东外卖在服务政策上做出了一项重要调整,引发了广泛关注和讨论。据悉,京东外卖已取消了此前备受瞩目的“超时20分钟免单”服务,转而推出“超时20分钟赔付4元优惠券”的新政策。 针对消费者的疑问和市场的热议,京东客服方面给出了官方解释。据客服人员透露,自7月11日左右起,京东外卖平台已开始逐步将原有的超时赔付服务升级为全新的“准时宝”服务。�

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 京东取消外卖超时20分钟免单服务 官方回应:准时率已大幅提升

    近日,社交平台上多位网友发帖称,京东外卖对原有的“超时20分钟免单”服务进行了调整,改为“超时20分钟赔付4元优惠券”。这一变动引发了消费者的广泛关注和讨论。 针对这一疑问,京东方面迅速作出回应。京东表示,自推出超时保障服务以来,平台一直致力于优化配送体验,目前京东外卖订单的准时率已得到显著提升。为了进一步提供更全面的保障,覆盖更多常见场�

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 周杰伦发布第一条抖音视频:回顾成长史 粉丝超1200万

    今日上午11时,华语流行乐巨星周杰伦在其抖音账号“周同学”上发布了首部视频作品,以一段90秒的精彩视频回顾了自己的成长历程,迅速在网络上引发了广泛关注和热议。 视频中,周杰伦通过展示自己从小到大的珍贵照片,带领观众穿越时光,见证了他从童年到青年的蜕变。画面里的童年周杰伦,眼神清澈,笑容可爱,神态娇憨,让人不禁为之动容。尤为有趣的是,周杰�

今日大家都在搜的词: