智源研究院开源轻量级超长视频理解模型Video-XL-2

2025-06-03 13:49 · 来源： AIbase基地

近日，智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。这一模型的推出标志着长视频理解技术在开源领域取得了重大突破，为多模态大模型在长视频内容理解方面的发展注入了新的活力。

在技术架构方面，Video-XL-2主要由视觉编码器、动态Token合成模块（DTS）以及大语言模型(LLM)三个核心组件构成。该模型采用SigLIP-SO400M作为视觉编码器，对输入视频进行逐帧处理，将每一帧编码为高维视觉特征。随后，DTS模块对这些视觉特征进行融合压缩，并建模其时序关系，以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间，实现模态对齐。最终，对齐后的视觉信息输入至Qwen2.5-Instruct，以实现对视觉内容的理解与推理，并完成相应的下游任务。

在训练策略上，Video-XL-2采用了四阶段渐进式训练的设计，逐步构建其强大的长视频理解能力。前两个阶段主要利用图像/视频-文本对，完成DTS模块的初始化与跨模态对齐;第三阶段则引入更大规模、更高质量的图像与视频描述数据，初步奠定模型对视觉内容的理解能力;第四阶段，在大规模、高质量且多样化的图像与视频指令数据上进行微调，使Video-XL-2的视觉理解能力得到进一步提升与强化，从而能够更准确地理解和响应复杂的视觉指令。

微信截图_20250603134918.png

此外，Video-XL-2还系统性设计了效率优化策略。它引入了分段式的预装填策略（Chunk-based Prefilling），将超长视频划分为若干连续的片段(chunk)，在每个chunk内部使用稠密注意力机制进行编码，而不同chunk之间则通过时间戳传递上下文信息，显著降低了预装填阶段的计算成本与显存开销。同时，Video-XL-2还设计了基于双粒度KV的解码机制(Bi-granularity KV Decoding)，在推理过程中，模型会根据任务需求，选择性地对关键片段加载完整的KVs(dense KVs)，而对其他次要片段仅加载降采样后的稀疏的KVs(sparse KVs)，有效缩短了推理窗口长度，从而大幅提升解码效率。得益于这些策略的协同优化，Video-XL-2实现了在单张显卡上对万帧级视频的高效推理，显著增强了其在实际应用场景中的实用性。

在实验效果方面，Video-XL-2在MLVU、VideoMME和LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型，达成当前最先进性能（SOTA），相较第一代Video-XL实现了显著提升。尤其值得关注的是，在MLVU和LVBench上，Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规模高达720亿的大模型。此外，在时序定位(Temporal Grounding)任务中，Video-XL-2也在Charades-STA数据集上取得了领先的结果，进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。

在视频长度方面，Video-XL-2展现出显著优势。在单张24GB消费级显卡（如RTX3090/4090）上，Video-XL-2可处理长达千帧的视频;而在单张80GB高性能显卡(如A100/H100)上，模型更支持万帧级视频输入，远超现有主流开源模型。相较于VideoChat-Flash和初代Video-XL，Video-XL-2显著拓展了视频理解的长度并有效降低了资源需求，为处理复杂的视频任务提供了有力的支撑。

在速度上，Video-XL-2也展现出卓越性能。仅需12秒即可完成2048帧视频的预填充，其预填充时间与输入帧数之间呈现出近似线性增长，体现了其出色的可扩展性。相比之下，Video-XL与VideoChat-Flash在输入长视频条件下的工作效率明显落后于Video-XL-2。

得益于出色的视频理解能力与对超长视频的高效处理性能，Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如，在影视内容分析方面，它可以快速准确地理解电影情节，回答相关问题;在监控视频中，它能够检测异常行为并发出安全预警;此外，它还可以用于影视作品的内容总结以及游戏直播内容的分析等任务，为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。

目前，Video-XL-2的模型权重已全面向社区开放，项目主页、模型链接和仓库链接均已公布，未来该模型有望在更多实际场景中发挥重要作用，推动长视频理解技术的进一步发展。

项目主页:

https://unabletousegit.github.io/video-xl2.github.io/

模型hf链接:

https://huggingface.co/BAAI/Video-XL-2

仓库链接:

https://github.com/VectorSpaceLab/Video-XL

相关推荐

从足球公益到数字赋能，SnackVideo连续两年于印尼落地乡村公益活动

近日，由快手旗下专注印尼市场的短视频平台 SnackVideo 发起的 2025 年首场乡村公益活动在万丹省唐格朗市 Legok 区 Babakan 村圆满举行。此次活动不仅为当地村民带来了欢乐与希望，更展现了SnackVideo助力印尼乡村振兴的决心与担当。

SnackVideo 短视频平台快手短视频
荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

本文汇总了AI领域最新动态：1)腾讯开源数字人模型HunyuanVideo-Avatar，支持图像转视频创作；2)Trae国际版开启付费订阅，首月3美元；3)Claude网页搜索功能向免费用户开放；4)印度AI初创Builder.ai破产，亏损超5亿美元；5)腾讯元宝接入微信读书平台；6)快手计划加大AI投入但预计影响利润率；7)Mistral推出智能代理API；8)Claude移动端上线语音对话测试版；9)OpenAI拟推ChatGPT第三方登录功能；10)掘金发布AI项目一键部署工具；11)多模态模型视觉推理能力评估显示准确率仅25.8%；12)中石油发布3000亿参数昆仑大模型，推动油气产业智能化。

人工智能数字人短视频
荐当「优酷原创」成为长视频精品内容新坐标系

全网正被一股“藏海效应”给统治着。作为优酷史来最高热度，《藏海传》在社交媒体上掀起了大面积剧情解析潮、视频二创潮。这也让人好奇:内容供给日趋饱和的当下，什么样的作品能够真正打动观众? 优酷副总裁关旭接受采访时正式提及“优酷原创”厂牌的推出——高度顺应观众审美需求，以强叙事、系列化、国际视野驱动“好故事”。当前长视频行业正处于从规模化

藏海传优酷原创长视频行业
知乎研究院发布「中国高端手机影像趋势与用户洞察」报告，「以人为本」探手机影像技术下半场新赛道

2024年全球智能手机市场迎来复苏，第一季度出货量同比增长3.049%。中国市场表现亮眼，全年出货量达2.86亿台，同比增长5.6%，其中高端机型（≥4000元）市场份额突破72%。手机影像功能成为用户选购关键因素，知乎"手机摄影"话题浏览量达43.3亿。调研显示，77.2%摄影爱好者以手机为主力设备，71.8%用户每天使用手机拍照。用户需求从"拍得到"转向"拍得美""

全球智能手机市场手机出货量增长高端手机市场
小米通报海信Vidda商业诋毁案称海信Vidda构成商业诋毁

5月13日，小米法务部就与聚好看科技（海信旗下Vidda品牌）商业诋毁纠纷案终审结果发布声明。法院终审维持一审判决，认定聚好看2021年11月发布的含"米有问题""米有屌丝"等谐音文案的海报构成对小米商业诋毁，要求其在Vidda官微置顶致歉7天并赔偿小米55万元。Vidda已于5月10日发布致歉声明承认文案存在误导性。该案为净化行业竞争环境提供了司法范例，法院在审理中重点审查了涉案文案的语义指向性、传播范围及实际损害后果。小米强调企业竞争应遵循商业道德和法律规范，任何通过诋毁对手获取市场优势的行为都将受到法律制裁。（140字）

小米法务部聚好看科技商业诋毁
荐阿里系“更名”虎鲸、爱奇艺财报拐点：长视频打响“拉新赛”？

长视频的2025，依旧是一场向“短”的冒险。今日（5月28日）优酷推出“优酷原创”新厂牌，旨在追求“好故事”;4月的世界·大会上，爱奇艺对“长短之变”的科技赋能与内容迭代都进行了更具体的落地;腾讯上线“火星短剧社”小程序入口;芒果TV春招会上一口气发布了88部待播剧集，剧集存在感意外地强...... Q1的业绩总结已经告一段落。阿里大文娱（现已更名为“虎鲸文娱”

长视频短视频影视行业
荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率

今日大家都在搜的词：

热文

3 天
7天

智源研究院开源轻量级超长视频理解模型Video-XL-2

从足球公益到数字赋能，SnackVideo连续两年于印尼落地乡村公益活动

荐AI日报：腾讯语音数字人模型HunyuanVideo-Avatar；Trae国际版开启付费订阅模式；Claude网页搜索功能全面开放

荐当「优酷原创」成为长视频精品内容新坐标系

知乎研究院发布「中国高端手机影像趋势与用户洞察」报告，「以人为本」探手机影像技术下半场新赛道

小米通报海信Vidda商业诋毁案称海信Vidda构成商业诋毁

荐阿里系“更名”虎鲸、爱奇艺财报拐点：长视频打响“拉新赛”？

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

今日大家都在搜的词：

热文

华为Pura 80 Pro/Pro+在华为官方商城上架

迅雷完成对虎扑的收购斥资5个亿

小鹏宣布将联手华为打造“世界上最好”的AR-HUD

站长商机