中国科研团队重磅发布VideoChat-Flash 长视频处理速度提升100倍

2025-01-21 10:23 · 来源： AIbase基地

传统的视频理解模型在处理长视频时面临着许多挑战，包括理解长视频所带来的复杂上下文。尽管已有不少研究致力于提升视频理解能力，依然难以有效克服训练和推理效率低下的问题。针对这些问题，研究团队通过 HiCo 技术，将视频信息中的冗余部分进行压缩，从而显著降低计算需求，同时保留关键信息。

具体而言，HiCo 通过对视频进行层次化压缩，将长视频分割成短片段，进而减少处理的标记数量。这一方法不仅降低了模型对计算资源的要求，还提升了上下文窗口的宽度，增强了模型的处理能力。此外，研究团队还利用了与用户查询的语义关联，以进一步减少视频标记的数量。

在长视频处理的具体实现中，“VideoChat-Flash” 采用了一种多阶段的短视频到长视频的学习方案。研究人员首先使用短视频及其对应的注释进行监督微调，随后逐步引入长视频进行训练，最终实现了对混合长度语料的全面理解。这种方式不仅提高了模型的视觉感知能力，还为长视频的处理提供了丰富的数据支持，研究团队构建了一个包含300，000小时视频和2亿字注释的庞大数据集。

此外，研究中还提出了一种改进的 “干草堆中的针” 任务，用于多跳视频配置。通过新的基准，模型不仅需要找到视频中的单一目标图像，还需理解多个相互关联的图像序列，从而提高了模型对上下文的理解能力。

实验结果表明，所提出的方法在计算上减少了两个数量级，特别是在短视频和长视频的基准测试中表现出色，成为新的短视频理解领域的领导者。同时，该模型在长视频理解方面也超越了现有的开源模型，显示出强大的时间定位能力。

论文:https://arxiv.org/abs/2501.00574

划重点:
🌟 研究人员提出了层次化视频标记压缩技术 HiCo，显著降低长视频处理的计算需求。
📹 “VideoChat-Flash” 系统采用多阶段学习方法，结合短视频和长视频进行训练，提升了模型的理解能力。
🔍 实验结果显示，该方法在多个基准测试中达到了新的性能标准，成为长视频处理领域的先进模型。

相关推荐

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个，但选型面临三大难题：单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法：1)场景刚需筛选80%选项；2)验证核心性能；3)评估边际效益。以Gemini和DeepSeek为例，前者适合常规FAQ场景年省$16,000，后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系，将3小时选型会议压缩至18分钟，错误率下降40%。核心观点：选型应从参数争论转向场景验证，通过自动化工具为工程师节省时间，聚焦提示词优化而非参数对比。

文章搜索核心标签模型适配
荐首超长视频，只是红果的起点

红果，又一次创造历史。 Questmobile的数据显示，抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿，同比增长179%，并超过2亿月活的优酷。这意味着，短剧APP第一次超越长视频APP。近年来，“爱优腾”对短剧的态度有了微妙的变化，从“长短之争”的剑拔弩张演化为“取长补短”的协同联动，却依然无法阻拦红果。毋庸置疑，红果正走在高歌猛进的道路上。

短剧APP 红果月活
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令
“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。这两�

文章搜索核心标签 AI工具
Anthropic天价赔款？大模型“盗版”的100000种花样

AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。这几乎是行业内公开的秘密。2023年，《纽约时报》一纸诉状将OpenAI和微软告上法庭，正式拉开了这场战争的序幕。很快，战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告，一时间，几乎所有头部玩家都被推上了被告席。这场大模型与版权�

AI大模型版权争议训练数据
哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

文章探讨了在AI工具爆炸式增长的时代，用户面临的信息过载和筛选困难问题。主要内容包括：1）AI领域迭代速度远超传统软件，个人追踪信息效率低下且容易错过关键更新；2）AIbase.cn平台致力于解决这一问题，通过聚合主流AI工具、严格审核信息来源、持续更新行业动态；3）平台提供多维对比功能，结构化呈现工具参数，帮助用户快速定位适合需求的解决方案；4）建议用户定期浏览平台资讯栏目，善用搜索筛选功能，通过对比视图做出明智选择。核心价值在于降低信息筛选成本，让用户更高效地获取有价值的AI工具和前沿资讯。

AI工具导航信息筛选参数对比
ChatGPT 5更新：三种模式可选 4o重新回归

OpenAI首席执行官Sam Altman在社交媒体上宣布，ChatGPT 5正式推出三种可选模式：自动（Auto）、快速（Fast）和思考（Thinking）。

ChatGPT 5 OpenAI
影视飓风Tim荒岛生存100小时网友：中国版荒野求生

昨日，知名影视飓风创始人、视频博主Tim开启了一场备受瞩目的孤岛生存100小时挑战，此次挑战全程进行网络直播，将野外取火、搭建庇护所、寻找水源与食物等真实求生场景一一呈现给观众，让网友们仿佛身临其境般感受极限生存的魅力。据悉，Tim此次挑战的求生地点选在了浙江杭州三白潭的一座小岛。该小岛高度还原了极限生存环境，为整个挑战增添了诸多看点，因此

影视飓风孤岛生存挑战 Tim荒野求生
腾讯发布2025二季度财报微信及WeChat月活达14.11亿

今日，腾讯控股正式公布了截至2025年6月30日的第二季度财报。财报显示，腾讯在该季度实现营收1845亿元，与去年同期相比增长15%;权益持有人应占利润达556亿元，同比增长17%;即便是在非国际财务报告准则下，权益持有人应占利润也达到了631亿元，同比增长10%，整体业绩呈现出稳健上升的良好态势。

腾讯财报营收增长游戏收入
ChatGPT安全漏洞被曝光：无需点击即可盗用户数据！

据媒体报道，近日，OpenAI旗下连接器（Connectors）被曝存在安全漏洞。据悉，用户无需点击，攻击者就能从ChatGPT连接的第三方应用窃取敏感数据，甚至窃取API密钥。

OpenAI安全漏洞 ChatGPT数据泄露零点击攻击

今日大家都在搜的词：

热文

3 天
7天

中国科研团队重磅发布VideoChat-Flash 长视频处理速度提升100倍

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

荐首超长视频，只是红果的起点

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic天价赔款？大模型“盗版”的100000种花样

哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

ChatGPT 5更新：三种模式可选 4o重新回归

影视飓风Tim荒岛生存100小时网友：中国版荒野求生

腾讯发布2025二季度财报微信及WeChat月活达14.11亿

ChatGPT安全漏洞被曝光：无需点击即可盗用户数据！

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

享界S9T开启预售：32.8万起华为鸿蒙智行旗下首款旅行车

真我15系列官宣9月发布号称轻薄影像神器

曝iPhone18标准版推迟到2027年折叠屏与Pro系列率先登场

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

苹果正式入驻小红书 iPhone 17系列下月发布

REDMI Note 15 Pro系列官宣下周发布

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机