首页 > AI头条  > 正文

中国科研团队重磅发布VideoChat-Flash 长视频处理速度提升100倍

2025-01-21 10:23 · 来源: AIbase基地

传统的视频理解模型在处理长视频时面临着许多挑战,包括理解长视频所带来的复杂上下文。尽管已有不少研究致力于提升视频理解能力,依然难以有效克服训练和推理效率低下的问题。针对这些问题,研究团队通过 HiCo 技术,将视频信息中的冗余部分进行压缩,从而显著降低计算需求,同时保留关键信息。

image.png

具体而言,HiCo 通过对视频进行层次化压缩,将长视频分割成短片段,进而减少处理的标记数量。这一方法不仅降低了模型对计算资源的要求,还提升了上下文窗口的宽度,增强了模型的处理能力。此外,研究团队还利用了与用户查询的语义关联,以进一步减少视频标记的数量。

在长视频处理的具体实现中,“VideoChat-Flash” 采用了一种多阶段的短视频到长视频的学习方案。研究人员首先使用短视频及其对应的注释进行监督微调,随后逐步引入长视频进行训练,最终实现了对混合长度语料的全面理解。这种方式不仅提高了模型的视觉感知能力,还为长视频的处理提供了丰富的数据支持,研究团队构建了一个包含300,000小时视频和2亿字注释的庞大数据集。

此外,研究中还提出了一种改进的 “干草堆中的针” 任务,用于多跳视频配置。通过新的基准,模型不仅需要找到视频中的单一目标图像,还需理解多个相互关联的图像序列,从而提高了模型对上下文的理解能力。

实验结果表明,所提出的方法在计算上减少了两个数量级,特别是在短视频和长视频的基准测试中表现出色,成为新的短视频理解领域的领导者。同时,该模型在长视频理解方面也超越了现有的开源模型,显示出强大的时间定位能力。

论文:https://arxiv.org/abs/2501.00574

划重点:

🌟 研究人员提出了层次化视频标记压缩技术 HiCo,显著降低长视频处理的计算需求。  

📹 “VideoChat-Flash” 系统采用多阶段学习方法,结合短视频和长视频进行训练,提升了模型的理解能力。  

🔍 实验结果显示,该方法在多个基准测试中达到了新的性能标准,成为长视频处理领域的先进模型。

  • 相关推荐
  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

  • 首超长视频,只是红果的起点

    红果,又一次创造历史。 Questmobile的数据显示,抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿,同比增长179%,并超过2亿月活的优酷。 这意味着,短剧APP第一次超越长视频APP。 近年来,“爱优腾”对短剧的态度有了微妙的变化,从“长短之争”的剑拔弩张演化为“取长补短”的协同联动,却依然无法阻拦红果。 毋庸置疑,红果正走在高歌猛进的道路上。

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • 哪里找最新AI工具官网?如何快速对比ChatGPT替代品?AI工具导航指南 - AIbase

    文章探讨了在AI工具爆炸式增长的时代,用户面临的信息过载和筛选困难问题。主要内容包括:1)AI领域迭代速度远超传统软件,个人追踪信息效率低下且容易错过关键更新;2)AIbase.cn平台致力于解决这一问题,通过聚合主流AI工具、严格审核信息来源、持续更新行业动态;3)平台提供多维对比功能,结构化呈现工具参数,帮助用户快速定位适合需求的解决方案;4)建议用户定期浏览平台资讯栏目,善用搜索筛选功能,通过对比视图做出明智选择。核心价值在于降低信息筛选成本,让用户更高效地获取有价值的AI工具和前沿资讯。

  • ChatGPT 5更新:三种模式可选 4o重新回归

    OpenAI首席执行官Sam Altman在社交媒体上宣布,ChatGPT 5正式推出三种可选模式:自动(Auto)、快速(Fast)和思考(Thinking)。

  • 影视飓风Tim荒岛生存100小时 网友:中国版荒野求生

    ​昨日,知名影视飓风创始人、视频博主Tim开启了一场备受瞩目的孤岛生存100小时挑战,此次挑战全程进行网络直播,将野外取火、搭建庇护所、寻找水源与食物等真实求生场景一一呈现给观众,让网友们仿佛身临其境般感受极限生存的魅力。 据悉,Tim此次挑战的求生地点选在了浙江杭州三白潭的一座小岛。该小岛高度还原了极限生存环境,为整个挑战增添了诸多看点,因此

  • 腾讯发布2025二季度财报 微信及WeChat月活达14.11亿

    今日,腾讯控股正式公布了截至2025年6月30日的第二季度财报。 财报显示,腾讯在该季度实现营收1845亿元,与去年同期相比增长15%;权益持有人应占利润达556亿元,同比增长17%;即便是在非国际财务报告准则下,权益持有人应占利润也达到了631亿元,同比增长10%,整体业绩呈现出稳健上升的良好态势。

  • ChatGPT安全漏洞被曝光:无需点击即可盗用户数据!

    据媒体报道,近日,OpenAI旗下连接器(Connectors)被曝存在安全漏洞。 据悉,用户无需点击,攻击者就能从ChatGPT连接的第三方应用窃取敏感数据,甚至窃取API密钥。

今日大家都在搜的词: