首页 > AI头条  > 正文

苹果发布适配版SlowFast-LLaVA模型:长视频理解性能超越大规模模型

2025-08-25 14:35 · 来源: AIbase基地

据国外媒体报道,苹果研究团队近日发布了适配版的SlowFast-LLaVA模型,该模型在长视频分析理解任务上表现出色,其性能甚至超越了参数规模更大的模型。这项突破为长视频内容分析提供了高效的全新解决方案。

该模型的核心优势在于其双流架构,这一设计有效解决了传统逐帧处理模式下的信息冗余和上下文窗口溢出问题。慢流(Slow) 以低帧率捕捉场景中的静态细节和背景信息,而快流(Fast) 则以高帧率追踪动作的快速变化。这种协同工作模式极大地优化了视频处理效率。

QQ20250825-143446.png

在长视频基准测试中,SlowFast-LLaVA展现了卓越性能。其10亿、30亿和70亿参数版本均取得了优异成绩。例如,参数仅为10亿的模型在LongVideoBench的General VideoQA任务中获得了56.6分,而70亿参数版本在Long-Form Video Understanding任务中更是达到了71.5分的高分。除了视频理解,该模型在知识推理和OCR等图像理解任务上同样表现出色。

QQ20250825-143452.png

尽管该模型表现出众,目前仍存在一定局限性,例如输入帧长限制在128帧,可能导致关键信息的遗漏。苹果团队表示,未来将继续探索内存优化技术以提升模型性能。

SlowFast-LLaVA基于公开数据集训练并已开源,为整个AI社区在长视频理解领域提供了新的思路和高效工具。

  • 相关推荐
  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 首超长视频,只是红果的起点

    红果,又一次创造历史。 Questmobile的数据显示,抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿,同比增长179%,并超过2亿月活的优酷。 这意味着,短剧APP第一次超越长视频APP。 近年来,“爱优腾”对短剧的态度有了微妙的变化,从“长短之争”的剑拔弩张演化为“取长补短”的协同联动,却依然无法阻拦红果。 毋庸置疑,红果正走在高歌猛进的道路上。

  • 苹果发布iOS 26开发者预览版Beta 6:液态玻璃、动效加强

    今天凌晨,苹果向开发者推送了iOS 26 Beta 6版本,增加了不少新的动效、功能,整体已经比较完善。 鉴于iPhone 17系列的发布还有不到一个月的时间,正式版很可能会维持目前的效果。 具体更新内容如下: 锁屏界面:液态玻璃效果更新,时钟比以前更透明但仍有磨砂玻璃外观;输入密码时,密码按钮比以前更半透明。 应用动画:打开和关闭应用的动画有所改变,比以前快很�

  • 长视频自己的音乐节:从一个人刷片,到七万人狂欢

    当夕阳余晖洒下,毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现,所有台下的合唱观众,感受到了一种强烈的共鸣。 同一刻、在一起,体验同一种情绪,成了用户与腾讯视频之间的「独家记忆」。 这是国内长视频平台首次把音乐节与内容紧密结合,通过一场线下活动,腾讯视频想要回应一个期待:为私密的、个人的线上观影行为,制造一种「共同在场感」。 无�

  • 苹果发布iOS 26第三个公测版:液态玻璃效果增强

    今天苹果发布了iOS 26第三个公测版本,整体看齐开发者预览版Beta 6,增强了部分液态玻璃和动效。 iPhone 11系列、iPhone SE二代及后续机型,均可升级。 作为公测版,目前日常使用已经趋于稳定,没有什么硬性bug,卡顿和发热、耗电情况也比之前好了很多。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 智元机器人姚卯青:以世界模型驱动飞轮,解锁具身智能规模化应用

    智元机器人合伙人在2025世界机器人大会上发表演讲,系统阐述了公司在具身智能领域的探索成果与未来方向。公司已发布多款机器人产品,建成规模化生产线与训练场,并在算法领域实现多项创新。为解决数据难题,智元开源了AgiBot World百万真机数据集,并推出具身智能基座模型GO-1,该模型在三大场景测试中表现优异。公司创新性地提出"本体-数据-模型-场景"全栈布局理念,通过飞轮迭代逻辑加速技术突破。智元还推出GE Bench评测工具,并计划下半年发布新一代机器人AgiBot G2。过去一年,智元已在柔性制造、物流分拣等多个场景取得突破性应用成果。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • 八年深耕铸就“即刻精彩”,HOLLYLAND猛玛2025秋季新品发布会前瞻

    猛玛将于2025年8月26日举办品牌战略暨秋季新品发布会,系统呈现其全球战略布局与技术成果。深耕无线音视频领域八年,猛玛致力于打造全球创作者信赖的“创作底座”,通过技术创新降低专业设备门槛,推动创作工具智能化与普惠化。发布会将首次系统阐释品牌使命“科技助力轻松表达,丰富人类精神世界”,并带来秋季重磅新品,展现对创作全流程需求的深入覆盖。

今日大家都在搜的词: