首页 > 业界 > 关键词  > Mamba最新资讯  > 正文

Mamba 模型在视频理解任务中展现出强劲潜力 打败Transformer

2024-04-30 14:24 · 稿源:站长之家

划重点:

Mamba 模型在视频专用和视频 - 语言任务中展现出强劲的潜力,实现了效率与性能的理想平衡

⭐ Mamba 模型的 Video Mamba Suite 套件12个视频理解任务中得到全面评估,显示出潜在的优势和多样化角色

⭐ 通过在视频时间任务、多模交互任务等领域的表现,Mamba 模型展现出与 Transformer 不同的优越性能和效率

站长之家(ChinaZ.com)4月30日 消息:近日,来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究队发布了一项关于视频理解的开创性工作。该研究全面审视了 Mamba 模型在建模中的多重角色,提出了针对14种模型 / 模块的 Video Mamba Suite,并对其在12项视频理解任务中进行了深估。

研究结果显示,Mamba 模型在视频专用和视频 - 语言任务中均展出强劲的潜力,实了效率与性能的理想平衡,为视频理解领域带来了革命性变革。

过去,视频理解技术一直是计算机视觉领域的关键驱动力之一。从循神经网络、三维卷积神经网络到最近的 Transformer 模型,每一次技术的飞跃都极大地拓了对视频数据的理解和应用。然而,传统架构在处理长视频序列的能力上渐暴露出局限性,而状态空间模型架构 Mamba 以其线性计算复杂度的优势,为视频理解领域带来新的可能性。Mamba 模型的 Video Mamba Suite 套件被用于评估12项视频理解任务,结果表明 Mamba 模型在视频时间任务、多模态交互任务等领域展现出了强大的潜力和性能。

image.png

该研究 Mamba 模型在视频理解领域的多种角色进行了深入研究,包括时序模型、多模态交、时空模型等。研究团队展示了 Mamba 模型在视频时间任务上的性能优越性相较于现有 Transformer 模型展现出了更加卓越的性能。此外,Mamba 模型在多模态交互任务中也呈现出了强大的表现。综合实验结果显示,Mamba 模型在视频理解领域具潜在的优势和多样化的角色,为未来视频理解研究提供了有力的推动和参考价值。

产品入口:https://top.aibase.com/tool/video-mamba-suite

论文链接:https://arxiv.org/abs/2403.09626

举报

  • 相关推荐
  • 思看科技三维扫描仪NimbleTrack荣获2025德国红点设计大奖

    思看科技旗下NimbleTrack智能无线三维扫描仪荣获2025年德国红点设计大奖。该产品凭借创新工业美学设计、全无线理念和轻量化结构(仅1.3kg)脱颖而出,实现0.025mm高精度扫描,支持每秒490万次测量。其碳纤维一体成型框架和边缘计算模块提升了稳定性与运算效率,适用于汽车制造、航空航天等领域,推动行业数字化转型。此次获奖彰显了思看科技在三维数字化领域的技术实力和设计创新能力。

  • Trae国内版怎么用?Trae IDE 内置 MCP 市场配置使用指南

    字节跳动旗下Trae+IDE发布新版本,通过MCP协议实现AI智能体与外部工具的深度集成。MCP作为标准化桥梁,让开发者能灵活接入Supabase、FireCrawl等第三方服务,只需@符号即可调用智能体完成数据库操作、文档搜索等复杂任务。新版本内置MCP市场,支持Token快速配置,并演示了如何通过Figma+AI自动生成前端代码。该技术可应用于Blender建模、K8s管理等多元场景,显著提升开发效率。Trae+IDE将持续扩展工具生态,推动AI协作开发新时代。

  • 理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    欧洲AI公司Mistral发布多模态新模型Mistral Medium 3,主打编程和多模态理解能力,性能达Claude 3.7的90%但成本仅1/8(输入0.4美元/百万token)。该模型在编程和STEM任务表现突出,支持企业级定制部署,已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise,集成第三方工具。尽管因未开源权重引发争议,其高性价比仍获业界关注。公司透露正在开发更大规模模型。

  • 努比亚Z70S Ultra摄影师版塞进6600mAh电池:续航最顶的Ultra

    努比亚Z70S+ Ultra手机即将发布,配备6600mAh超大电池,为行业最大容量。主摄升级至35mm国产定制镜头传感器,带来更大画幅、更好画质。采用1/1.3英寸大底传感器,超越友商1英寸主摄,具备超广通光孔径与DAG-HDR技术,综合实力优于竞品。核心配置上,将支持1.5K真全面屏,预计配16GB内存和1TB存储,新机将于4月28日亮相。

  • 诚意满满!小米为SU7 Ultra Club首批会员推出限定礼盒

    小米汽车这次真是诚意满满!SU7 Ultra Club首批会员收到了一份专属的限定礼盒。里面的东西可不少:SU7 Ultra的1:43合金车模,做工精致,完全按照真车比例打造;除此之外,还有纽北成绩限定车牌和冰箱贴,再加上专属会员卡,这身份感瞬间拉满。100%; word-break: break-word;"据悉,SU7 Ultra Club会员俱乐部是2月27日成立的,年费3999元,首批限量2000人,入会就能拿到6

  • 努比亚Z70S Ultra摄影师版官宣:今年唯一真全面屏Ultra

    快科技4月18日消息,今天,努比亚宣布努比亚AI双旗舰新品发布会将于4月28日举行,努比亚Z70S Ultra摄影师版和努比亚首款神秘新品将同时亮相。本次发布会的重头戏是努比亚Z70S Ultra摄影师版,对比其它Ultra机型,Z70S Ultra摄影师版采用1.5K真全面屏形态,是今年唯一一款真全面屏Ultra。据悉,这块屏幕采用全屏蓝钻排列,通过FIAA极致压缩走线技术实现超高屏占比,加上内置UDC Ultra

  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid图表

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 小米送Ultra Club首批会员礼盒:含合金车模、纽北成绩限定车牌等

    快科技4月19日消息,小米汽车今天宣布,为Ultra Club首批会员,准备了一份限定礼盒。该礼盒包含小米SU7 Ultra 1:43合金车模、纽北成绩限定车牌、纽北成绩冰箱贴、专属会员卡。官方表示,限定礼盒每一处都充满细节,希望车主打开礼盒的这一刻,能感受到小米汽车最真挚的心意。据了解,小米Ultra Club会员俱乐部于今年2月27日成立,该俱乐部的年费为3999元,首批限量2000人。入会可享60000积分,可享受以下专属服务:专属赛道服务:免费存胎服务,免费赛道救援,赛道耗材88折等;独享官方活动:德国纽北赛道之旅,专属官方赛道日等。

  • 最有诚意的Ultra!努比亚Z70S Ultra摄影师版外观公布:真全面屏形态 同档罕见

    快科技4月18日消息,努比亚宣布,努比亚Z70S Ultra摄影师版将于4月28日正式发布,倪飞称这是今年最有诚意的Ultra。根据官方公布的外观,努比亚Z70S Ultra摄影师版后壳采用了原生复古经典相机设计元素,相机模组通过一条富有动感的分割线一分为二,上方是全新35mm大底主摄,下方是潜望长焦以及超广角。与此同时,影像模组右上角延续了经典相机的红圈设计,Neovision图章致敬专