首页 > 业界 > 关键词  > Mamba最新资讯  > 正文

Mamba 模型在视频理解任务中展现出强劲潜力 打败Transformer

2024-04-30 14:24 · 稿源:站长之家

划重点:

Mamba 模型在视频专用和视频 - 语言任务中展现出强劲的潜力,实现了效率与性能的理想平衡

⭐ Mamba 模型的 Video Mamba Suite 套件12个视频理解任务中得到全面评估,显示出潜在的优势和多样化角色

⭐ 通过在视频时间任务、多模交互任务等领域的表现,Mamba 模型展现出与 Transformer 不同的优越性能和效率

站长之家(ChinaZ.com)4月30日 消息:近日,来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究队发布了一项关于视频理解的开创性工作。该研究全面审视了 Mamba 模型在建模中的多重角色,提出了针对14种模型 / 模块的 Video Mamba Suite,并对其在12项视频理解任务中进行了深估。

研究结果显示,Mamba 模型在视频专用和视频 - 语言任务中均展出强劲的潜力,实了效率与性能的理想平衡,为视频理解领域带来了革命性变革。

过去,视频理解技术一直是计算机视觉领域的关键驱动力之一。从循神经网络、三维卷积神经网络到最近的 Transformer 模型,每一次技术的飞跃都极大地拓了对视频数据的理解和应用。然而,传统架构在处理长视频序列的能力上渐暴露出局限性,而状态空间模型架构 Mamba 以其线性计算复杂度的优势,为视频理解领域带来新的可能性。Mamba 模型的 Video Mamba Suite 套件被用于评估12项视频理解任务,结果表明 Mamba 模型在视频时间任务、多模态交互任务等领域展现出了强大的潜力和性能。

image.png

该研究 Mamba 模型在视频理解领域的多种角色进行了深入研究,包括时序模型、多模态交、时空模型等。研究团队展示了 Mamba 模型在视频时间任务上的性能优越性相较于现有 Transformer 模型展现出了更加卓越的性能。此外,Mamba 模型在多模态交互任务中也呈现出了强大的表现。综合实验结果显示,Mamba 模型在视频理解领域具潜在的优势和多样化的角色,为未来视频理解研究提供了有力的推动和参考价值。

产品入口:https://top.aibase.com/tool/video-mamba-suite

论文链接:https://arxiv.org/abs/2403.09626

举报

  • 相关推荐
  • 网卡不行 AMD被指出一AI关键缺陷:还得看NV等公司

    在AI市场上,NVIDIA目前几乎垄断了先进AI算力芯片,大约能占90%市场,AMD长期被视为第二供应商,差距非常大。AI方面AMD这两年追赶的也很快,去年的MI350X系列就被认为追赶Blackwell,今年的MI450X系列算力、带宽甚至能超越NVIDIA产品。不过AMD在AI市场并不是说就没机会了,未来的发展前景肯定还是不错的今年下半年的MI450系列会是极好的观察机会,OpenAI已经承诺采购部署,其表现会是AMD能否真正追赶对手的关键测试。

  • 华擎主板点不亮AMD AM5锐龙:官方再次更新一波BIOS

    早在2025年初,华擎AM5主板就被曝出频繁导致锐龙处理器烧毁,或者无法点亮的问题,但两年过去了,似乎问题越来越严重,迟迟难以根除。华擎又为旗下AM5主板发布了一波BIOS更新,版本号v4.10。如果不支持,联系售后吧。

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • AMD去年营收346亿美元创纪录!苏姿丰:我们卖爆了

    AMD公司公布2025年第四季度及全年财务报告,双双创下历史新高。 财报显示,该公司2025年第四季度营收103亿美元创纪录,同比增长34%;2025年全年,AMD实现创纪录的346亿美元营收,同比增长34%。 本季度,AMD的毛利率为54%,净利润为15亿美元。全年来看,AMD的非GAAP毛利率为52%,净利润为68亿美元。 该公司预计2026年第一季度营收约为98亿美元,上下浮动3亿美元。 AMD的数据中心业

  • 逗哥配音“臻品达人”:以独家声音赋能创作者冲击“独家&精选”流量

    在短视频竞争白热化的当下,配音的独特性和品质已成为作品能否获得平台青睐、进入“精选”或“独家”推荐池的关键因素之一。逗哥配音平台通过推出“臻品达人”独家配音系列音色,为创作者提供从声音质感、内容辨识度到流量提升的全方位支持。平台以自研声音模型为基础,构建了包含上千款配音员的音色库,覆盖中、英、日、韩等十几种语言,适配多种热门创作类型。平台不仅提供高质量的配音服务,还集成了“去水印”、“文案提取”、“声音克隆”、“SRT字幕配音”等实用工具,形成从内容构思到成品输出的一站式创作闭环,显著提升了创作者的产出效率。

  • ​先摆猫,再出牌:《风水喵将》现已上线Steam,首发优惠仅需22.49元

    《风水喵将》是一款以猫咪表情包为灵感的肉鸽策略卡牌游戏,现已上线Steam,售价24.99元,首发优惠价22.49元。游戏融合麻将框架、肉鸽策略与猫咪元素,玩家需在有限手牌、宝物与随机选项中权衡调整,构建不同打法思路。游戏画风抽象温馨,加入“天命肉鸽”等机制增强趣味性,无论麻将新手或老手都能快速上手,体验构筑成型与分数翻倍的爽感。

  • 别傻傻买Mac Mini跑OpenClaw了!玩转AI代理,拼的不是显卡,是Token

    OpenClaw作为代理式AI开源框架,让AI从被动应答转向主动规划、调用工具、串联多步操作,成为数字世界的“全能助理”。其GitHub星标数已达14.3万,增长迅猛。然而,其自主决策特性也带来安全风险,如权限滥用、数据误删等。同时,OpenClaw的火爆推动了Agent普及,带来三大产业机会:一是云服务成为个人与中小企业入局的最低门槛;二是Token消耗迈入指数级增长阶段;三是Agent�

  • 酷哇发布 WAM 2.0 世界模型,加速构建“自动驾驶+机器人”RoboCity 新基建

    酷哇科技发布通用世界模型底座Coowa WAM2.0,并率先实现年度EBITDA回正。公司已完成从“单点技术”向“城市通用智能”的战略跃迁,构建起“技术底座+商业规模”双轮驱动体系,开启万台级“城市新基建”规模化部署。依托三大业务矩阵(智慧出行、智慧物业、智慧城市管家),酷哇已在全球超50个城市实现商业化落地,累计安全运营里程突破500万公里。其规模化订单市场占有率约80%,一线城市业务占比从2022年的不足2%跃升至2025年的25%,客户长期价值认可度持续提升。

  • 蓝厂首款Max旗舰来了!vivo X300 Max入网

    去年10月,vivo正式推出了备受瞩目的X300系列。该系列包含X300和X300 Pro两款旗舰产品,它们全部首发搭载了联发科天玑9500旗舰平台。 时隔不到半年,vivo X300系列的新成员X300 Max正式获得入网许可。作为蓝厂历史上首款以Max命名的高端旗舰,其设备型号为V2548A,并且确认支持90W有线闪充。这一新机型的出现,标志着vivo正在进一步拓宽其高端旗舰的产品边界。 根据目前掌握的消�

  • 华Mate 80 Pro Max/RS开启30天预约申购

    华为于2月5日12:08正式为Mate 80 Pro+ Max与Mate 80 RS非凡大师开启30天预约申购通道。消费者下单后无需抢购,只需等待随机顺序发货。每款产品限购一台,发货前可随时取消并全额退款。两款机型均搭载麒麟9030 Pro芯片,业内分析芯片供应紧张是供不应求主因。Mate 80 Pro+ Max提供16GB+512GB(7999元)和16GB+1TB(8999元)版本,四款配色可选。Mate 80 RS定位更高端,配备20GB超大内存,提供20GB+512GB(11999元)和20GB+1TB(12999元)版本,采用第三代玄武钢化昆仑玻璃与钛合金框架,支持双eSIM功能,满足多号使用需求,提供三款配色。

今日大家都在搜的词: