首页 > 业界 > 关键词  > Mamba最新资讯  > 正文

斯坦福CMU提出新序列模型Mamba 性能优于Transformer

2023-12-05 16:57 · 稿源:站长之家

要点:

  • 斯坦福 CMU 联合团队提出的 Mamba 是一种新的序列模型,击败了 Transformer 在语言、音频和 DNA 序列任务上的性能,具有线性复杂度和更高的推理吞吐量。

  • Mamba 的创新之处在于选择性处理输入信息、硬件感知的状态扩展和简化的 SSM 架构,使得模型能够在固定状态大小下压缩上下文并自适应调整行为。

  • Mamba 在 Chinchilla 缩放定律下预训练时,语言任务优于同类开源模型,并在下游任务上达到同类最佳性能,特别是在长序列情况下表现出优势。

站长之家(ChinaZ.com)12月5日 消息:斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为 Mamba,它在语言、音频和 DNA 序列等任务上超越了 Transformer 模型。Mamba 采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。与传统的注意力机制不同,Mamba 通过选择性处理输入信息,可以压缩上下文并自适应地调整行为。此外,Mamba 还利用了硬件感知的状态扩展技术,提高了在现代 GPU 上的计算效率。

image.png

在实验中,研究团队发现,Mamba 在 Chinchilla 缩放定律下进行预训练时,在语言任务上优于同类开源模型。此外,在下游任务上,无论是在小规模还是大规模的情况下,Mamba 都能够达到同类最佳性能。尤其是在处理长序列时,Mamba 相对于使用 FlashAttention 的 Transformer 模型具有更高的效率,而且不会出现内存不足的问题。

Mamba 的出现给 Transformer 模型带来了挑战。目前,Mamba 是第一个真正实现了与 Transformer 相当的性能,并且具有线性时间复杂度的序列模型。研究团队还表示,他们将继续探索 Mamba 在 Transformer 等大模型生态系统中的适用性,包括微调、自适应、提示学习等方面的研究。此外,团队还提到了扩展 Mamba 的挑战和工程调整,以及验证 Mamba 在更大规模下的性能。

综上所述,Mamba 作为一种新的序列模型,通过选择性处理输入信息和硬件感知的状态扩展技术,实现了与 Transformer 相当的性能,并在一些任务上表现出更高的效率。Mamba 的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。

举报

  • 相关推荐
  • TECNO于 MWC 2026发布CAMON 50系列,官宣与Tonino Lamborghini重磅合作

    TECNO在MWC 2026期间举办生态发布会,推出全新影像旗舰手机CAMON 50系列,并宣布与意大利传奇设计品牌Tonino Lamborghini达成重磅合作。CAMON 50系列主打高性能影像,深度融合高端硬件与AI处理能力,搭载全新AI RAW 2.0图像引擎及行业首创的AI Auto Zoom等功能,在DXOMARK测试中获得优异评分。同时,TECNO与Tonino Lamborghini将共同探索科技与美学的融合,并联合发布了限量版水冷主机、全金属5G手机等多款AIoT生态产品,致力于为用户提供更实用、可及的AI体验。

  • 科学运动新范式:园世Gamma H1的专业运动音频进阶之道

    园世Gamma H1运动耳机专为运动爱好者设计,集心率监测、全场景听音适配与科学训练于一体。它搭载实时心率监测模块与专属APP,构建科学运动闭环;具备IPX8级防水、32G大内存及蓝牙6.0技术,适应各类运动场景;采用人体工学设计,佩戴稳固舒适。该产品以四百元档价位实现了专业运动耳机的全面功能升级,成为运动听音的新标杆。

  • 突破PCIe 5.0能效边界:忆联AM6D1以DRAMLess架构重塑性能与成本平衡

    忆联推出行业领先的DRAM-Less PCIe 5.0 SSD——AM6D1,通过创新架构与底层算法优化,兼顾性能与成本。该产品采用无独立缓存设计,支持PCIe 5.0 x4与NVMe 2.0标准,凭借主控算法优化与高速闪存的深度协同,实现媲美有缓存旗舰产品的性能表现。实测显示,AM6D1在CDM、FIO等基准测试中顺序读写速度分别达11500MB/s和10900MB/s,4K随机读取性能出色,并在PCMark 10、3DMark等真实负载测试中表现稳定。其低功耗与低发热特性,为轻薄本等空间受限设备提供了理想的存储升级方案。

  • 三星携裸眼3D和HDR10+ GAMING成果亮相GDC 2026,推动热门游戏大作体验升级

    三星在GDC 2026上展示了其裸眼3D游戏生态的进展。通过玄龙骑士3D电竞显示器,玩家无需专用眼镜即可体验沉浸式3D效果,如《地狱即我们》和《时间旅者:重生曙光》等游戏。三星持续扩大3D游戏阵容,预计年底将支持超120款游戏。同时,三星与CD PROJEKT RED等顶级工作室合作,推进HDR10+ GAMING等技术,提升游戏画质与沉浸感。

  • 传音TECNO CAMON 50新机登场,火山引擎助力AI影像与创作体验升级

    在2026年MWC大会上,传音旗下品牌TECNO发布了CAMON 50系列新机,其AI助手Ella整合了火山引擎的AIGC技术,为全球不同肤色、语种用户提供原生、稳定且更具创造力的影像与创作体验。Ella接入豆包图像创作模型,针对多肤色、多语言和文化审美进行优化,推出图像风格化、文字涂鸦及动态壁纸等功能,满足个性化需求。传音与火山引擎合作,在人像处理、多语言理解等方面专项优化,确保影像真实自然。通过火山引擎的海外云基础设施,为全球用户提供稳定可靠的AI服务。

  • MiniMax把难题留给了对手

    上市52天后,MiniMax交出了IPO后的首份成绩单。 整体来看,2025年MiniMax收入7903.8万美元,较去年同比增长158.9%。剔除掉股份支付、金融负债公允价值变动和上市开支这些项目后,经调整净亏损2.51亿美元,较去年同期亏损扩大了2.7%。 如果用一个主题词来描述MiniMax的2025年,那可能是“效率”。财报里的几个关键数据,反映了去年MiniMax提效的任务主线。 销售及分销开支4036.9万美�

  • 折叠屏手机首次!荣耀Magic V6用上7150mAh电池:创下多项行业记录

    在今天的新品发布会上,荣耀正式带来了新一代折叠屏新机Magic V6,该机亮点之一就是首发新一代青海湖刀片电池。 荣耀Magic V6的1TB版本首发搭载最新自研青海湖刀片电池,一举打破了容量、硅含量、厚度、能量密度在内的四项行业纪录。 在电池容量上,该机达到折叠屏最大的7150mAh电量,同时也是折叠屏首度突破7000mAh。 另外电池极片厚度仅为0.15毫米,为行业最薄叠层厚度�

  • 2026年空气净化器选购指南:IAM空气净化器除甲醛技术深度验证

    IAM M9+Pro空气净化器以“整机无耗材”革命性设计,终结用户频繁更换滤芯的烦恼。其净化性能突破物理极限,颗粒物CADR实测值达1331m³/h,甲醛CADR实测值高达1083.6m³/h,实现“开机即净土”。产品采用铝蜂窝无耗材裂醛滤网、多极片静电消杀阵列、长效催化醛解滤层三大核心技术,实现滤网可水洗,未来多年维护零成本。同时,它精准覆盖新装修家庭除醛、母婴人群杀菌、过敏

  • 苹果:MacBook Neo绝无任何设计妥协!

    近日,苹果工业设计副总裁Molly Anderson在接受采访时为旗下新款入门级产品MacBook Neo站台,坚称这款定位亲民的笔记本在设计上没有任何妥协。 Anderson强调,苹果在设计和品质方面绝未让步,她表示:毫无疑问这是一款MacBook,我们在设计上绝对没有妥协,这真的很重要。” 事实上,与此前传闻可能采用廉价塑料外壳不同,MacBook Neo最终配备了全铝合金机身,保持了MacBook系列一

  • 荣耀Magic V6宣布搭载7150mAh电池

    荣耀Magic V6国行版将于3月10日发布,搭载全新一代7150mAh青海湖刀片电池,开启折叠屏7000mAh大容量时代。该电池硅含量达32%,能量密度高达985Wh/L,远超行业标准。新机采用八边穹顶设计,提供四款配色,机身重219g,折叠厚度仅8.75mm。性能方面搭载骁龙8至臻版芯片,内外双屏峰值亮度分别达5000nits和6000nits,配备2亿像素主摄,支持无线充电、满级防水及北斗卫星通信等旗舰功能。

今日大家都在搜的词: