首页 > 业界 > 关键词  > Mamba最新资讯  > 正文

斯坦福CMU提出新序列模型Mamba 性能优于Transformer

2023-12-05 16:57 · 稿源:站长之家

要点:

  • 斯坦福 CMU 联合团队提出的 Mamba 是一种新的序列模型,击败了 Transformer 在语言、音频和 DNA 序列任务上的性能,具有线性复杂度和更高的推理吞吐量。

  • Mamba 的创新之处在于选择性处理输入信息、硬件感知的状态扩展和简化的 SSM 架构,使得模型能够在固定状态大小下压缩上下文并自适应调整行为。

  • Mamba 在 Chinchilla 缩放定律下预训练时,语言任务优于同类开源模型,并在下游任务上达到同类最佳性能,特别是在长序列情况下表现出优势。

站长之家(ChinaZ.com)12月5日 消息:斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为 Mamba,它在语言、音频和 DNA 序列等任务上超越了 Transformer 模型。Mamba 采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。与传统的注意力机制不同,Mamba 通过选择性处理输入信息,可以压缩上下文并自适应地调整行为。此外,Mamba 还利用了硬件感知的状态扩展技术,提高了在现代 GPU 上的计算效率。

image.png

在实验中,研究团队发现,Mamba 在 Chinchilla 缩放定律下进行预训练时,在语言任务上优于同类开源模型。此外,在下游任务上,无论是在小规模还是大规模的情况下,Mamba 都能够达到同类最佳性能。尤其是在处理长序列时,Mamba 相对于使用 FlashAttention 的 Transformer 模型具有更高的效率,而且不会出现内存不足的问题。

Mamba 的出现给 Transformer 模型带来了挑战。目前,Mamba 是第一个真正实现了与 Transformer 相当的性能,并且具有线性时间复杂度的序列模型。研究团队还表示,他们将继续探索 Mamba 在 Transformer 等大模型生态系统中的适用性,包括微调、自适应、提示学习等方面的研究。此外,团队还提到了扩展 Mamba 的挑战和工程调整,以及验证 Mamba 在更大规模下的性能。

综上所述,Mamba 作为一种新的序列模型,通过选择性处理输入信息和硬件感知的状态扩展技术,实现了与 Transformer 相当的性能,并在一些任务上表现出更高的效率。Mamba 的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。

举报

  • 相关推荐
  • 小红书内测笔记“发文件”新功能 100MB内文档一键预览下载

    小红书平台近期正于内部测试一项新功能,允许用户在笔记中直接附加文档文件,并支持一键预览与下载。目前该功能处于限量内测阶段,仅对部分中国大陆用户开放。 根据测试用户反馈,每篇笔记仅支持上传一个文档,文件大小上限为100MB。平台目前兼容常见的办公文档格式,包括 doc、docx、pdf、ppt 及 pptx,便于用户快速分享各类资料。 小红书官方客服已确认该功能上线,

  • 微星B850 GAMING PLUS WIFI PZ背插主板上市,畅享AM5平台

    微星11月中旬发布B850GAMING PLUS WIFI PZ背插主板,采用纯白PCB搭配蓝色氛围灯条,支持AMD AM5平台,首发价1699元。主板配备12+2+1相供电与双8Pin接口,支持DDR5内存超频至8200MT/s,搭载PCIe 5.0显卡插槽和3组M.2接口(含Gen5)。具备Wi-Fi7与5G有线网卡,通过背插设计隐藏线材,适合打造白色主题主机。在保留核心性能的同时,为主流用户提供了兼顾美观与性价比的AM5平台装机选择。

  • 华为Mate X7首发定制20GB内存:本月见

    博主定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史上内存最大的折叠屏旗舰。 在AI时代,AI手机需要充足的运行内存,运行内存可以随时读写,其响应速度比硬盘等长期存储介质快得多。因此,若想实现手机快速调用AI功能的效果,最高效的方法是让AI模型一直在运行内存中加载,即时刻准备着”。 这次华为Mate X7配备了20GB超大内存,比安卓阵营普遍采用的1

  • 华为年度机皇!Mate 80 RS非凡大师亮相:首发20GB内存、双潜望长焦镜头

    今日,华为Mate 80系列宣布定档11月25日发布,目前已在华为商城上架,将于今天中午12:08开启预订。 华为商城显示,作为华为最顶级的高端旗舰,华为Mate 80 RS非凡大师首发20GB内存,这是华为内存最大的旗舰手机,比安卓阵营普遍采用的16GB内存更大。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 加速不加价!贝锐花生壳内网穿透感恩回馈:最高免费提速至60Mbps!

    贝锐花生壳在2025年初完成带宽提速后,推出感恩回馈活动,所有年付用户可免费升级带宽,最高提速25%,带宽达60Mbps,覆盖增强版、豪华版、旗舰版及极速版。作为国内首款内网穿透服务,拥有19年技术积累,支持远程访问OA、ERP等系统,无需公网IP或调整网络架构。采用多线路BGP集群,保障跨地区高速访问,并提供HTTPS加密、权限控制、爆破防护等安全功能,满足企业数据本地存储及合规需求。

  • 华为第一款Pro Max!华为Mate 80 Pro Max四色官图公布

    华为Mate 80系列已经官宣11月25日发布,同时还揭晓这次的四款机型,分别是分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。 其中,Mate 80 Pro Max是全新版本,取代了以往的Pro 系列。 从官网信息来看,Mate 80和Mate 80 Pro应该差距较小,两款机型配备了完全一样的四款配色。

  • 华为Mate 80 Pro Max外观公布:采用双圆环设计

    华为宣布将于11月25日举行Mate80系列、Mate X7及全场景新品发布会,主题为“实力破圈,开启新篇”。官方预热视频首次展示Mate80 Pro+Max真机外观,后置摄像头延续圆形对称设计,新增“双环”ID,疑似磁吸充电模块,为系列首创。该系列将提供四款机型,首发麒麟9030处理器,预装鸿蒙OS6系统,性能与流畅度大幅提升,引发广泛关注。

  • 华为Mate 80系列备货量出炉:主推Pro Max 标准版管够放开买

    华为Mate 80系列将于11月25日发布,新机已在华为商城开启预订。 日前,数码博主定焦数码”晒出华为门店的备货情况称,华为Mate 80系列将主推Mate 80 Pro Max,而Mate 80标准版备货量很大,可以说是放开了买。 相比之下,Mate 80 Pro的备货量与Mate 80 RS非凡大师相近,不如Pro Max和标准版容易买到。

  • 华为Mate 80系列、Mate X7定档11月25日发布

    华为将于11月25日14:30举行新品发布会,推出Mate80系列和Mate X7折叠旗舰。Mate80系列包括四款机型,搭载全新麒麟9030处理器和鸿蒙OS6系统,性能与流畅度显著提升,并提供多样配色。Mate X7配备7.95英寸2K内屏,采用UTG超薄柔性玻璃,搭载麒麟9030处理器,电池容量更大,影像能力升级,拥有五款时尚配色。新品引发科技圈和消费者高度期待。

今日大家都在搜的词: