比Transformer更好的模型架构？Monarch Mixer更低成本取得更优表现

2023-10-30 09:19 · 稿源：站长之家

要点:
1. Monarch Mixer （M2）是一种新的模型架构，与传统的Transformer不同，它通过使用Monarch矩阵替代注意力和MLP，使之在语言和图像实验中以更低的成本取得了更优的表现。
2. Monarch Mixer 的关键创新点在于其次二次的复杂度，使其能够处理更长的序列和更高维度的表征，同时保持计算效率。
3. 实验证明，M2在各种任务上，包括语言建模和图像分类，能够与传统Transformer媲美，同时具有更高的硬件效率和更少的参数。

站长之家（ChinaZ.com）10月30日消息:近年来，Transformer模型在自然语言处理和计算机视觉领域取得了巨大成功，但它的高成本、复杂性以及依赖于注意力机制和多层感知机（MLP）等组件使得人们开始寻求替代方案。论文介绍了一种名为Monarch Mixer(M2)的全新模型架构，这个架构在序列长度和模型维度上都表现出次二次复杂度的特点，同时在现代硬件加速器上具有出色的性能。

论文地址:https://arxiv.org/abs/2310.12109

代码地址:https://github.com/HazyResearch/m2

Monarch Mixer（M2）的主要创新点在于它采用了Monarch矩阵，将传统Transformer中的注意力机制和MLP替代为更高性能的结构。Monarch矩阵是一种次二次结构化矩阵，能够支持更长的序列和更高维度的表示，同时保持计算效率。这个矩阵可以通过分块对角矩阵的积进行参数化，其计算复杂度与输入长度呈次二次增长关系，这使得M2能够在处理大规模数据时具有出色的性能。

实验结果表明，M2在多个任务上都能够媲美传统Transformer模型，包括非因果语言建模、图像分类和因果语言建模。与传统Transformer相比，M2不仅能够节省大量参数，还具有更高的硬件效率，这使得它成为一个有潜力的替代选择。

斯坦福大学和纽约州立大学布法罗分校的研究团队的工作为机器学习领域带来了新的思路，挑战了传统Transformer模型的优越性。他们的研究不仅探索了Monarch Mixer的理论基础，还进行了一系列实验来验证其性能。这篇文章的发表为机器学习社区提供了一个全新的研究方向，也让人们重新思考了在自然语言处理和计算机视觉任务中的模型选择。

总的来说，Monarch Mixer（M2）是一种具有次二次复杂度的新型模型架构，能够在不使用传统Transformer中的注意力和MLP的情况下，在自然语言处理和计算机视觉任务中表现出色。它的硬件效率和参数效率使其成为一个有望取代传统Transformer的新选择，为深度学习研究领域带来了新的思考。

（举报）

相关推荐

关键词：

Transformer

问界新M5 Ultra跃影红成都车展惊艳亮相，购车立享至高3.7万权益

问界新M5 Ultra推出跃影红新色，打破传统红色沉闷感，呈现丰富光泽，兼具运动活力与高级质感。搭载华为ADS辅助驾驶系统，配备激光雷达与高清摄像头，应对复杂路况更安心。提供最高3.7万元购车权益，覆盖配置升级与个性定制。8月25日正式开售，成都车展亮相，吸引消费者近距离体验实车魅力。

问界新M5Ultra SUV市场跃影红
小米16系列真机亮相：横向大相机模组梦回小米11 Ultra

昨晚开始，有大量博主转发了许斐手持小米16系列真机的照片。图中明显可以看到，小米16系列这次外观有巨大变化，放弃了此前已经沿用了三代的右上角矩形方案，改为类似传闻中iPhone 17 Pro的横向大矩阵相机。这次曝光的小米16系列看起来应该是标准版，只有两颗镜头比较显眼，凸起似乎也并不高。当然了，这并不是小米抄袭借鉴iPhone 17 Pro，而是重回了自家小米11 Ultra的�

小米16系列许斐 iPhone
真我GT8 Pro预热：Ultra级的产品力

今天下午，真我举行了七周年直播活动，realme副总裁徐起提前预热真我GT8 Pro。徐起表示，真我GT8 Pro将是一款大改款旗舰，从外观设计、核心技术、用户体验等维度全方位革新，拥有Ultra级的产品力，而且真我还将带来颠覆想象的影像效果，是真我史上最强旗舰。

真我GT8 Pro 2K直屏
海宝公司 (Hypertherm Associates) 扩展 XPR® 等离子切割功能，提升生产效率和多功能性

海宝公司宣布其XPR系列精细等离子系统将在2025年底前迎来多项功能增强，包括全新流线型设计、工业物联网连接、手动设置模式、自动化气刨能力及水雾切割工艺。系统支持以太网和MTConnect协议，提升远程监控与数据交换效率。新增460A水雾切割工艺，可处理更厚材料并实现高质量坡口切割。这些升级旨在提高生产效率、精度和自动化水平，适用于造船、飞机制造及重型设备等领域。

海宝XPR系列精细等离子系统功能增强
卢伟冰的“夜神”成了！博主：小米15 Ultra是国内销量最高的安卓超大杯

博主数码闲聊站表示，小米15 Ultra是国内销量最高的安卓超大杯机型。资料显示，小米15 Ultra于今年2月27日正式发布，首发起售价是6499元。该机一经上市就引发关注，小米集团总裁卢伟冰曾表示，小米15 Ultra中国市场首销成绩十分亮眼，销量比上代同期增长超过50%，在海外市场，该机的预售量比上代同期增长超过100%。小米15 Ultra代号夜神”，配备徕卡四摄，四颗镜头分别为5

小米15 Ultra 安卓超大杯机型
雷军：成都车展将首次展出小米SU7 Ultra纽北限量版

随着8月29日成都车展开幕临近，小米汽车创始人雷军通过短视频提前剧透参展亮点。此次小米汽车将携全阵容车型亮相西博城展览馆16号馆H1607展台。在参展车型方面，小米SU7、SU7 Ultra与YU7将集体登场，覆盖不同用户需求。车身颜色选择十分丰富，除了市场反响热烈的YU7流金粉、影青色外，兼具质感与个性的丹霞紫也将亮相。此次车展最受瞩目的亮点，当属小米 SU7 Ultra纽北

小米汽车成都车展 SU7
问界新M5 Ultra跃影红亮相成都车展，现场上演“人从众”

成都车展上，问界新M5 Ultra以“跃影红”配色惊艳亮相，成为全场焦点。其外观设计灵感源自极光掠影，流动红色车身搭配黑色运动轮毂，尽显低调张扬气质。新车搭载华为ADS辅助驾驶系统，配备激光雷达与毫米波雷达，提供更智能安全的驾驶体验。四驱版4.3秒破百，增程版续航达1440km，满足年轻用户对性能与续航的双重需求。售价22.98万元起，即日起至10月9日订车可享最高37000元权益。

成都车展鸿蒙智行问界新M5Ultra
科龙静省电Ultra上市，跳出空调参数内卷，全能实力重塑用户体验

空调市场竞争激烈，科龙静省电Ultra以硬核实力破局。产品搭载美芝压缩机、7mm铜管等优质硬件，APF值达6.26超一级能效，实现15秒速冷、30秒速热。四向送风消除温差，防直吹设计提升舒适度。经中家院认证，能效稳定领先，满足年轻消费者对性能、节能与场景适配的全方位需求，引领行业回归实效竞争。

空调市场超一级能效性价比
华为Pura 80 Ultra宣布降价：直降1000元

继此前对Pura80Pro/Pro机型推出约800元降幅的优惠活动后，今日华为官方正式宣布，旗舰机型Pura80Ultra直降1000元，起售价由9999元下调至8999元，创下该机型上市以来的价格新低。作为华为影像技术的集大成者，Pura80Ultra凭借卓越的硬件配置与算法优化持续领跑行业。该机型搭载6.8英寸LTPO OLED显示屏，分辨率达2848×1276像素，支持1-120Hz自适应刷新率与3000尼特峰值亮度，配合5700mAh大容

华为 Pura80Ultra 降价
开学季游戏本选购指南：酷睿 Ultra7 255HX 凭什么成学生党首选？

华硕天选6Pro酷睿版专为大学生设计，搭载英特尔酷睿Ultra7处理器和RTX5060独显，兼顾学习与娱乐。AI高静技术确保图书馆、宿舍等场景安静运行，长续航支持全天课程，轻薄机身便于携带。性能强劲，流畅应对3A游戏与视频剪辑，满足Z世代对颜值与功能的双重需求，是校园全能伴侣。

新学期装备华硕天选6Pro AI高静游戏本

今日大家都在搜的词：

热文

3 天
7天

比Transformer更好的模型架构？Monarch Mixer更低成本取得更优表现

问界新M5 Ultra跃影红成都车展惊艳亮相，购车立享至高3.7万权益

小米16系列真机亮相：横向大相机模组梦回小米11 Ultra

真我GT8 Pro预热：Ultra级的产品力

海宝公司 (Hypertherm Associates) 扩展 XPR® 等离子切割功能，提升生产效率和多功能性

卢伟冰的“夜神”成了！博主：小米15 Ultra是国内销量最高的安卓超大杯

雷军：成都车展将首次展出小米SU7 Ultra纽北限量版

问界新M5 Ultra跃影红亮相成都车展，现场上演“人从众”

科龙静省电Ultra上市，跳出空调参数内卷，全能实力重塑用户体验

华为Pura 80 Ultra宣布降价：直降1000元

开学季游戏本选购指南：酷睿 Ultra7 255HX 凭什么成学生党首选？

今日大家都在搜的词：

热文

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

iPhone 17系列今晚发布：苹果发布会新品揭晓

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

魅族22官宣9月15日发布：外观、配置公布

预售16.98万起！尚界H5 小订量破 8 万

小米王腾因泄密被辞退曾单独签署保密协议

小米自带线充电宝20000 67W开售：售价179元

高通骁龙峰会定档9月24日：将发布骁龙8 Elite Gen5

抖音打击 AI 仿冒于东来内容封禁 1000 多个黑灰产团伙账号

苹果发布会前瞻：最大看点iPhone Air iPhone17或成国内首款无卡

为什么微信上那么多人住在安道尔上热搜：这些因素导致

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

iPhone 17系列今晚发布：苹果发布会新品揭晓

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

三大运营商回应是否支持eSIM版iPhone：需等待通知

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

AI日报：国产版Nano Banana？即梦图片4.0发布；阿里巴巴发布 Q

雷军第90次健身房打卡距离健身目标仅剩10次

站长商机