Transformer

在过去的一两年中，Transformer架构不断面临来自新兴架构的挑战。在众多非Transformer架构中，Mamba无疑是声量较大且后续发展较好的一个。通过合理的设计，Transformer强大的性能可以与Mamba在长上下文和效率上的优势整合到一起，为大型语言模型和大型多模态模型带来新的可能性。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“Transformer”的相关热搜词：

相关“Transformer” 的资讯74篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

在过去的一两年中，Transformer架构不断面临来自新兴架构的挑战。在众多非Transformer架构中，Mamba无疑是声量较大且后续发展较好的一个。通过合理的设计，Transformer强大的性能可以与Mamba在长上下文和效率上的优势整合到一起，为大型语言模型和大型多模态模型带来新的可能性。

Transformer架构 Mamba 深度学习
荐激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

“MoE”加上“前所未有大规模投入生产环境的LightningAttention”，再加上“从框架到CUDA层面的如软件和工程重构”，会得到什么？一个追平了顶级模型能力、且把上下文长度提升到400万token级别的新模型。这显然是巨大的野心，但在如今人们都在关注大模型接下来往哪儿走的时候，非常需要这样的野心，非常需要一个或者更多个“Transformer时刻”——在一个自己相信的路线上做到极致，把看似所有人都知道的配方，最终兑现出来，展示给技术社区里的人们，让它变成某个决定性的时刻，给AI的前进再添把火。

大模型 MiniMax-01 Lightning
荐突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

今天凌晨3点，全球社交巨头Meta分享了一个创新研究——Memorylayers。Transformer架构的预训练大模型在存储、查询数据时，随着参数的变大对算力的需求呈指数级增长。这样的设计既简化了维护流程，又提高了系统的灵活性和适应性。

Meta
RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

上海岩芯数智人工智能科技有限公司的Yan架构大模型成功通过《生成式人工智能服务管理暂行办法》备案，这是国内首个非Transformer架构大模型通过备案。Yan模型简介Yan架构大模型是国内首个非Transformer架构、非Attention机制的大模型。Yan架构大模型的备案通过是RockAI践行使命的重要里程碑，未来，我们期待Yan架构大模型在更多设备单元部署应用，让群体智能引领走向通用人工智能，与合作伙伴一起，领先一步开拓更加广阔的市场空间。

大模型人工智能 Yan架构
荐英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer，上下文越长，训练速度越快能维持原有精度。AI的未来，或许就此改写......最近，英伟达团队抛出的一枚重磅炸弹，提出了全新神经网络架构——归一化Transformer，基于超球面进行表示学习。下图6展示了，注意力模块和MLP模块的特征学习率，应用于MLP中间状态的缩放因子，应用于QK点积之前�

nGPT
荐 AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

训练Transformer，用来解决132年的数学世纪难题!如何判断一个动力系统是否稳定?Meta和巴黎理工学院团队携手提出SymbolicTransformer，直指这一经典难题的核心:发现新的全局李雅普诺夫函数。从牛顿、拉格朗日到庞加莱，无数科学家倾力研究三体问题的长期稳定性，却始终无法给出一个通用的判定方法。作者巴黎师范教授AmauryHayat表示，几年前刚开始这个项目时，作为一个年轻天真�

Transformer 人工智能 AI
荐清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」GeoffreyHinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构DifferentialTransformer，从注意力模块入手，实现了Transformer的核心能力提升。随着近些年来NLP领域研究的不断深入，我们逐渐发现，Transformer架构中出现的幻觉问题，以及各种下游任务中的性能不足，都或多或少与注意力缺陷有关。他的研究兴趣是大语言模型的骨干网络、长序列的建模和推理，以及大语言模型在其他领域的应用。

Transformer
「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非Attention模型更新

通往AGI终极之路，是什么?这世界，没有一个完整的定义，也没有具体的答案。此前曝出的OpenAI秘密路线图，将通往AGI目标划分五级。在Yan系列智慧生态的基础上，持续的群体进化将成为可能，最终绘制出「群体智能」的未来蓝图。

AGI 人工智能大世界模型
GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

提示工程师RileyGoodside小哥，依然在用「Strawberry里有几个r」折磨大模型们，GPT-4o在无限次PUA后，已经被原地逼疯!相比之下，Claude坚决拒绝PUA，是个大聪明。谷歌最近的论文也揭示了本质原因:LLM没有足够空间，来存储计数向量。这表明在计数任务中，我们可能需要借助于不具有相同限制的工具，例如代码解释器等。

GPT-4o Claude 大模型
荐 Transformer作者预警：只卖模型玩不过OpenAI！

Transformer八子中最年轻的AidanGomez在最新的采访中感叹:谷歌版的AidanGomez，是给AI领域带来深远影响的Transformer作者之一。现在的AidanGomez，是估值飙升55亿美元的Cohere公司的联合创始人兼CEO。所以我认为我们的首要任务应该是提高生产力和增长。

OpenAI Transformer 人工智能

热文

3 天
7天

Transformer

与“Transformer”的相关热搜词：

相关“Transformer” 的资讯74篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

荐腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

荐激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

荐突破算力限制！Meta开源“记忆层”，重塑Transformer架构大模型

RockAI国内首个「非Transformer架构大模型」Yan通过网信办备案

荐英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

荐 AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

荐清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非Attention模型更新

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

荐 Transformer作者预警：只卖模型玩不过OpenAI！

热文

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

4chan 之“死”：互联网最狂野的角落逐渐消逝！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

马斯克回归消息传出后，特斯拉股价飙升10%

“两年后，垃圾邮件问题将被解决”，谁在 2004 年说了这样的话

站长商机