清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

2024-10-10 11:31 · 来源： AIbase基地

最近大语言模型（LLM）发展迅猛，其中Transformer模型功不可没。Transformer的核心是注意力机制，它像一个信息过滤器，让模型关注句子中最重要的部分。但即使是强大的Transformer，也会被无关信息干扰，就好比你在图书馆想找本书，结果被一堆无关的书淹没，效率自然低下。

这种注意力机制产生的无关信息，在论文中被称为注意力噪音。想象一下，你想在文件中找一个关键信息，结果Transformer模型的注意力却分散到各种无关的地方，就像一个近视眼，看不清重点。

为了解决这个问题，这篇论文提出了Differential Transformer （DIFF Transformer）。这个名字很高级，但原理其实很简单，就像降噪耳机一样，通过两个信号的差异来消除噪音。

Differential Transformer 的核心是差分注意力机制。它把查询和键向量分成两组，分别计算两个注意力图，再将这两个图相减，得到最终的注意力分数。这个过程就像用两台相机分别拍摄同一个物体，然后将两张照片叠加，差异的地方就会凸显出来。

通过这种方式，Differential Transformer 能够有效地消除注意力噪音，让模型更加专注于关键信息。就好比你戴上降噪耳机，周围的噪音消失了，你就能更清晰地听到想要的声音。

论文中进行了一系列实验，证明了Differential Transformer 的优越性。首先，它在语言建模方面表现出色，只需要Transformer65% 的模型大小或训练数据，就能达到类似的效果。

其次，Differential Transformer 在长文本建模方面也更胜一筹，能够有效地利用更长的上下文信息。

更重要的是，Differential Transformer 在关键信息检索、减少模型幻觉和上下文学习方面表现出显著优势。

在关键信息检索方面，Differential Transformer 就像一个精准的搜索引擎，能够在海量信息中准确地找到你想要的内容，即使是在信息极其复杂的场景下，也能保持高准确率。

在减少模型幻觉方面，Differential Transformer 能够有效地避免模型“胡说八道”，生成更准确、更可靠的文本摘要和问答结果。

在上下文学习方面，Differential Transformer 更像是学霸，能够快速地从少量样本中学习新知识，而且学习效果也更加稳定，不像Transformer那样容易受到样本顺序的影响。

此外，Differential Transformer 还能有效地降低模型激活值中的异常值，这意味着它对模型量化更友好，可以实现更低比特的量化，从而提高模型的效率。

总而言之，Differential Transformer 通过差分注意力机制有效地解决了Transformer模型的注意力噪音问题，并在多个方面取得了显著的改进。它为大语言模型的发展提供了新的思路，未来将会在更多领域发挥重要作用。

论文地址：https://arxiv.org/pdf/2410.05258

相关推荐

荐1/8成本比肩Claude 3.7，Mistral Medium 3来了

欧洲AI公司Mistral发布多模态新模型Mistral Medium 3，主打编程和多模态理解能力，性能达Claude 3.7的90%但成本仅1/8（输入0.4美元/百万token）。该模型在编程和STEM任务表现突出，支持企业级定制部署，已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise，集成第三方工具。尽管因未开源权重引发争议，其高性价比仍获业界关注。公司透露正在开发更大规模模型。

Mistral AI 多模态模型
TikTok 上线 Brand Consideration！助力品牌将影响力转化为消费意向！

TikTok推出Brand Consideration营销方案，聚焦消费者决策链中的"种草阶段"。数据显示，处于种草阶段的用户对品牌偏好度比认知阶段高28%，贡献46%的GMV，转化效率可达认知阶段用户的12倍。该方案通过AI分析用户全渠道行为数据，精准识别高意向人群，帮助品牌降低46%的获客成本。东南亚市场实践表明，结合达人内容和电商广告的组合投放，能有效提升18.5%的种草效率。TikTok的差异化优势在于：1）Market Scope监测平台实时分析人群增长趋势；2）Symphony AI工具快速生成高质量内容；3）TikTok One平台便捷对接优质达人。该方案解决了数字营销中长期存在的中间漏斗转化难题，实现从认知到购买的全链路优化。

数字营销品牌认知用户决策
微软CEO：公司多达 30% 的代码是由 AI 生成的！

微软首席技术官凯文·斯科特（Kevin Scott）曾表示，预计到 2030 年，将有 95% 的代码是由 AI 生成的……

微软 meta开发者大会 Llamacon
更拉风！小米SU7 Ultra挖孔版交付：网友晒贴感谢雷军推进产能

4月26日，小米SU7 Ultra挖孔版正式开启交付。北京一位车主成为首位交付用户，其购买的闪电黄配色车型引发关注。该车型标准版售价52.99万元，提供5款轮毂可选，包括免费低风阻轮毂和付费锻造轮毂等。此外还提供碳纤维双风道前舱盖（可选闪电黄、太空银）、全系碳纤维原色选装（4.2万元）、1.7㎡超大碳纤维车顶（2.5万元）等高端配置。多位已订车主表示，实车质感超出预期，认为50多万的售价物有所值。
谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”

谷歌或许想把 AI Ultra 打造成一个精英创作者工具包，但它也可能正在重新定义“高端”：只是贵而已……

谷歌i/o大会谷歌i/o大会2025 谷歌ai套餐
联想：不怕高关税更担心的是不确定性 AI卷的是生产力

杨元庆进一步强调，联想作为集产品设计、生产制造、市场营销于一体的端到端企业，与多数依赖外包的竞争对手存在本质差异。他直言，高关税并非联想的劣势，反而可能成为其差异化竞争的契机，“关键在于能否通过端到端整合与全球资源本地化交付，在复杂环境中保持竞争力”。

联想集团创新科技大会关税政策
联想ThinkCentre neo Ultra 2025迷你机发布：RTX 5060/Ti桌面版、14999元起

快科技4月29日消息，在日前的联想Think AI终端2025春季发布会上，联想正式推出了ThinkCentre neo Ultra 2025 AI元启版。这款迷你主机沿用了上一代的外观设计，体积为3.6升，配备了英特尔酷睿Ultra系列桌面处理器和NVIDIA RTX 5060/5060 Ti桌面版显卡。具体配置方面，ThinkCentre neo Ultra 2025目前公布售价的有两个版本：RTX 5060版本：配备英特尔酷睿Ultra 5处理器、32GB内存和1TB固态硬盘，售价为14999元。RTX 5060 Ti版本：配备英特尔酷睿Ultra 7处理器、32GB内存和1TB固态硬盘，售价为19999元。还有英特尔酷睿Ultra 7处理器 RTX 5060

联想 ThinkCentre neo
程序员危！微软CEO纳德拉：公司高达30%代码是AI写的

微软CEO纳德拉在Meta的LlamaCon大会上透露，微软代码库中20%-30%的代码由AI生成，其中Python应用进展最快，C语言相对较慢。微软CTO凯文·斯科特预测到2030年，95%代码将由AI生成。谷歌CEO皮查伊也表示，谷歌超30%代码由AI生成。Meta CEO扎克伯格则未透露具体数据。由于缺乏统一的AI代码衡量标准，这些数据仅供参考。（140字）

AI 代码生成微软与Meta
小米SU7 Ultra限制马力引热议博主称车主强烈反对 OTA已取消

快科技5月2日消息，50多万就能拥有1500匹马力，小米SU7 Ultra的加速能力有目共睹，但部分车主暴力驾驶的视频也让人触目惊心。最近，多名网友表示小米SU7 Ultra在进行OTA更新时，发现更新内容中有一条新增排位模式圈速考核，在指定赛道圈速达到官方建议成绩可解锁排位模式。”另外还新增了直线竞速等待功能，P挡状态下等待60秒后才能开启直线竞速模式。不少人表示，小米SU7 Ultra更新以后开始限制最大马力的使用，需要通过跑赛道圈速成绩解锁，才能使用排位赛模式获得1500匹马力。有人认为，此举与自信驾驭强大”的宣传语有悖，还有博主称?

小米SU7 Ultra 汽车OTA更新
TikTok强势增长，字节定了个“小目标”： 2025营收赶超Meta

在全球经济可能面临下行压力的情况下，字节跳动仍将其 2025 年的营收增长目标定为 20% 左右。这一增长速度或将让使其全球业务接近 Meta 平台的水平……

Tiktok 洋抖字节跳动

今日大家都在搜的词：

热文

3 天
7天

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

荐1/8成本比肩Claude 3.7，Mistral Medium 3来了

TikTok 上线 Brand Consideration！助力品牌将影响力转化为消费意向！

微软CEO：公司多达 30% 的代码是由 AI 生成的！

更拉风！小米SU7 Ultra挖孔版交付：网友晒贴感谢雷军推进产能

谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”

联想：不怕高关税更担心的是不确定性 AI卷的是生产力

联想ThinkCentre neo Ultra 2025迷你机发布：RTX 5060/Ti桌面版、14999元起

程序员危！微软CEO纳德拉：公司高达30%代码是AI写的

小米SU7 Ultra限制马力引热议博主称车主强烈反对 OTA已取消

TikTok强势增长，字节定了个“小目标”： 2025营收赶超Meta

今日大家都在搜的词：

热文

谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪

苹果WWDC2025定档6月9日-13日，iOS大改版、没有AI…

不久后，苹果可能会同意你放弃Siri，改用更智能的 AI 助手

Meta AI负责人：无关爱国，是“自卑情结” 阻碍了欧洲科技发展

“统治色情世界”的 OnlyFans 正在出售中，估值 80 亿美元

调查发现：近 50% 年轻人宁愿活在“没有互联网”的世界！

谷歌推出 250 美元的 AI Ultra 套餐，重新定义“高端”

谷歌投资1.5亿美元，携手Warby Parker开发AI眼镜

Meta说AI好友是社交媒体的未来，但，用户想要的是真正的联系

站长商机