首页 > AI头条  > 正文

清华与微软联手打造Differential Transformer,让 AI 的注意力更集中,精度飙升30%!

2024-10-10 11:31 · 来源: AIbase基地

最近大语言模型(LLM)发展迅猛,其中Transformer模型功不可没。Transformer的核心是注意力机制,它像一个信息过滤器,让模型关注句子中最重要的部分。但即使是强大的Transformer,也会被无关信息干扰,就好比你在图书馆想找本书,结果被一堆无关的书淹没,效率自然低下。

这种注意力机制产生的无关信息,在论文中被称为注意力噪音。想象一下,你想在文件中找一个关键信息,结果Transformer模型的注意力却分散到各种无关的地方,就像一个近视眼,看不清重点。

image.png

为了解决这个问题,这篇论文提出了Differential Transformer (DIFF Transformer)。这个名字很高级,但原理其实很简单,就像降噪耳机一样,通过两个信号的差异来消除噪音。

Differential Transformer 的核心是差分注意力机制。它把查询和键向量分成两组,分别计算两个注意力图,再将这两个图相减,得到最终的注意力分数。这个过程就像用两台相机分别拍摄同一个物体,然后将两张照片叠加,差异的地方就会凸显出来。

image.png

通过这种方式,Differential Transformer 能够有效地消除注意力噪音,让模型更加专注于关键信息。就好比你戴上降噪耳机,周围的噪音消失了,你就能更清晰地听到想要的声音。

论文中进行了一系列实验,证明了Differential Transformer 的优越性。首先,它在语言建模方面表现出色,只需要Transformer65% 的模型大小或训练数据,就能达到类似的效果。

image.png

其次,Differential Transformer 在长文本建模方面也更胜一筹,能够有效地利用更长的上下文信息。

更重要的是,Differential Transformer 在关键信息检索、减少模型幻觉和上下文学习方面表现出显著优势。

image.png

在关键信息检索方面,Differential Transformer 就像一个精准的搜索引擎,能够在海量信息中准确地找到你想要的内容,即使是在信息极其复杂的场景下,也能保持高准确率。

在减少模型幻觉方面,Differential Transformer 能够有效地避免模型“胡说八道”,生成更准确、更可靠的文本摘要和问答结果。

在上下文学习方面,Differential Transformer 更像是学霸,能够快速地从少量样本中学习新知识,而且学习效果也更加稳定,不像Transformer那样容易受到样本顺序的影响。

此外,Differential Transformer 还能有效地降低模型激活值中的异常值,这意味着它对模型量化更友好,可以实现更低比特的量化,从而提高模型的效率。

总而言之,Differential Transformer 通过差分注意力机制有效地解决了Transformer模型的注意力噪音问题,并在多个方面取得了显著的改进。它为大语言模型的发展提供了新的思路,未来将会在更多领域发挥重要作用。 

论文地址:https://arxiv.org/pdf/2410.05258

  • 相关推荐
  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    欧洲AI公司Mistral发布多模态新模型Mistral Medium 3,主打编程和多模态理解能力,性能达Claude 3.7的90%但成本仅1/8(输入0.4美元/百万token)。该模型在编程和STEM任务表现突出,支持企业级定制部署,已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise,集成第三方工具。尽管因未开源权重引发争议,其高性价比仍获业界关注。公司透露正在开发更大规模模型。

  • TikTok 上线 Brand Consideration! 助力品牌将影响转化为消费意向!

    TikTok推出Brand Consideration营销方案,聚焦消费者决策链中的"种草阶段"。数据显示,处于种草阶段的用户对品牌偏好度比认知阶段高28%,贡献46%的GMV,转化效率可达认知阶段用户的12倍。该方案通过AI分析用户全渠道行为数据,精准识别高意向人群,帮助品牌降低46%的获客成本。东南亚市场实践表明,结合达人内容和电商广告的组合投放,能有效提升18.5%的种草效率。TikTok的差异化优势在于:1)Market Scope监测平台实时分析人群增长趋势;2)Symphony AI工具快速生成高质量内容;3)TikTok One平台便捷对接优质达人。该方案解决了数字营销中长期存在的中间漏斗转化难题,实现从认知到购买的全链路优化。

  • 微软CEO:公司多达 30% 的代码是由 AI 生成的!

    微软首席技术官凯文·斯科特(Kevin Scott)曾表示,预计到 2030 年,将有 95% 的代码是由 AI 生成的……

  • 拉风!小米SU7 Ultra挖孔版交付:网友晒贴感谢雷军推进产能

    4月26日,小米SU7 Ultra挖孔版正式开启交付。北京一位车主成为首位交付用户,其购买的闪电黄配色车型引发关注。该车型标准版售价52.99万元,提供5款轮毂可选,包括免费低风阻轮毂和付费锻造轮毂等。此外还提供碳纤维双风道前舱盖(可选闪电黄、太空银)、全系碳纤维原色选装(4.2万元)、1.7㎡超大碳纤维车顶(2.5万元)等高端配置。多位已订车主表示,实车质感超出预期,认为50多万的售价物有所值。

  • 谷歌推出 250 美元的 AI Ultra 套餐,重新定义“高端”

    谷歌或许想把 AI Ultra 打造成一个精英创作者工具包,但它也可能正在重新定义“高端”:只是贵而已……

  • 联想:不怕高关税担心的是不确定性 AI卷的是生产

    杨元庆进一步强调,联想作为集产品设计、生产制造、市场营销于一体的端到端企业,与多数依赖外包的竞争对手存在本质差异。他直言,高关税并非联想的劣势,反而可能成为其差异化竞争的契机,“关键在于能否通过端到端整合与全球资源本地化交付,在复杂环境中保持竞争力”。

  • 联想ThinkCentre neo Ultra 2025迷你机发布:RTX 5060/Ti桌面版、14999元起

    快科技4月29日消息,在日前的联想Think AI终端2025春季发布会上,联想正式推出了ThinkCentre neo Ultra 2025 AI元启版。这款迷你主机沿用了上一代的外观设计,体积为3.6升,配备了英特尔酷睿Ultra系列桌面处理器和NVIDIA RTX 5060/5060 Ti桌面版显卡。具体配置方面,ThinkCentre neo Ultra 2025目前公布售价的有两个版本:RTX 5060版本:配备英特尔酷睿Ultra 5处理器、32GB内存和1TB固态硬盘,售价为14999元。RTX 5060 Ti版本:配备英特尔酷睿Ultra 7处理器、32GB内存和1TB固态硬盘,售价为19999元。还有英特尔酷睿Ultra 7处理器 RTX 5060

  • 程序员危!微软CEO纳德拉:公司高达30%代码是AI写的

    微软CEO纳德拉在Meta的LlamaCon大会上透露,微软代码库中20%-30%的代码由AI生成,其中Python应用进展最快,C语言相对较慢。微软CTO凯文·斯科特预测到2030年,95%代码将由AI生成。谷歌CEO皮查伊也表示,谷歌超30%代码由AI生成。Meta CEO扎克伯格则未透露具体数据。由于缺乏统一的AI代码衡量标准,这些数据仅供参考。(140字)

  • 小米SU7 Ultra限制马力引热议 博主称车主强烈反对 OTA已取消

    快科技5月2日消息,50多万就能拥有1500匹马力,小米SU7 Ultra的加速能力有目共睹,但部分车主暴力驾驶的视频也让人触目惊心。最近,多名网友表示小米SU7 Ultra在进行OTA更新时,发现更新内容中有一条新增排位模式圈速考核,在指定赛道圈速达到官方建议成绩可解锁排位模式。”另外还新增了直线竞速等待功能,P挡状态下等待60秒后才能开启直线竞速模式。不少人表示,小米SU7 Ultra更新以后开始限制最大马力的使用,需要通过跑赛道圈速成绩解锁,才能使用排位赛模式获得1500匹马力。有人认为,此举与自信驾驭强大”的宣传语有悖,还有博主称?

  • TikTok强势增长,字节定了个“小目标”: 2025营收赶超Meta

    在全球经济可能面临下行压力的情况下,字节跳动仍将其 2025 年的营收增长目标定为 20% 左右。这一增长速度或将让使其全球业务接近 Meta 平台的水平……

今日大家都在搜的词: