srf-attention：一个提高深度学习模型训练效率的注意力机制

2023-10-11 17:54 · 稿源：站长之家

站长之家(ChinaZ.com) 10月11日消息:注意力很有用，但计算成本很高。然而，一旦训练完成，通过一些微调计算，您可以减少 SRF 注意力并消除对序列长度的依赖，从而大大加快速度。

srf-attention是一个PyTorch模块，用于替代传统的注意力机制，提供更高效的模型训练和推理。它的核心功能包括安装和使用简便、示例代码提供、适用于各种应用领域。这个模块有望为深度学习社区提供更高效的工具，帮助研究人员和开发者改进其模型的性能和效率。

项目地址：https://github.com/notarussianteenager/srf-attention

核心功能

这个项目的核心功能是提供了一个PyTorch模块，你可以将其嵌入到你的深度学习模型中，以替代传统的注意力机制。它的主要优势在于能够显著减少计算和内存开销，提高模型的效率。这对于需要进行大规模训练的自然语言处理任务尤为重要。

安装和使用

通过简单的pip命令，你可以轻松地安装这个注意力模块。然后，你可以在你的PyTorch模型中导入它，并将其应用于你的训练和推理过程。它还提供了一些参数和选项，以满足不同任务的需求，包括内存控制等。

pip install git+https://github.com/notarussianteenager/srf-attention

import torch
from srf_attention import Attention
device = 'cpu'
B， H， L， D = （1，8，1024，128）
q， k， v = [torch.randn（B， H， L， D） for _ in range(3)]
# CHUNK_SIZE controls the memory consumption of the attention computation
CHUNK_SIZE=256
# Simplex Random Feature （SRF） Attention module
# All intermediate computations done in FP32， but cached values are FP16.
# Recomputes the attention matrix in the backward pass instead of storing it:
attn = Attention（d=D， n_features=D， causal=True， device=device）
# Use1instance for each layer，
# and disable auto-redraw of random features prior to beginning training:
attn.redraw_on_call_（False）
# During fine-tuning， replace your softmax attention function with this:
o = attn（q， k， v， mode='train'， attn_fn='torch'， chunk_size=CHUNK_SIZE）
# On each training step， call redraw_（） FIRST to resample the random features:
attn.redraw_（）
# That's it! Now just fine-tune.

srf-attention的潜在应用领域广泛，包括自然语言处理、机器翻译、文本生成等。它可以帮助研究人员和开发者更高效地构建和训练深度学习模型，提高模型的性能和效率。

（举报）

相关推荐

关键词：

模型

荐Staycation风潮来了：在酒店里躺平，比旅游更治愈

“在酒店吹空调、吃西瓜、躺着追剧，不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期，时间不够远游，却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店，开启“微度假”新姿势——Staycation。 Staycation是“Stay”（停留）和“Vacation”(假期)的结合，指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说，这种

微度假高端酒店城市度假
为何头部企业都选 Testin云测？揭秘 AI 测试的核心竞争力

文章探讨了软件定义时代下数字化转型带来的质量新命题。在金融、汽车、人工智能三大领域，软件已成为企业战略核心载体：金融科技投入持续增长，汽车行业"软件定义汽车"重构竞争格局，AI与传统软件融合催生新范式。同时指出软件质量缺陷可能引发的连锁反应，强调软件测试已突破传统质控范畴，成为企业数字化竞争的基础设施。Testin云测通过AI测试技术，在大模型应用、金融行业、智能座舱三大场景实现突破：构建全机型覆盖矩阵、创新无码化脚本开发、优化自动化分层策略，显著提升测试效率与资产复用率。未来趋势将向智能化、场景化、全生命周期管理演进，AI技术从辅助测试向自主决策升级，推动测试环节从"成本中心"向"价值中心"转型。

软件定义时代产业变革数字化转型
曝iPhone17配备120Hz屏但不支持ProMotion自适应刷新率

与固定刷新率相比，ProMotion自适应刷新率具有明显优势。它可以根据不同场景动态调整屏幕刷新率，从而带来更佳的使用体验。此外，爆料还提及iPhone17标准版将搭载苹果A18芯片，并配备8GB内存。这些规格参数与iPhone16保持一致，这也使得iPhone17成为苹果近年来唯一一款没有升级处理器的标准版机型。

iPhone17 高刷新率 ProMotion
荐如何用AI Agent让企业效率翻倍？

2025年5月，红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身，而是为用户创造的实际收益。在此背景下，Agent的重要性被前所未有的推至所有人的视野前沿。硅谷大厂开启了第一波加速，微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代，正在见证AI系统如何以全新方式帮助我们解决问�

AI峰会红杉资本 Agent时代
Reddit 起诉 Anthropic，称其未支付AI训练数据费用

OpenAI 首席执行官山姆·奥特曼（Sam Altman）持有 Reddit 8.7% 的股份，是该公司第三大股东，并曾是 Reddit 董事会成员……

Reddit Anthropic Reddit起诉Anthropic
荐当品牌面对出海焦虑，TikTok是万能钥匙还是甜蜜陷阱?

国潮顶流LABUBU正在以势不可挡的姿态横扫海外市场。 618前夕，LABUBU在TikTok直播间上演了一场销售奇迹:一场8小时直播吸引了超百万观众涌入，单日销售额突破1000万美元。 TikTok似乎成为品牌出海的“新圣杯”，很多品牌对入驻TikTok Shop开店跃跃欲试。 TikTok已在欧洲多个国家开通TikTokShop电商业务，6月消息，波兰将成为第七个站点。

疫情后电商国潮品牌 TikTok国际化
TikTok强势增长，字节定了个“小目标”： 2025营收赶超Meta

在全球经济可能面临下行压力的情况下，字节跳动仍将其 2025 年的营收增长目标定为 20% 左右。这一增长速度或将让使其全球业务接近 Meta 平台的水平……

Tiktok 洋抖字节跳动
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
7款AI大模型写高考作文，语文名师点评，豆包、GPT等斩获前三

刚刚， 2025 年高考作文题目出炉，再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题，会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷，作文题为根据给定的材料进行写作。根据阅卷老师的打分，豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料，根据要求写作。( 60 分)他想要给孩子们唱

高考作文人工智能阅卷评分
微算法科技(NASDAQ：MLGO)利用Raft+PBFT的混合共识网络算法，提高区块链网络的性能和可靠性

区块链网络的性能和可靠性是制约其大规模应用的两大难题。共识算法是实现数据一致性和网络同步的关键机制，常见算法包括PoW(工作量证明)、PoS(权益证明)和DPoS(委托权益证明)等，但都存在局限性。微算科技(NASDAQ:MLGO)采用Raft+PBFT混合共识算法，结合Raft的高效同步和PBFT的强一致性优势，通过智能切换机制和自适应参数调整，在保证安全性的同时大幅提升处理能力和可扩展性。该系统能快速处理交易请求，有效防止双花攻击，在网络条件变化时仍能保持稳定运行，为区块链商业应用提供了更优解决方案。

区块链性能共识算法数据一致性

热文

3 天
7天

srf-attention：一个提高深度学习模型训练效率的注意力机制

荐Staycation风潮来了：在酒店里躺平，比旅游更治愈

为何头部企业都选 Testin云测？揭秘 AI 测试的核心竞争力

曝iPhone17配备120Hz屏但不支持ProMotion自适应刷新率

荐如何用AI Agent让企业效率翻倍？

Reddit 起诉 Anthropic，称其未支付AI训练数据费用

荐当品牌面对出海焦虑，TikTok是万能钥匙还是甜蜜陷阱?

TikTok强势增长，字节定了个“小目标”： 2025营收赶超Meta

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

7款AI大模型写高考作文，语文名师点评，豆包、GPT等斩获前三

微算法科技(NASDAQ：MLGO)利用Raft+PBFT的混合共识网络算法，提高区块链网络的性能和可靠性

热文

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

点击已死？“AI引用”才是流量未来，SEO正在被SAO、AEO取代

李世石：AI不会“解读”……直觉依然属于人类！

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

前OpenAI研究员：有时，ChatGPT为了“自救”，会选择牺牲用户

苹果举行WWDC 25开发者大会 iOS 26更新汇总

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

苹果公布 Intel Mac 支持终止时间表，Rosetta 2 也将逐步淘汰

格力否认董明珠孟羽童直播是策划：就是一次很自然的会面

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

站长商机