首页 > 业界 > 关键词  > 模型最新资讯  > 正文

srf-attention:一个提高深度学习模型训练效率的注意力机制

2023-10-11 17:54 · 稿源:站长之家

站长之家(ChinaZ.com) 10月11日 消息:注意力很有用,但计算成本很高。然而,一旦训练完成,通过一些微调计算,您可以减少 SRF 注意力并消除对序列长度的依赖,从而大大加快速度。

srf-attention是一个PyTorch模块,用于替代传统的注意力机制,提供更高效的模型训练和推理。它的核心功能包括安装和使用简便、示例代码提供、适用于各种应用领域。这个模块有望为深度学习社区提供更高效的工具,帮助研究人员和开发者改进其模型的性能和效率。

image.png

项目地址:https://github.com/notarussianteenager/srf-attention

核心功能

这个项目的核心功能是提供了一个PyTorch模块,你可以将其嵌入到你的深度学习模型中,以替代传统的注意力机制。它的主要优势在于能够显著减少计算和内存开销,提高模型的效率。这对于需要进行大规模训练的自然语言处理任务尤为重要。

安装和使用

通过简单的pip命令,你可以轻松地安装这个注意力模块。然后,你可以在你的PyTorch模型中导入它,并将其应用于你的训练和推理过程。它还提供了一些参数和选项,以满足不同任务的需求,包括内存控制等。

pip install git+https://github.com/notarussianteenager/srf-attention

import torch

from srf_attention import Attention

device = 'cpu'

B, H, L, D = (1,8,1024,128)

q, k, v = [torch.randn(B, H, L, D) for _ in range(3)]

# CHUNK_SIZE controls the memory consumption of the attention computation

CHUNK_SIZE=256

# Simplex Random Feature (SRF) Attention module

# All intermediate computations done in FP32, but cached values are FP16.

# Recomputes the attention matrix in the backward pass instead of storing it:

attn = Attention(d=D, n_features=D, causal=True, device=device)

# Use1instance for each layer,

# and disable auto-redraw of random features prior to beginning training:

attn.redraw_on_call_(False)

# During fine-tuning, replace your softmax attention function with this:

o = attn(q, k, v, mode='train', attn_fn='torch', chunk_size=CHUNK_SIZE)

# On each training step, call redraw_() FIRST to resample the random features:

attn.redraw_()

# That's it! Now just fine-tune.

srf-attention的潜在应用领域广泛,包括自然语言处理、机器翻译、文本生成等。它可以帮助研究人员和开发者更高效地构建和训练深度学习模型,提高模型的性能和效率。

举报

  • 相关推荐
  • 全球第一!百度深度学习专利申请量是第二名3倍还多

    近日,全球领先的知识产权解决方案提供商Questel发布了一份关于深度学习领域的专利全景报告。百度在深度学习领域的专利申请量达到了惊人的6751件,是排名第二的公司的三倍多,稳居全球首位。在该报告中,百度是唯一上榜的中国主体。

  • TikTok首席执行官周受资:将尽全确保TikTok平台继续繁荣

    当地时间17日,短视频社交媒体平台TikTok首席执行官周受资通过TikTok发表视频讲话说称,将尽全力确保TikTok平台未来继续繁荣。当天早些时候,美国联邦最高法院裁定TikTok不卖就禁用”的法律不违宪,这意味着最高法院允许该法案按原计划于19日生效。特朗普日前表示,考虑在上任后发布行政命令,暂停执行TikTok销售或禁止法60至90天。

  • 国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

    DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeekV3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。QLoRA一作的一个词评价就是:优雅。当然最后也确实帮上忙了贾扬清也再次感叹:最最后,除了本次官方公布的测试结果,Imsys匿名竞技场也出来提前预热了。

  • TikTok难民涌入,带火了AI手机

    最近这几天,中外网民属实有点聊嗨了。从自动缴猫税,到帮忙做作业,再到玩梗斗图,外国友人的迭代与进化过程中,离不开机翻闹出来的各种笑话,国内原住民在搭腔与热情接待时,也首次深刻体验到了AI手机的魅力。或许也意味着,AI手机正在迎来真正属于自己,一个最好的时代。

  • 爸爸带娃买了一斤豆坐飞机:转移注意力 避免吵闹影响到其他乘客

    1月16日,在广东某机场,一位爸爸带着宝宝乘坐飞机出行时,为了担心宝宝吵闹影响到其他乘客,他想出了一个别具一格的方法——购买了一斤豆子让宝宝在飞机上玩。这位爸爸在登机前特意准备了一斤豆子,希望用这些豆子来吸引宝宝的注意力,让她在飞行过程中能够保持安静。也有网友提醒其他家长,在带娃出行时,要时刻关注宝宝的需求和行为,尽量避免对其他乘客造成不必要的干扰。

  • 美国新总统:要求暂停TikTok强制出售令

    据国外媒体报道称,在TikTok是否被强制出售这件事上,美国新总统特朗普给出了强硬的态度。美国当选总统特朗普向美国最高法院提出请求,要求暂停执行TikTok强制出售令。TikTok在其社交媒体账号上发布声明说,如果不冻结强迫出售令,一个月内,TikTok上的小商家将损失超过10亿美元收入,创作者将损失近3亿美元。

  • 美国最法院裁定支持TikTok禁令:最早1月19日下架

    当地时间1月17日,美国最高法院裁定支持短视频社交媒体平台TikTok在美禁令。TikTok的应用程序最早将于19日在美国下架。他希望能够兑现此前的竞选承诺。

  • DeepSeek-V3 是怎么训练的|深度拆解

    DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!下面,让我们以更加系统的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。安全和伦理类数据:包含了用于提升模型安全性和符合伦理规范的指�

  • CapCutTikTok停止服务:Meta火速推新应用抢市场!

    随着TikTok在美国的业务面临不确定性,字节跳动旗下的剪映国际版CapCut等多款应用日前也向美国用户推送了停止服务的通知。在此背景下Meta迅速出击,Instagram主管AdamMosseri宣布推出一款名为Edits的视频编辑应用,旨在填补CapCut下线后的市场空白。Edits将于2025年3月13日正式上线,目前已经在iOS应用商店开放预购,虽然Mosseri没有透露更多,但目的很明显是为了让人们记住这款应用程序。

  • 有人卖店,有人加仓,TikTok商家身处“灵薄狱”

    就在1月18日,TikTok关闭服务的前一天,TikTok商家张丽刚忍痛以2折底价出掉自己的店铺。12月初她就停止了备货,早早准备好撤离,“一个美区店,最贵的时候售价近万美元,我也就卖了一千块。”如今孟庆们做好了撤离的准备,在未来的90天,等待他们的或许是一场旷日持久的拉锯战,他们唯一能做的,就是坚持下去。