首页 > AI头条  > 正文

新的Transformer加速技术FlashAttention-3发布 成本直线下降

2024-07-12 10:49 · 来源: AIbase基地

全新的Transformer加速技术FlashAttention-3震撼发布啦!这可不仅仅是个升级,它预示着咱们的大型语言模型(LLMs)的推理速度直线上升和成本的直线下降!

先说说这个FlashAttention-3,它和之前的版本比起来,简直是鸟枪换炮:

GPU利用率大提升:用FlashAttention-3训练和运行大型语言模型,速度直接翻倍,快了1.5到2倍,这效率,杠杠的!

低精度,高性能:它还能用低精度的数字(FP8)运行,同时保持准确性,这意味着啥?成本更低,性能却不打折!

处理长文本,小菜一碟:FlashAttention-3让AI模型处理长文本的能力大大增强,这在以前可是难以想象的。

image.png

FlashAttention是由Dao-AILab开发的开源库,它基于两篇重量级论文,为深度学习模型中的注意力机制提供了优化的实现。这个库特别适合处理大规模数据集和长序列,内存消耗和序列长度呈线性关系,远比传统的二次方关系高效。

技术亮点:

先进技术支持:局部注意力、确定性反向传播、ALiBi等,这些技术让模型的表达能力和灵活性更上一层楼。

Hopper GPU优化:FlashAttention-3特别优化了对Hopper GPU的支持,性能提升不止一星半点。

安装使用简单:支持CUDA11.6和PyTorch1.12以上版本,Linux系统下pip命令轻松安装,Windows用户虽然可能需要多测试,但绝对值得尝试。

image.png

核心功能:

高效性能:优化的算法大幅减少了计算和内存需求,尤其是长序列数据处理,性能提升肉眼可见。

内存优化:与传统方法相比,FlashAttention的内存消耗更低,线性关系让内存占用不再是问题。

先进特性:集成了多种先进技术,让模型性能和应用范围大幅提升。

易用性与兼容性:简单的安装和使用指南,加上对多种GPU架构的支持,让FlashAttention-3能够快速集成到各种项目中。

项目地址:https://github.com/Dao-AILab/flash-attention

  • 相关推荐
  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • Staycation风潮来了:在酒店里躺平,比旅游更治愈

    “在酒店吹空调、吃西瓜、躺着追剧,不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期,时间不够远游,却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店,开启“微度假”新姿势——Staycation。 Staycation是“Stay”(停留)和“Vacation”(假期)的结合,指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说,这种

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • Salesforce 以 80 亿美元收购数据公司 Informatica

    彼时,Informatica 否认正寻求出售,但一年时间已足以让局势发生巨大变化……

  • 黑格 UltraCraft Reflex RS Turbo 携全新“琥珀屏”震撼上市

    5月29日,黑格科技在成立十周年之际推出UltraCraft Reflex RS Turbo 3D打印机。作为畅销款Reflex RS的升级版,RS Turbo在保持快速打印的同时,通过增强型琥珀色屏幕延长了使用寿命,打印精度和表面质量显著提升。关键升级包括:1)566:1高对比度屏幕,新增光学膜减少杂散光;2)C5级Z轴模块将运动误差控制在±2微米内;3)动态运动算法3.0使打印速度最高提升33%。新品推出限时首发优惠,购买可享8折并赠送打印耗材。该产品已上线黑格天猫旗舰店。

  • iQOO 15 Ultra首曝:首款骁龙8 Elite 2 Ultra旗舰

    iQOO将于年底推出iQOO 15系列旗舰手机,包含标准版和Ultra版。iQOO 15 Ultra将采用2K LIPO直屏,首批搭载骁龙8 Elite 2平台,配备潜望长焦镜头,支持无线充电和IP68防尘防水。相比上代,Ultra版回归直屏设计,新增主动散热风扇和潜望长焦,影像和性能大幅提升。采用全新LIPO封装工艺,通过优化显示驱动芯片和电路布局,大幅收窄边框。LIPO技术采用高密度连接设计,减少信号传输通道数量和长度,在保证信号稳定性的同时缩小边框宽度。iQOO 15 Pro预计10月亮相,将成为行业首款骁龙8 Elite 2 Ultra旗舰机型。

  • 酷睿Ultra芯战力,RTX5060Ti竞巅峰,华硕天选6X台式机上架开售!

    华硕天选6X台式机全新上市,搭载英特尔酷睿Ultra7-265F处理器和NVIDIA RTX 5060Ti显卡,性能强劲。采用创新侧透机甲外观设计,配备16L紧凑机身和炫彩灯效,支持神光同步功能。32G DDR5内存+1T PCIe 4.0 SSD存储组合,提供丰富I/O接口,包括USB 3.2、HDMI 1.4和DP 1.4等。内置奥创智能中心,可一键监控硬件状态,支持Wi-Fi6和蓝牙5.4连接。5月26日京东首发价10999元,为玩家带来视觉与性能的双重盛宴。

  • 最高网络安全标准,追觅扫地机获UL Solutions钻石级安全认证

    追觅X50系列扫地机器人获得UL Solutions颁发的"钻石级网络安全认证证书",成为全球首个获此认证的扫地机器人品牌。该认证表明产品在设备端防护、应用层数据加密、云端数据管理等全链路安全体系均达到国际最高标准。追觅还获得TÜV南德消费类物联网安全认证,构建起完善的安全防护体系。这些认证不仅验证了追觅产品的网络安全性能,更彰显了其在智能清洁赛道的核心竞争力。随着物联网安全要求提高,追觅构建的"全链路安全解决方案"或将成为行业重要参考,推动智能家居产业安全标准升级。

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。

  • 能否按时上市:特斯拉重新申请新“Tesla Robotaxi”商标

    特斯拉公司重新提交了Tesla Robotaxi”这一名称的商标申请。 此前,特斯拉在2024年10月首次申请了Robotaxi”和Cybercab”两个商标,但遭遇了阻碍。 美国专利商标局(USPTO)以Robotaxi”这一术语被多家公司使用为由,要求特斯拉提供更多细节信息,而Cybercab”的申请则因Cyber”一词被众多公司尝试注册不同用途的商标而被直接驳回。 此次,特斯拉提交了三个新的商标申请,将商标名

今日大家都在搜的词: