从零复现Llama3代码库爆火 Karpathy大神称赞作者是个有品的人

2024-05-21 11:28 · 稿源：站长之家

站长之家（ChinaZ.com）5月21日消息:最近，一个教你从头开始实现Llama3的代码库在网上爆火，吸引了无数开发者的关注。知名AI专家Andrej Karpathy一键三连（点赞、转发、评论），这个项目在社交媒体X上的转赞收藏量超过6.8k，GitHub上更是收获了超过2k的星标。

这个代码库的作者是Nishant Aklecha（以下简称“纳哥”），他详细解释了Llama3模型的实现过程，包括注意力机制中多个头的矩阵乘法、位置编码及所有中间层的详细展开和解释。换句话说，他解释了每行代码的功能。

Karpathy称赞纳哥是个“有品的人”，并指出这样的详细展开比起模块相互嵌套和调用时更容易理解每一步具体在做什么。

在运行纳哥提供的文件前，需要预先下载Meta官方提供的Llama3模型权重。纳哥建议使用Karpathy的简洁版BPE代码进行分词。字节级（byte-level）BPE算法在UTF-8编码的字符串上运行，广泛应用于大模型分词。Karpathy提供的代码库包含两个分词器，都能在给定文本上训练分词器的词汇表和合并规则、将文本编码为token、将token解码为文本。

读取模型文件的方式通常取决于模型类的编写方式以及类中变量的命名。但由于纳哥是从头开始实现Llama3，所以将逐个张量地读取文件内容，通过此配置推断出模型的结构和参数信息。

纳哥详细展示了如何将token转换为高维的嵌入表示，并进行RMS归一化。然后，他构建了Transformer的第一层，进行归一化处理和注意力头的加载。接着，纳哥详细解释了query、key和value向量的生成和操作，包括位置编码的使用和注意力得分矩阵的生成与掩码处理。最后，他展示了如何将这些向量进行矩阵乘法，得到最终的注意力值。

接下来，纳哥对每个注意力头执行相同的数学运算，并将所有注意力得分合并成一个大的qkv_attention矩阵。然后通过矩阵乘法获得注意力机制后的嵌入值，并将其添加到原始的token嵌入中，进行归一化处理，并通过一个前馈神经网络进行处理。

纳哥使用最终的嵌入预测下一个token值，并希望预测结果是42，这个数值对应《银河系漫游指南》中“生命、宇宙及一切的终极问题的答案”。模型预测的token编号为2983，对应的正是42。

Nishant Aklecha是Glaive AI的研究员，负责构建和改进定制语言模型平台，曾任职于摩根士丹利，负责训练和微调大语言模型。他还和朋友共同创立了一个研究实验室A10，其目标是让研究变得更加触手可及。

除了发布这个代码库，Nishant还上传了一个YouTube视频详细解释代码库内容，并撰写了一篇博客详解潜在一致性模型（LCM）。

感兴趣的开发者可以访问GitHub链接了解更多信息:https://top.aibase.com/tool/llama3-from-scratch

（举报）

相关推荐

关键词：

超薄Mate来了！华为Mate 70 Air上架电信终端产品库

网友发现，华为Mate 70 Air上架电信终端产品库，其型号为华为SUP-AL90，提供12GB 256GB、12GB 512GB两种选择，有曜金黑、羽衣白和金丝银锦三种配色可选，出厂搭载鸿蒙5操作系统。如图所示，Mate 70 Air屏幕尺寸是6.9英寸，其延续了Mate系列中轴对称设计，相机模组依然是大星环，镜头中间为华为自研影像XMAGE的标识和条形闪光灯。从命名不难看出，Mate 70 Air主

华为Mate 70 Air
活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试，成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构，覆盖数据管理、模型接入、插件开发等八大能力域，具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平，可为企业提供低门槛智能体落地解决方案，已在制造、政务、医疗等领域深度应用，助力企业数字化转型。

智能体平台低代码开发企业数字化
32路监控+4K影库！海康R1全能NAS：你的私人数据管家

海康S1全能NAS以高性能硬件配置重新定义NAS标准：搭载英特尔N100处理器，性能较前代提升40%；支持32路监控存储与4K影库构建；具备双M.2插槽和双2.5G网口，提供高速存储与5Gbps聚合带宽。集成智能AI管理，支持人脸识别、事件标记等智慧相册功能，配合96TB超大容量与触控屏设计，兼顾专业监控与家庭娱乐需求，实现性能与颜值的全面突破。

高性能NAS 海康S1全能NAS 4K影库构建
猛玛LARK MAX 2荣登《财富》中国最佳设计榜：定义无线麦克风新标杆

猛玛无线监听麦克风LARK MAX2凭借颠覆性创新入选《财富》中国最佳设计榜。产品通过2.4G自适应跳频技术实现25毫秒无感延迟和百米稳定监听，彻底解决传统有线设备对创作自由的束缚。其14克超轻机身配合"无Logo反戴"设计，在专业场景中兼顾收音效果与画面美感。该产品经权威声学测试，在音频保真度、信噪比等核心指标均达专业录音级水准，彰显了猛玛在声学技术研发的深厚实力。

无线监听麦克风工业设计用户体验
Mate史上第一次！华为Mate 80全系支持3D人脸识别

据数码博主爆料，华为Mate 80系列有望全系标配3D人脸识别，采用国产方案，核心组件均来自国内顶级供应商。该系列将提供四款机型，搭载全新鸿蒙6系统并首发麒麟9030芯片，成为华为史上最强Mate旗舰，最快或于11月亮相。

华为Mate 80 3D人脸识别
省心租上京东京东正式推出3C数码自营租赁服务

京东近日上线3C数码自营租赁服务，覆盖智能人形机器人、四足机器狗等新潮产品，提供一站式便捷体验。依托供应链优势，京东通过标准化租赁流程、专属保险和透明定价，解决行业长期存在的质量参差、售后不统一等痛点。目前双11期间推出多项优惠，用户可享受免押金租赁及低价日租金，未来将持续拓展品类，优化租赁体验。

京东3C租赁数码产品租赁智能设备租赁
金仓数据库异构多活架构，护航浙江省人民医院信创实践

浙江省人民医院作为省内规模最大、实力最强的三甲医院，承担信创试点使命。面对多院区、高负载及业务连续性等挑战，医院选择电科金仓数据库，以“异构多活容灾架构”为核心，打造国内首个LIS系统国产化改造案例。该方案实现多中心互备、秒级切换，业务连续性达99.99%，效率提升60%，为集团化医院信创提供了可复制的全链路解决方案。

信创试点异构多活容灾架构 LIS系统国产化
绘王发布Kamvas Pro 24(Gen3)数位屏，色彩表现力大升级

10月22日，绘王发布旗舰级数位屏新品Kamvas Pro 24(Gen3)。该产品配备23.8英寸4K屏幕，采用第三代防眩光玻璃，支持五种专业色彩模式，色准Delta E<1且提供出厂校色报告。标配双支压感笔，支持1.6万级压感与十点触控，兼容Windows/macOS系统，满足专业创作需求。

绘王 Kamvas Pro24(Gen3)
解锁需求密码，一品威客开启创意交易高效新时代

在数字经济浪潮中，中小微企业成为创意服务需求主力军，但常因需求表达模糊导致对接效率低下。一品威客平台通过AI助手破解这一痛点：将抽象需求转化为专业描述，实现供需精准匹配。AI助手通过多轮对话梳理需求细节，结合庞大数据库推荐合适服务商，显著提升项目对接效率。实践案例显示，借助AI赋能，企业发布需求到敲定合作时间大幅缩短，交付成果更符合预期。该模式重构了创意交易信任链，推动行业向高效、精准的智能化生态升级。

数字经济中小微企业创意服务
技嘉发布X3D系列主板：专为AMD X3D处理器打造，游戏性能提升高达25%

技嘉推出专为AMD Ryzen X3D处理器优化的X870E AORUS X3D系列主板，首发型号包括MASTER与PRO两款。该系列搭载X3D鸡血模式2.0技术，通过AI智能场景识别可自动优化处理器性能，游戏性能最高提升25%。主板采用全快易拆设计，配备免螺丝M.2插槽、磁吸散热装甲及一键拆卸显卡插槽。集成AI黑科技2.0支持DDR5内存超频至9000MT/s+，预装网卡驱动实现开机即联网。两款主板均提供4年质保（含1年免费换新），现已在各大电商平台上市。

技嘉主板 AMD Ryzen

今日大家都在搜的词：

热文

3 天
7天

从零复现Llama3代码库爆火 Karpathy大神称赞作者是个有品的人

超薄Mate来了！华为Mate 70 Air上架电信终端产品库

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

32路监控+4K影库！海康R1全能NAS：你的私人数据管家

猛玛LARK MAX 2荣登《财富》中国最佳设计榜：定义无线麦克风新标杆

Mate史上第一次！华为Mate 80全系支持3D人脸识别

省心租上京东京东正式推出3C数码自营租赁服务

金仓数据库异构多活架构，护航浙江省人民医院信创实践

绘王发布Kamvas Pro 24(Gen3)数位屏，色彩表现力大升级

解锁需求密码，一品威客开启创意交易高效新时代

技嘉发布X3D系列主板：专为AMD X3D处理器打造，游戏性能提升高达25%

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

鸿蒙智行：全新问界M7上市36天交付破20000台

OPPO ColorOS 16正式版推送：首批适配11款机型

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

微信红包封面现已支持跳转「微信小店」

iPhone 18系列或将首发自研基带C2

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

站长商机