首页 > 业界 > 关键词  > Llama3最新资讯  > 正文

从零复现Llama3代码库爆火 Karpathy大神称赞作者是个有品的人

2024-05-21 11:28 · 稿源:站长之家

站长之家(ChinaZ.com)5月21日 消息:最近,一个教你从头开始实现Llama3代码库在网上爆火,吸引了无数开发者的关注。知名AI专家Andrej Karpathy一键三连(点赞、转发、评论),这个项目在社交媒体X上的转赞收藏量超过6.8k,GitHub上更是收获了超过2k的星标。

这个代码库的作者是Nishant Aklecha(以下简称“纳哥”),他详细解释了Llama3模型的实现过程,包括注意力机制中多个头的矩阵乘法、位置编码及所有中间层的详细展开和解释。换句话说,他解释了每行代码的功能。

1.jpg

Karpathy称赞纳哥是个“有品的人”,并指出这样的详细展开比起模块相互嵌套和调用时更容易理解每一步具体在做什么。

在运行纳哥提供的文件前,需要预先下载Meta官方提供的Llama3模型权重。纳哥建议使用Karpathy的简洁版BPE代码进行分词。字节级(byte-level)BPE算法在UTF-8编码的字符串上运行,广泛应用于大模型分词。Karpathy提供的代码库包含两个分词器,都能在给定文本上训练分词器的词汇表和合并规则、将文本编码为token、将token解码为文本。

读取模型文件的方式通常取决于模型类的编写方式以及类中变量的命名。但由于纳哥是从头开始实现Llama3,所以将逐个张量地读取文件内容,通过此配置推断出模型的结构和参数信息。

纳哥详细展示了如何将token转换为高维的嵌入表示,并进行RMS归一化。然后,他构建了Transformer的第一层,进行归一化处理和注意力头的加载。接着,纳哥详细解释了query、key和value向量的生成和操作,包括位置编码的使用和注意力得分矩阵的生成与掩码处理。最后,他展示了如何将这些向量进行矩阵乘法,得到最终的注意力值。

接下来,纳哥对每个注意力头执行相同的数学运算,并将所有注意力得分合并成一个大的qkv_attention矩阵。然后通过矩阵乘法获得注意力机制后的嵌入值,并将其添加到原始的token嵌入中,进行归一化处理,并通过一个前馈神经网络进行处理。

纳哥使用最终的嵌入预测下一个token值,并希望预测结果是42,这个数值对应《银河系漫游指南》中“生命、宇宙及一切的终极问题的答案”。模型预测的token编号为2983,对应的正是42。

Nishant Aklecha是Glaive AI的研究员,负责构建和改进定制语言模型平台,曾任职于摩根士丹利,负责训练和微调大语言模型。他还和朋友共同创立了一个研究实验室A10,其目标是让研究变得更加触手可及。

除了发布这个代码库,Nishant还上传了一个YouTube视频详细解释代码库内容,并撰写了一篇博客详解潜在一致性模型(LCM)。

感兴趣的开发者可以访问GitHub链接了解更多信息:https://top.aibase.com/tool/llama3-from-scratch

举报

  • 相关推荐
  • Lamett乐迈石晶产品硬核测评:零醛、防水、防霉三大指标重新定义健康家

    北京楼市新政落地,市场活力提升,新房装修需求升温。文章重点指出选购健康安全建材的关键指标:甲醛释放量少、防水防潮性强、防霉防蛀能力过硬。通过高温甲醛实验、防水实验和防霉防蛀实验,对比测试了乐迈石晶板等主流建材,结果显示其具有零甲醛释放、滴水不侵、无惧虫霉的优异性能,重新定义了健康建材的标准。

  • Lamett乐迈石晶快装秘籍!让武汉20年老宅“一键焕新”

    武汉黄先生一家140平米老宅经《梦想改造家》节目改造后焕然一新。设计师采用零甲醛添加的Lamett乐迈石晶地板,解决潮湿问题,提升防滑耐磨性能。空间重构实现客卧对调、主卧休闲办公一体化,厨房岛台增进家人互动。全屋原木色调营造温馨氛围,兼顾健康与美学,为五口之家打造安全舒适的生活环境。

  • 中国品牌四登苹果发布会!SmallRig亮相发布会助力iPhone 17 pro系列影像功能

    SmallRig斯莫格于9月10日推出专为iPhone 17 Pro系列设计的专业拓展配件,与新品同步发售。该系列以全面化、模块化、专业化的拓展系统为核心,旨在释放iPhone影像潜能,提升手机影像创作体验。产品采用快拆式设计,支持快速切换组件,覆盖从日常拍摄到专业创作的多样化需求。该品牌曾多次亮相苹果全球发布会,产品获官方认可,在全球用户中具有较高认可度。

  • AI能力再进阶,华为Mate XTs 非凡大师首发小艺知识库功能

    华为Mate XTs非凡大师于9月4日发布,搭载升级版小艺AI助手,具备知识库管理、出行规划、连续翻译等功能。支持多平台知识整合与个性化定制,提升办公与生活效率。新增旅行智能规划、实时翻译及作业辅导能力,通过智能交互提供便捷服务。小艺导航条常驻界面,支持拖拽操作与语音唤醒,实现全场景智慧体验。

  • Kimi K2模型更新至0905版本:更强代码能力 更快API性能

    月之暗面科技有限公司宣布其Kimi K2模型更新至0905版本,带来更强的代码能力和更快的API性能。此次更新进一步提升了Kimi K2在真实编程任务中的表现,特别是在公开基准测试和实际编程任务中展现出更好的性能。 Kimi K2模型的Agentic Coding能力得到显著提升,这使得它在处理复杂的编程任务时更加高效。同时,前端编程体验也得到了升级,生成的代码不仅更加美观,而且更具实用

  • 淘宝直播请call赵露思

    今年的暑假大戏,赵露思直播告一段落。 截至目前,距离她上次公开直播已经过去了十余天,她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中,赵露思首次表态,表示“现在很愿意做网红”,这一宣言并非偶然,就在前一天,她注销了拥有3119万粉丝的微博账号,彻底切断传统明星的流量锚点。

  • SOCAMM2,江波龙正式发布!

    2025年开放数据中心大会(ODCC)于9月9日至11日在北京举行,主题为“拥抱AI变革,点燃算网引擎”。大会聚焦数据中心、算力、存储等领域,汇聚行业专家与企业代表。江波龙在会上发布基于LPDDR5/5x的创新企业级内存产品SOCAMM2,应对AI工作负载挑战;同时介绍AI存储技术如何优化系统性能,提升效率。SOCAMM2具有高带宽、低功耗特点,适用于HPC、AI集群等场景,与HBM互补提升整体算力。此外,江波龙推出智能存储解决方案,通过机器学习优化数据管理,增强可靠性和寿命预测,全面支持AI应用发展。

  • APOLLO年中展望:在滞胀的十字路口——下一步是什么?

    美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%,为近90年来最高水平,加剧市场不确定性。经济学家预测经济增长放缓、通胀上升,利率将长期维持高位。企业投资计划波动加剧,消费者信心下滑,预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%,但专家认为短期内不会出现全面衰退,供需双方均面临阻力。全球经济增长预期下调至2.6%,低于此前3%的预期。

  • 智驾终局:VLA与WA的“强脑”之争

    当理想i8在暴雨中的山区公路上自动识别出被冲垮的路肩,平稳减速并规划出绕行路线时;当小鹏P7Ultra仅凭视觉传感器就精准避让了横穿马路的流浪猫与突发变道的货车时,智能驾驶行业悄然迎来了一场技术革命的临界点。 新能源汽车的市场淘汰赛已进程过半,从电池续航、充电速度到座舱智能化,竞争之下市场早已进入红海,甚至智驾能力也正从争议不断的“加分项”转变�

  • 数据库行业红海角逐 万里数据库2025半年度营收逆势翻倍

    国产数据库市场近年竞争激烈,厂商数量锐减,但万里数据库逆势增长。其核心优势在于100%兼容MySQL,实现业务代码零改造,提供不停机迁移方案,并获金融等行业客户认可。同时,万里数据库参与行业标准制定,并拓展国际合作,展现出技术实力与差异化竞争力。市场虽卷,但具备硬核实力的企业仍能破局。

今日大家都在搜的词: