从零复现Llama3代码库爆火 Karpathy大神称赞作者是个有品的人
最近,一个教你从头开始实现Llama3的代码库在网上爆火,吸引了无数开发者的关注。知名AI专家Andrej Karpathy一键三连(点赞、转发、评论),这个项目在社交媒体X上的转赞收藏量超过6.8k,GitHub上更是收获了超过2k的星标。
这个代码库的作者是Nishant Aklecha(以下简称“纳哥”),他详细解释了Llama3模型的实现过程,包括注意力机制中多个头的矩阵乘法、位置编码及所有中间层的详细展开和解释。换句话说,他解释了每行代码的功能。
Karpathy称赞纳哥是个“有品的人”,并指出这样的详细展开比起模块相互嵌套和调用时更容易理解每一步具体在做什么。
在运行纳哥提供的文件前,需要预先下载Meta官方提供的Llama3模型权重。纳哥建议使用Karpathy的简洁版BPE代码进行分词。字节级(byte-level)BPE算法在UTF-8编码的字符串上运行,广泛应用于大模型分词。Karpathy提供的代码库包含两个分词器,都能在给定文本上训练分词器的词汇表和合并规则、将文本编码为token、将token解码为文本。
读取模型文件的方式通常取决于模型类的编写方式以及类中变量的命名。但由于纳哥是从头开始实现Llama3,所以将逐个张量地读取文件内容,通过此配置推断出模型的结构和参数信息。
纳哥详细展示了如何将token转换为高维的嵌入表示,并进行RMS归一化。然后,他构建了Transformer的第一层,进行归一化处理和注意力头的加载。接着,纳哥详细解释了query、key和value向量的生成和操作,包括位置编码的使用和注意力得分矩阵的生成与掩码处理。最后,他展示了如何将这些向量进行矩阵乘法,得到最终的注意力值。
接下来,纳哥对每个注意力头执行相同的数学运算,并将所有注意力得分合并成一个大的qkv_attention矩阵。然后通过矩阵乘法获得注意力机制后的嵌入值,并将其添加到原始的token嵌入中,进行归一化处理,并通过一个前馈神经网络进行处理。
纳哥使用最终的嵌入预测下一个token值,并希望预测结果是42,这个数值对应《银河系漫游指南》中“生命、宇宙及一切的终极问题的答案”。模型预测的token编号为2983,对应的正是42。
Nishant Aklecha是Glaive AI的研究员,负责构建和改进定制语言模型平台,曾任职于摩根士丹利,负责训练和微调大语言模型。他还和朋友共同创立了一个研究实验室A10,其目标是让研究变得更加触手可及。
除了发布这个代码库,Nishant还上传了一个YouTube视频详细解释代码库内容,并撰写了一篇博客详解潜在一致性模型(LCM)。
感兴趣的开发者可以访问GitHub链接了解更多信息:https://top.aibase.com/tool/llama3-from-scratch
江西小伙做美食博主,圈粉700万,自创辣酱冲击千万元年销
“如果我们在B站的视频播放量只有一两百万,我是会感到焦虑的。”当王立舟用认真的语调这样说时,并不是在“凡尔赛”——对于B站有超410万关注、全网粉丝超700万的他而言,一支视频的播放量超300万才够上“达标”。站长网2024-09-09 00:12:230000麦肯锡:银行业每年有望从生成式AI获得2000亿至3400亿美元利润
**划重点:**1.🚀《麦肯锡》文章指出,生成式人工智能(genAI)每年可为全球产业增加2.6万亿至4.4万亿美元的价值,而银行有望从中获得年度潜在利润达2000亿至3400亿美元。2.🔄银行在采用genAI时需要在领导层对齐、业务单元负责、价值为中心的用例、清晰目标等方面进行老牌变革管理,同时应对genAI带来的数据、技术、人才等多方面挑战。站长网2023-12-06 11:44:040000Windows新功能将允许用户从Android照片中提取文本
划重点:-MicrosoftPhoneLink的新功能允许您从Android手机的照片中选择和复制文本-这个功能目前在预览版本中可用,很快将向所有用户推出-WindowsSnippingTool去年已经添加了文本提取功能,但这次更新可以在应用内完成站长网2024-05-28 17:28:170001雷军公布小米澎湃 OS、汽车大压铸两项自主技术获百万美元最高技术大奖
站长之家(ChinaZ.com)1月4日消息:1月4日,小米集团董事长兼CEO雷军发文宣布,2024年第一件大事就是颁发小米百万美元技术大奖。其中最高奖项的两项技术分别是“一体化大压铸技术”和“小米澎湃OS新架构”。雷军表示,这两项技术的获奖,标志着小米在底层核心技术能力以及操作系统领域,实现了重大突破。它们不仅代表着公司技术实力的积累,也体现了小米工程师团队敢于挑战高峰的勇气与决心。0000乐视面试简历无需填写年龄和婚育信息
3月7日,乐视官方账号发布重要声明,宣布在招聘环节做出创新调整。从即日起,乐视将不再要求应聘者在简历中填写年龄、婚育等个人情况。同时,在办理入职流程以及在职期间,乐视将严格限制员工个人资料的查看权限,只有负责员工档案管理的人员才有权查阅应聘者的身份证件等相关信息。站长网2024-03-07 16:20:180000