从零复现Llama3代码库爆火 Karpathy大神称赞作者是个有品的人
最近,一个教你从头开始实现Llama3的代码库在网上爆火,吸引了无数开发者的关注。知名AI专家Andrej Karpathy一键三连(点赞、转发、评论),这个项目在社交媒体X上的转赞收藏量超过6.8k,GitHub上更是收获了超过2k的星标。
这个代码库的作者是Nishant Aklecha(以下简称“纳哥”),他详细解释了Llama3模型的实现过程,包括注意力机制中多个头的矩阵乘法、位置编码及所有中间层的详细展开和解释。换句话说,他解释了每行代码的功能。
Karpathy称赞纳哥是个“有品的人”,并指出这样的详细展开比起模块相互嵌套和调用时更容易理解每一步具体在做什么。
在运行纳哥提供的文件前,需要预先下载Meta官方提供的Llama3模型权重。纳哥建议使用Karpathy的简洁版BPE代码进行分词。字节级(byte-level)BPE算法在UTF-8编码的字符串上运行,广泛应用于大模型分词。Karpathy提供的代码库包含两个分词器,都能在给定文本上训练分词器的词汇表和合并规则、将文本编码为token、将token解码为文本。
读取模型文件的方式通常取决于模型类的编写方式以及类中变量的命名。但由于纳哥是从头开始实现Llama3,所以将逐个张量地读取文件内容,通过此配置推断出模型的结构和参数信息。
纳哥详细展示了如何将token转换为高维的嵌入表示,并进行RMS归一化。然后,他构建了Transformer的第一层,进行归一化处理和注意力头的加载。接着,纳哥详细解释了query、key和value向量的生成和操作,包括位置编码的使用和注意力得分矩阵的生成与掩码处理。最后,他展示了如何将这些向量进行矩阵乘法,得到最终的注意力值。
接下来,纳哥对每个注意力头执行相同的数学运算,并将所有注意力得分合并成一个大的qkv_attention矩阵。然后通过矩阵乘法获得注意力机制后的嵌入值,并将其添加到原始的token嵌入中,进行归一化处理,并通过一个前馈神经网络进行处理。
纳哥使用最终的嵌入预测下一个token值,并希望预测结果是42,这个数值对应《银河系漫游指南》中“生命、宇宙及一切的终极问题的答案”。模型预测的token编号为2983,对应的正是42。
Nishant Aklecha是Glaive AI的研究员,负责构建和改进定制语言模型平台,曾任职于摩根士丹利,负责训练和微调大语言模型。他还和朋友共同创立了一个研究实验室A10,其目标是让研究变得更加触手可及。
除了发布这个代码库,Nishant还上传了一个YouTube视频详细解释代码库内容,并撰写了一篇博客详解潜在一致性模型(LCM)。
感兴趣的开发者可以访问GitHub链接了解更多信息:https://top.aibase.com/tool/llama3-from-scratch
AI 大模型竞争白热化,算力优化才是“超车点”?
嘉宾|蒋晓维博士、戴金权采访|凌敏、李冬梅作者|凌敏算力是驱动人工智能产业发展的核心动力。在数据、算法和算力三大人工智能要素中,算力是将数据和算法真正通过硬件执行的基础单元,并将数据、算法转化为最终的生产力。0002月入1万,就超过了全国95%的人。
各位村民好,我是村长许多赚不到钱的人,都犯了一个通病。那就是看不上小钱,整天都想着月入3万、5万甚至10万。看着别人做淘客一个月几十万,别人做直播带货一个月几百万,总之就是羡慕别人,自己迟迟不做行动。01小钱看不上一提到某个项目赚钱,大家看到的都是别人赚钱的结果,而忽略了别人赚钱的过程。以为别人从一开始,就是一个月赚几万以上的。0000字节发布AnimateDiff-Lightning模型 4步推理就能生成高质量视频
近日,字节发布了一款名为AnimateDiff-Lightning的模型,这款模型在视频生成方面的性能表现令人瞩目。只需4-8步的推理,就能生成质量非常不错的视频,这对于视频制作行业来说无疑是一次重大的技术突破。模型下载地址:https://top.aibase.com/tool/animatediff-lightning站长网2024-03-20 14:52:020003苹果计划在云端使用 M2 Ultra 芯片进行人工智能处理
划重点:⭐苹果将利用M2Ultra芯片在云端运行更复杂的AI查询⭐公司计划在未来转向更先进的M4芯片用于AI处理⭐苹果旨在提升生成式人工智能的性能和效率苹果计划开始涉足生成式人工智能领域,通过将复杂查询任务分配至数据中心中运行的M2Ultra芯片,然后转向更先进的M4芯片。站长网2024-05-10 16:33:080000B站将上线“创作者声明”功能 发布AI生成内容需添加声明
B站发布《关于“主动添加内容标识”的公告》称,将在9月20日,上线“创作者声明”功能。该功能可以帮助UP主在发布稿件时,补充对稿件的作者声明。如果创作者选择的声明与稿件内容不符,社区可能会将错误声明进行编辑或修改。创作者需要添加的标识主要包括以下几类:1.发布原创涉及国内外时事、公共政策、社会事件等相关内容时,需要在稿件简介中标明拍摄时间、地点;站长网2023-09-14 21:40:180000