首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
Llama3.1终于现身了,不过出处却不是 Meta 官方。
今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传,除了基础模型,还包括8B、70B 和最大参数的405B 的基准测试结果。
下图为 Llama3.1各版本与 OpenAI GPT-4o、Llama38B/70B 的比较结果。可以看到,即使是70B 的版本,也在多项基准上超过了 GPT-4o。
图源:https://x.com/mattshumer_/status/1815444612414087294
显然,3.1版本的8B 和70B 模型是由405B 蒸馏得来的,因此相比上一代有着明显的性能提升。
有网友表示,这是首次开源模型超越了 GPT4o 和 Claude Sonnet3.5等闭源模型,在多个 benchmark 上达到 SOTA。
与此同时,Llama3.1的模型卡流出,细节也泄露了(从模型卡中标注的日期看出基于7月23日发布)。
有人总结了以下几个亮点:
模型使用了公开来源的15T tokens 进行训练,预训练数据截止日期为2023年12月;
微调数据包括公开可用的指令微调数据集(与 Llama3不同)和1500万个合成样本;
模型支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。
图源:https://x.com/iScienceLuvr/status/1815519917715730702
虽然泄露的 Github 链接目前404了,但有网友给出了下载链接(不过为了安全,建议还是等今晚的官方渠道公布):
不过这毕竟是个千亿级大模型,下载之前请准备好足够的硬盘空间:
以下是 Llama3.1模型卡中的重要内容:
模型基本信息
Meta Llama3.1多语言大型语言模型 (LLM) 集合是一组经过预训练和指令微调的生成模型,大小分别为8B、70B 和405B(文本输入 / 文本输出)。Llama3.1指令微调的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。
模型架构:Llama3.1是优化了的 Transformer 架构自回归语言模型。微调后的版本使用 SFT 和 RLHF 来对齐可用性与安全偏好。
支持语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
从模型卡信息可以推断,Llama3.1系列模型的上下文长度为128k。所有模型版本都使用分组查询注意力(GQA)来提高推理可扩展性。
预期用途
预期用例。Llama3.1旨在用于多语言的商业应用及研究。指令调整的纯文本模型适用于类助理聊天,而预训练模型可以适应各种自然语言生成任务。
Llama3.1模型集还支持利用其模型输出来改进其他模型(包括合成数据生成和蒸馏)的能力。Llama3.1社区许可协议允许这些用例。
Llama3.1在比8种受支持语言更广泛的语言集合上进行训练。开发人员可以针对8种受支持语言以外的语言对 Llama3.1模型进行微调,前提是遵守 Llama3.1社区许可协议和可接受使用策略, 并且在这种情况下负责确保以安全和负责任的方式使用其他语言的 Llama3.1。
软硬件基础设施
首先是训练要素,Llama3.1使用自定义训练库、Meta 定制的 GPU 集群和生产基础设施进行预训练,还在生产基础设施上进行了微调、注释和评估。
其次是训练能耗,Llama3.1训练在 H100-80GB(TDP 为700W)类型硬件上累计使用了39.3M GPU 小时的计算。这里训练时间是训练每个模型所需的总 GPU 时间,功耗是每个 GPU 设备的峰值功率容量,根据用电效率进行了调整。
训练温室气体排放。Llama3.1训练期间基于地域基准的温室气体总排放量预估为11,390吨二氧化碳当量。自2020年以来,Meta 在全球运营中一直保持净零温室气体排放,并将其100% 的电力使用与可再生能源相匹配,因此训练期间基于市场基准的温室气体总排放量为0吨二氧化碳当量。
用于确定训练能源使用和温室气体排放的方法可以在以下论文中找到。由于 Meta 公开发布了这些模型,因此其他人不需要承担训练能源使用和温室气体排放。
论文地址:https://arxiv.org/pdf/2204.05149
训练数据
概述:Llama3.1使用来自公开来源的约15万亿个 token 数据进行了预训练。微调数据包括公开可用的指令数据集,以及超过2500万个综合生成的示例。
数据新鲜度:预训练数据的截止日期为2023年12月。
Benchmark 评分
在这一部分,Meta 报告了 Llama3.1模型在标注 benchmark 上的评分结果。所有的评估,Meta 都是使用内部的评估库。
安全风险考量
Llama 研究团队致力于为研究界提供宝贵的资源来研究安全微调的稳健性,并为开发人员提供适用于各种应用的安全且强大的现成模型,以减少部署安全人工智能系统的开发人员的工作量。
研究团队采用多方面数据收集方法,将供应商的人工生成数据与合成数据相结合,以减轻潜在的安全风险。研究团队开发了许多基于大型语言模型 (LLM) 的分类器,以深思熟虑地选择高质量的 prompt 和响应,从而增强数据质量控制。
值得一提的是,Llama3.1非常重视模型拒绝良性 prompt 以及拒绝语气。研究团队在安全数据策略中引入了边界 prompt 和对抗性 prompt,并修改了安全数据响应以遵循语气指南。
Llama3.1模型并非设计为单独部署,而是应作为整个人工智能系统的一部分进行部署,并根据需要提供额外的「安全护栏」。开发人员在构建智能体系统时应部署系统安全措施。
请注意,该版本引入了新功能,包括更长的上下文窗口、多语言输入和输出,以及开发人员与第三方工具的可能集成。使用这些新功能进行构建时,除了需要考虑一般适用于所有生成式人工智能用例的最佳实践外,还需要特别注意以下问题:
工具使用:与标准软件开发一样,开发人员负责将 LLM 与他们所选择的工具和服务集成。他们应为自己的使用案例制定明确的政策,并评估所使用的第三方服务的完整性,以了解使用此功能时的安全和安保限制。
多语言:Lama3.1除英语外还支持7种语言:法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama 可能可以输出其他语言的文本,但这些文本可能不符合安全性和帮助性性能阈值。
Llama3.1的核心价值观是开放、包容和乐于助人。它旨在服务于每个人,并适用于各种使用情况。因此,Llama3.1的设计宗旨是让不同背景、经历和观点的人都能使用。Llama3.1以用户及其需求为本,没有插入不必要的评判或规范,同时也反映了这样一种认识,即即使在某些情况下看似有问题的内容,在其他情况下也能达到有价值的目的。Llama3.1尊重所有用户的尊严和自主权,尤其是尊重为创新和进步提供动力的自由思想和表达价值观。
但 Llama3.1是一项新技术,与任何新技术一样,其使用也存在风险。迄今为止进行的测试尚未涵盖也不可能涵盖所有情况。因此,与所有 LLM 一样,Llama3.1的潜在输出无法事先预测,在某些情况下,该模型可能会对用户提示做出不准确、有偏差或其他令人反感的反应。因此,在部署 Llama3.1模型的任何应用之前,开发人员应针对模型的具体应用进行安全测试和微调。
模型卡来源:https://pastebin.com/9jGkYbXY
参考信息:https://x.com/op7418/status/1815340034717069728
https://x.com/iScienceLuvr/status/1815519917715730702
https://x.com/mattshumer_/status/1815444612414087294
制造山寨“Airpods”还能弹窗!法院判6年刑期、罚款1140万元
快科技4月29日消息,华强北的山寨Airpods已经在市场上流通多年,销售量非常庞大,甚至超过了正版产品。在产品方面,山寨Airpods甚至能做到正版功能的80%,连弹窗、空间音频都能实现。不过,山寨始终还是山寨,不仅体验、保障有问题,还会造成对苹果的侵权问题,最近广东就通报了这样一起案件。站长网2023-05-12 20:36:000000iQOO 12今日开售:搭载骁龙8 Gen3 售价3999元起
iQOO12将于今日10点正式开售,起售价为3999元。这款手机配备了5000万超大底主摄、5000万超广角和6400万潜望式长焦,是首款配备潜望长焦的骁龙8Gen3旗舰。iQOO12支持3倍光学变焦,集望远拍摄、长焦微距和长焦人像三种效果于一身。在全新的NICE神经图像算法的帮助下,该手机能够实现10倍高清变焦和最大100倍变焦。站长网2023-11-14 09:24:110000布局抖音直播间,“中国汉堡”塔斯汀如何拿捏年轻人?
塔斯汀开始向一线城市扩张。最近,塔斯汀在北京开店的消息在社交平台流传,不少网友已经晒出了自己打卡的照片。塔斯汀的社交影响力在各个平台均有所体现,小红书相关笔记超5万篇,B站多条测评视频播放量达百万,塔斯汀还曾拿下抖音本地生活团购带货榜销冠。塔斯汀圈粉年轻人的关键是什么?它在抖音本地生活的打法究竟是怎样的?以“中国化”打出品牌差异化站长网2023-09-19 14:24:520001学生党福音!BrainyPDF支持用户与PDF文档聊天
BrainyPDF是一款先进的AI工具,为处理PDF文档开辟了新的可能性,为学生、研究人员和专业人士提供了宝贵资源。用户可以从BrainyPDF中获得即时信息、适用于各个领域的学术和研究支持、多语言支持、引用来源和文件安全存储等多方面的利益。这使BrainyPDF成为处理PDF文档的强大工具,为用户提供了便捷和可信赖的服务。体验地址:https://brainypdf.com/站长网2023-10-07 17:18:490000比亚迪车主发文感谢蔚来超充桩:又快又便宜
快科技2月14日消息,日前,方程豹豹5车主、摄影师艾迪逊嵩嵩”发文感谢蔚来超充桩。他表示:方程豹车主实名感谢蔚来,这车企是真咔咔布桩,春节期间进服务区看到图四本来以为没有充电桩了,车都停好了看到了一排蔚来充电桩,不仅价格便宜充电速度还贼快,以后谁喷蔚来我跟谁急”从其晒图来看,当时服务器的国网充电桩已经被占满,而蔚来充电桩一辆车也没有。站长网2024-02-14 09:29:580000