Llama-3公布基础训练设施,使用49,000个H100
3月13日,社交、科技巨头Meta在官网公布了两个全新的24K H100GPU集群(49,152个),专门用于训练大模型Llama-3。
此外,Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。
从训练进度来看,估计Llama-3最快将于4月末或5月中旬上线。受Sora影响,很可能是一个多模态模型,并且会继续开源。
Meta表示,预计到2024年底,将拥有600,000个H100的算力。
Meta首席科学家确认
Meta庞大的AI算力集群
Meta作为全球市值最高的科技公司之一,对AI的投入一直非常大,致力于构建造福全人类的AGI(通用人工智能)。
早在2022年1月24日,Meta首次公布了AI 研究超级集群(RSC)的详细信息,拥有16,000个英伟达A100GPU。
该集群在开发全球最受欢迎的类ChatGPT模型Llama和Llama2,以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。
本次新增的GPU集群建立在RSC成功经验之上,每个集群包含24,576个H100GPU,能够支持比以往更复杂、参数更高的大模型训练。
集群网络
Meta每天要处理数百万亿次AI模型的请求,所以,使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。
一个集群是基于Arista7800、Wedge400和Minipack2OCP 机架交换机,构建了一个具有融合以太网远程直接内存访问(RoCE) 网络结构的解决方案;
另外一个使用了NVIDIA Quantum2InfiniBand结构,这两种方案都能互连400Gbps端点。
在两个不同集群帮助下,Meta可以评估不同类型的互联对大规模训练的适用性和可扩展性,为以后设计和构建更大、更大规模的集群提供更多经验。
此外,Meta已经成功地将 RoCE 和InfiniBand 集群用于大型生成式AI工作负载(包括正在RoCE 集群上对 Llama3进行的训练),并且没有出现任何网络瓶颈。
硬件平台
新增的两个集群全部使用Grand Teton,这是Meta内部设计的开放性 GPU 硬件平台,于2022年10月18日首次发布。
Grand Teton 建立在多代人工智能系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性,可快速部署到数据中心机群中,并易于维护和扩展等优点。
数据存储
随着大模型的功能趋于多模特,需要消耗大量的图像、视频、音频和文本数据,所以,对数据存储的需求迅速增长。
Meta新集群的存储部署通过自创的用户空间 Linux 文件系统API来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。
该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。
Meta还与 Hammerspace 合作,共同开发、部署并行网络文件系统 (NFS),以满足开发人员对超级AI集群的存储要求。
此外,Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。
将Meta的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起,可以在不影响规模的情况下实现快速功能迭代。
本文素材来源Meta官网,如有侵权请联系删除
END
上汽通用汽车与特斯拉中国开启充电网络互联互通合作
上汽通用汽车与特斯拉中国宣布开启充电网络互联互通合作。从2023年底开始,上汽通用汽车旗下的凯迪拉克和别克品牌奥特能纯电车型的车主可以通过相关App,利用充电地图功能在特斯拉开放的超级充电站和目的地充电站进行充电。站长网2023-11-10 16:36:080000网信办集中整治违法信息外链问题:整治用夸张话术传播违法外链
近日,中央网信办专门印发通知,在全国范围内部署开展为期2个月的清朗打击违法信息外链”专项行动。本次专项行动聚焦违法信息外链问题易发多发的8个重点环节开展整治。0000Gemini Ultra将于2月7日上线 Gemini将推付费计划
GeminiUltra即将于2月7日上线,伴随着此次更新,Google聊天机器人Bard将更名为Gemini。这一消息源自一份泄露的文档,透露了GeminiUltra的上线日期以及一系列重要变化。站长网2024-02-05 12:03:1400024799元起!新款iPad上架2小时预约人数过万
快科技5月8日消息,苹果昨晚正式发布了两款全新iPadPro和iPadAir,售价4799元起。今天上午9点,京东平台已经上架了所有新品,虽然一堆网友吐槽价格贵,但仅仅2小时预约数就破万了,目前两个系列预约人数都已经接近3万。全新的iPadAir首次带来双尺寸,有11/13英寸两种尺寸,首次升级为128GB存储起步,首次配备了M2处理器。站长网2024-05-09 15:33:400000京东:截止24日零点 双11价保服务已为消费者节省1.02亿元
京东11.11期间,京东对价保服务进行重磅升级,超8亿商品享全程价保,即消费者在10月23日晚8点至11月13日24点购买的价保服务覆盖商品,均可享受30天及以上的价保,点击“一键价保”立享差价退回。据京东公布数据,自10月23日晚8点开启至24日零点,价保服务已经为消费者节省1.02亿元。站长网2023-10-25 19:18:020002