Llama-3公布基础训练设施,使用49,000个H100
3月13日,社交、科技巨头Meta在官网公布了两个全新的24K H100GPU集群(49,152个),专门用于训练大模型Llama-3。
此外,Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。
从训练进度来看,估计Llama-3最快将于4月末或5月中旬上线。受Sora影响,很可能是一个多模态模型,并且会继续开源。
Meta表示,预计到2024年底,将拥有600,000个H100的算力。
Meta首席科学家确认
Meta庞大的AI算力集群
Meta作为全球市值最高的科技公司之一,对AI的投入一直非常大,致力于构建造福全人类的AGI(通用人工智能)。
早在2022年1月24日,Meta首次公布了AI 研究超级集群(RSC)的详细信息,拥有16,000个英伟达A100GPU。
该集群在开发全球最受欢迎的类ChatGPT模型Llama和Llama2,以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。
本次新增的GPU集群建立在RSC成功经验之上,每个集群包含24,576个H100GPU,能够支持比以往更复杂、参数更高的大模型训练。
集群网络
Meta每天要处理数百万亿次AI模型的请求,所以,使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。
一个集群是基于Arista7800、Wedge400和Minipack2OCP 机架交换机,构建了一个具有融合以太网远程直接内存访问(RoCE) 网络结构的解决方案;
另外一个使用了NVIDIA Quantum2InfiniBand结构,这两种方案都能互连400Gbps端点。
在两个不同集群帮助下,Meta可以评估不同类型的互联对大规模训练的适用性和可扩展性,为以后设计和构建更大、更大规模的集群提供更多经验。
此外,Meta已经成功地将 RoCE 和InfiniBand 集群用于大型生成式AI工作负载(包括正在RoCE 集群上对 Llama3进行的训练),并且没有出现任何网络瓶颈。
硬件平台
新增的两个集群全部使用Grand Teton,这是Meta内部设计的开放性 GPU 硬件平台,于2022年10月18日首次发布。
Grand Teton 建立在多代人工智能系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性,可快速部署到数据中心机群中,并易于维护和扩展等优点。
数据存储
随着大模型的功能趋于多模特,需要消耗大量的图像、视频、音频和文本数据,所以,对数据存储的需求迅速增长。
Meta新集群的存储部署通过自创的用户空间 Linux 文件系统API来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。
该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。
Meta还与 Hammerspace 合作,共同开发、部署并行网络文件系统 (NFS),以满足开发人员对超级AI集群的存储要求。
此外,Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。
将Meta的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起,可以在不影响规模的情况下实现快速功能迭代。
本文素材来源Meta官网,如有侵权请联系删除
END
三星延长存储芯片产量削减计划 将专注高端人工智能芯片
三星电子在报告今年第二季度存储芯片部门运营亏损34亿美元(4.36万亿韩元)后,继续削减其存储芯片产量,包括用于智能手机和PC的NAND闪存。全球最大的存储芯片制造商公布,过去六个月其半导体业务运营亏损约70亿美元。此前,由于消费设备需求依然疲弱,三星在季度利润创下2009年以来最差季度利润后,于4月份大幅削减了存储芯片产量。站长网2023-07-27 16:33:370000高通和微软合作构建 Snapdragon 计算平台上的生成式人工智能
在MicrosoftBuild2023活动中,高通技术公司展示了其在设备上人工智能方面的最新创新,包括在Snapdragon计算平台上运行生成式人工智能,并为在搭载Snapdragon的Windows11PC上构建应用程序的开发者提供新的路径。站长网2023-05-24 15:55:580000李斌回应蔚来与合肥对赌1200亿:没有这回事
在2023年12月9日,蔚来创始人、董事长、CEO李斌在由中国企业家杂志社主办的第二十一届中国企业领袖年会上接受专访时,对蔚来汽车与合肥政府之间不存在对赌协议的声明表示,这种说法“被过度解读了”。此前,有传闻称蔚来汽车需要在2024年达到1200亿元的营收,并上市至少六款新车型,作为对赌条件之一。0000OpenAI招募专家加入“红队”网络,加强AI模型安全性
文章概要:1.OpenAI宣布了一项公开招募专家的计划,旨在邀请跨领域的专家加入OpenAI“红队”网络,以提高其人工智能模型的安全性。2.“红队”网络是OpenAI的迭代开发过程的一部分,包括内部和外部对抗性测试,旨在加深与外部专家的合作,确保模型安全。站长网2023-09-20 09:48:090000谷歌若没有垄断搜索市场 ChatGPT等创新技术可能在几年前就已发布
据彭博社消息,美国司法部周四对一家联邦法院表示,如果谷歌没有垄断搜索市场,ChatGPT和其他技术创新可能在几年前就已经发布。在微软公司宣布将OpenAI的人工智能聊天技术纳入其必应搜索引擎的几天后,司法部针对搜索巨头的反垄断案件的首席律师KennethDintzer说,Alphabet的谷歌公司表示将发布自己的对话式人工智能产品。站长网2023-04-14 18:00:130000