19836

Llama-3公布基础训练设施，使用49,000个H100

站长网2024-03-13 09:04:241阅

3月13日，社交、科技巨头Meta在官网公布了两个全新的24K H100GPU集群（49，152个），专门用于训练大模型Llama-3。

此外，Llama-3使用了RoCEv2网络，基于Tectonic/Hammerspace的NFS/FUSE网络存储，继续使用了PyTorch机器学习库。

从训练进度来看，估计Llama-3最快将于4月末或5月中旬上线。受Sora影响，很可能是一个多模态模型，并且会继续开源。

Meta表示，预计到2024年底，将拥有600，000个H100的算力。

Meta首席科学家确认

Meta庞大的AI算力集群

Meta作为全球市值最高的科技公司之一，对AI的投入一直非常大，致力于构建造福全人类的AGI（通用人工智能）。

早在2022年1月24日，Meta首次公布了AI 研究超级集群（RSC）的详细信息，拥有16，000个英伟达A100GPU。

该集群在开发全球最受欢迎的类ChatGPT模型Llama和Llama2，以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。

本次新增的GPU集群建立在RSC成功经验之上，每个集群包含24，576个H100GPU，能够支持比以往更复杂、参数更高的大模型训练。

集群网络

Meta每天要处理数百万亿次AI模型的请求，所以，使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。

一个集群是基于Arista7800、Wedge400和Minipack2OCP 机架交换机，构建了一个具有融合以太网远程直接内存访问（RoCE）网络结构的解决方案;

另外一个使用了NVIDIA Quantum2InfiniBand结构，这两种方案都能互连400Gbps端点。

在两个不同集群帮助下，Meta可以评估不同类型的互联对大规模训练的适用性和可扩展性，为以后设计和构建更大、更大规模的集群提供更多经验。

此外，Meta已经成功地将 RoCE 和InfiniBand 集群用于大型生成式AI工作负载（包括正在RoCE 集群上对 Llama3进行的训练），并且没有出现任何网络瓶颈。

硬件平台

新增的两个集群全部使用Grand Teton，这是Meta内部设计的开放性 GPU 硬件平台，于2022年10月18日首次发布。

Grand Teton 建立在多代人工智能系统的基础上，将电源、控制、计算和结构接口集成到一个机箱中，以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性，可快速部署到数据中心机群中，并易于维护和扩展等优点。

数据存储

随着大模型的功能趋于多模特，需要消耗大量的图像、视频、音频和文本数据，所以，对数据存储的需求迅速增长。

Meta新集群的存储部署通过自创的用户空间 Linux 文件系统API来满足人工智能集群的数据和检查点需求，该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。

该解决方案使数千个 GPU 能够以同步方式保存和加载检查点（这对任何存储解决方案来说都是一个挑战），同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。

Meta还与 Hammerspace 合作，共同开发、部署并行网络文件系统（NFS），以满足开发人员对超级AI集群的存储要求。

此外，Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试，因为环境中的所有节点都能立即访问代码更改。

将Meta的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起，可以在不影响规模的情况下实现快速功能迭代。

本文素材来源Meta官网，如有侵权请联系删除

END

Llama3公布基础训练设施使用49000个H100

0001

评论列表

共(0)条

相关推荐

站长资讯
小米高管内部讲话曝光称小米汽车目标比肩保时捷特斯拉
据新浪科技报道，小米汽车部在日前的一场内部活动上，向员工们透露了他们的雄心壮志。据小米汽车副总裁于立国在内部讲话中表示，小米汽车部的目标是打造一台可以比肩保时捷和特斯拉的DreamCar。小米汽车部成立近三年来，目前已有3700名员工，他们来自五湖四海，但都怀揣着共同的梦想，致力于实现这一目标。
站长网2023-12-27 18:08:17
0000
站长资讯
Adobe 发布 VideoGigaGAN 超分辨率视频模型
划重点:⭐Adobe和研究人员合作推出VideoGigaGAN，兼顾帧率连贯性和细节丰富的超分辨率视频模型。⭐VideoGigaGAN基于GigaGAN模型开发，通过添加时序卷积、自注意力层和光流引导模块，解决了超分辨率视频模型的时间连贯性和细节丰富性问题。
站长网2024-06-04 10:50:55
0001
站长资讯
余承东否认“任正非下令禁止说”：谣言
快科技4月2日消息，遥遥领先”是余承东在华为发布会上常用的词汇，形容竞争对手与自家产品的差距。今日，词条任正非据传下禁令一句遥遥领先罚款一万”突然登上微博热搜，引起网友热议。事情起因是有媒体报道钛媒体创始人赵何娟发文称，据可靠消息说，任正非在华为内部给余承东下了禁令”，每再提一句遥遥领先”罚款一万。对此，元新闻”向余承东求证，余承东在微信上回复称系谣言。
站长网2024-04-08 12:44:55
0002
站长资讯
最赚钱的编程语言！Java 垫底，Rust 排第二，年薪最高可达 75 万美元
目前全球有200多种编程语言可供选择，因此确定哪些语言在2023年能为开发人员提供最高薪酬至关重要。从2022年10月1日到2023年10月1日（整1年），DevJobsScanner分析了来自世界各地的1000多万个开发职位，来帮助我们了解市场最热门、薪酬最高的编程语言。（注:为保证结果的一致性和代表性，本研究中主要关注来自美国的职位，大幅减少潜在的数据偏差。）
站长网2023-11-18 14:41:08
0000
站长资讯
生成式人工智能能够更精准地预测和识别 YouTube 等平台上的内容环境
越来越多的媒体都开始使用生成AI技术。最近，数字视频广告公司Pixability利用ChatGPT改进品牌适宜性标准并提高广告商在YouTube和其他数字视频平台投放广告的信心，同时也将流程大大加速。
站长网2023-05-02 10:18:47
0000