科学家创新技术用更少的GPU训练ChatGPT级别万亿参数模型
**划重点:**
1. 🌐 科学家使用世界最强大的超级计算机的仅8%算力,成功训练出ChatGPT规模的模型。
2. 🚀 Oak Ridge National Laboratory的研究团队在Frontier超级计算机上使用创新技术,仅用数千个AMD GPU训练了一个拥有万亿参数的语言模型。
3. 💡 通过分布式训练策略和各种并行技术,研究团队实现了在仅占用Frontier计算能力8%的情况下,训练1750亿参数和1万亿参数模型的百分之百弱扩展效率。
科学家们在世界上最强大的超级计算机上取得了巨大突破,仅使用其8%的计算能力,成功训练了一个与ChatGPT规模相当的模型。这项研究来自著名的Oak Ridge National Laboratory,他们在Frontier超级计算机上采用了创新技术,仅使用数千个AMD GPU就训练出了一个拥有万亿参数的语言模型。
通常,训练像OpenAI的ChatGPT这样规模的语言模型需要一个庞大的超级计算机。然而,Frontier团队采用了分布式训练策略,通过优化并行架构,仅使用Frontier计算能力的8%就成功完成了这一任务。具体而言,他们采用了随机数据并行和张量并行等技术,以降低节点之间的通信,同时处理内存限制。
这项研究的结果显示,在1750亿参数和1万亿参数模型的情况下,弱扩展效率达到了100%。此外,这个项目还取得了这两个模型的强扩展效率分别为89%和87%。
然而,训练拥有万亿参数的大型语言模型始终是一个具有挑战性的任务。研究人员指出,这个模型的体积至少为14TB,而Frontier中的一块MI250X GPU只有64GB。他们强调,需要进一步研究和开发方法来克服内存问题。
在面临大批次大小导致的损失发散问题时,研究人员提出,未来关于大规模系统训练时间的研究必须改善大批次训练,并采用更小的每副本批次大小。此外,研究人员呼吁在AMD GPU上进行更多工作,指出目前大多数大规模模型训练都是在支持Nvidia解决方案的平台上进行的。尽管研究人员为在非Nvidia平台上高效训练大型语言模型提供了“蓝图”,但他们认为有必要更深入地研究在AMD GPU上的高效训练性能。
Frontier在最近的Top500榜单中保持其作为最强大超级计算机的地位,超过了Intel推出的Aurora超级计算机。这项研究为未来训练巨大语言模型提供了宝贵的经验和方法,同时也突显了分布式训练和并行计算在实现这一目标上的关键作用。
苹果门店:iPhone 15不能使用安卓充电线 可能会烧机
快科技9月24日消息,iPhone15系列于上周五正式开售,和去年一样,今年iPhone15系列也是4款机型,它们均采用灵动岛设计。同时,iPhone15也采用了Type-C的充电数据接口,正式告别了此前的苹果Lightning接口,这也意味着消费者不用再多备一根苹果数据线和充电器了,但iPhone15的Type-C接口,与安卓手机可能并无法完全适配。站长网2023-09-24 09:42:510000英伟达在印度招聘 AI 工程师
划重点:-🌟NVIDIA正在印度招聘经验丰富的AI工程师,加入其合作伙伴公司。-🎓该职位要求具有工程学位(BE/B.Tech/MS/MTech),优先考虑计算机科学/信息技术/电气/电子或等同专业。-💡NVIDIA正在寻找具有深度学习、自然语言处理和机器学习经验的候选人,熟练使用Python、PyTorch和TensorFlow编码。站长网2024-05-07 16:54:220000三分之二的专业人士认为AI将提高他们的技能价值
本文概要:1.64%受访专业人士预计未来5年内自己技能会更受重视,对AI持积极态度。2.最大担心不是失业,而是AI准确性问题导致错误信息传播。3.超六成人预计依赖非传统技能员工工作量增多,AI将催生新职业。最近人工智能高速发展,不少人担心被AI取代工作。但是汤森路透(ThomsonReuters)一项调查显示,许多专业人士对AI持较为积极的态度,不太担心被取代。站长网2023-08-24 16:51:280000闲鱼回应加拿大鹅援助物资被倒卖:虚假信息 已封号
近日,有网友在闲鱼平台上发现加拿大鹅捐赠给甘肃震区的物资被倒卖。对此,闲鱼平台已作出回应。据界面新闻报道,经平台客服第一时间排查,实际情况为某用户为了蹭热点引流售卖羽绒服,故意编造了赈灾物资信息,属于恶意营销引流行为。平台已立即下架相关商品,并对该用户账号进行永久封禁处理。闲鱼平台一直致力于维护良好的网络交易秩序,坚决打击恶意营销行为。对于此类事件,我们将保持高度警惕,坚决维护用户权益。0000ChatMusician:一个融合了音乐天赋的开源大语言模型
ChatMusician是一个基于开源大语言模型的项目,它通过与文本兼容的音乐符号系统ABC记谱法,使LLaMA2模型能够理解和创作音乐。这意味着模型可以独立地使用纯文本来处理音乐,无需依赖外部的多模态神经网络结构或特殊的词法分析器。令人惊讶的是,即使赋予模型音乐创作能力,它的语言处理能力也没有受到影响,甚至在多模态语言理解评分上有所提升。站长网2024-02-28 09:41:040000