科学家创新技术用更少的GPU训练ChatGPT级别万亿参数模型
**划重点:**
1. 🌐 科学家使用世界最强大的超级计算机的仅8%算力,成功训练出ChatGPT规模的模型。
2. 🚀 Oak Ridge National Laboratory的研究团队在Frontier超级计算机上使用创新技术,仅用数千个AMD GPU训练了一个拥有万亿参数的语言模型。
3. 💡 通过分布式训练策略和各种并行技术,研究团队实现了在仅占用Frontier计算能力8%的情况下,训练1750亿参数和1万亿参数模型的百分之百弱扩展效率。
科学家们在世界上最强大的超级计算机上取得了巨大突破,仅使用其8%的计算能力,成功训练了一个与ChatGPT规模相当的模型。这项研究来自著名的Oak Ridge National Laboratory,他们在Frontier超级计算机上采用了创新技术,仅使用数千个AMD GPU就训练出了一个拥有万亿参数的语言模型。
通常,训练像OpenAI的ChatGPT这样规模的语言模型需要一个庞大的超级计算机。然而,Frontier团队采用了分布式训练策略,通过优化并行架构,仅使用Frontier计算能力的8%就成功完成了这一任务。具体而言,他们采用了随机数据并行和张量并行等技术,以降低节点之间的通信,同时处理内存限制。
这项研究的结果显示,在1750亿参数和1万亿参数模型的情况下,弱扩展效率达到了100%。此外,这个项目还取得了这两个模型的强扩展效率分别为89%和87%。
然而,训练拥有万亿参数的大型语言模型始终是一个具有挑战性的任务。研究人员指出,这个模型的体积至少为14TB,而Frontier中的一块MI250X GPU只有64GB。他们强调,需要进一步研究和开发方法来克服内存问题。
在面临大批次大小导致的损失发散问题时,研究人员提出,未来关于大规模系统训练时间的研究必须改善大批次训练,并采用更小的每副本批次大小。此外,研究人员呼吁在AMD GPU上进行更多工作,指出目前大多数大规模模型训练都是在支持Nvidia解决方案的平台上进行的。尽管研究人员为在非Nvidia平台上高效训练大型语言模型提供了“蓝图”,但他们认为有必要更深入地研究在AMD GPU上的高效训练性能。
Frontier在最近的Top500榜单中保持其作为最强大超级计算机的地位,超过了Intel推出的Aurora超级计算机。这项研究为未来训练巨大语言模型提供了宝贵的经验和方法,同时也突显了分布式训练和并行计算在实现这一目标上的关键作用。
基于视觉追踪!在捉人游戏中,机器人现在会“以智取胜”了
文章概要:1.加州大学伯克利分校的研究人员开发了一种新的方法,教机器人进行基于视觉的追踪,以实现像捉人等动态任务。2.该方法使用“特权学习”,机器人教师利用逃避者的未来轨迹推断其意图,从而引导学生机器人逐步行动。3.该方法已在四足机器人上测试成功,它能展现出复杂的追捕行为,如预测逃避者去向并拦截。站长网2023-09-06 17:47:330000清华大学提出全新加速训练大模型方法SoT
要点:研究人员提出了一种名为“Skeleton-of-Thought(SoT)”的创新方法,旨在加速大型语言模型(LLMs)的生成速度,以解决其处理速度较慢的问题。与传统方法不同,SoT不对LLMs进行复杂的修改,而是将其视为黑匣子,专注于优化输出内容的组织,通过引入独特的两阶段过程来提高响应速度。站长网2023-11-24 09:40:150000百川开源中英文百亿参数模型!中文领域超越 LLaMA
2023年7月11日,百川智能正式发布了参数量130亿的通用大语言模型Baichuan-13B、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本,成为中国开源大模型领域的重要里程碑。与美国的闭源大模型相比,开源模型具有灵活的定制性和私有化部署的优势,推动了中国大模型产业的发展和技术进步。站长网2023-07-12 14:30:180001京东推出20年回忆录活动 查消费金额即可领红包
今年是京东创业的第20周年,今日,京东官方宣布推出20年回忆录活动,只需在京东APP搜索#20年回忆录#,即可查询这些年来的消费总额等数据。值得一提的是,在回忆录的最后,京东还为消费者准备了惊喜,点击即可获得红包等礼物。站长网2023-05-22 14:20:230002抖音做搜索,商业逻辑是什么?
搜索,是这两年抖音在大力布局的功能,包括抖音APP站内和独立的搜索引擎。今年5月,巨量引擎在引擎大会上提出了“搜出好生活,搜出新生意”的宣传语,《2023巨量引擎搜索价值报告》也提到,抖音搜索已经是综合性的搜索引擎。在抖音,搜索的重要性被提到了前所未有的高度。搜索是互联网的古早产品,抖音入局的时候,也避开了搜索的锋芒,以能参透人心的推荐算法开疆拓土。站长网2023-11-17 09:13:450000