清华发布SmartMoE:支持用户一键实现 MoE 模型分布式训练
清华大学计算机系 PACMAN 实验室发布了一种稀疏大模型训练系统 SmartMoE,该系统支持用户一键实现 Mixture-of-Experts(MoE)模型的分布式训练,并通过自动搜索并行策略来提高训练性能。
论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
项目地址:https://github.com/zms1999/SmartMoE
MoE 是一种模型稀疏化技术,通过将小模型转化为多个稀疏激活的小模型来扩展模型参数量。然而,传统的专家并行技术在训练 MoE 模型时存在性能问题,因为稀疏激活模式导致节点间不规则的 all-to-all 通信增加延迟和计算负载不均。
为了解决这些问题,SmartMoE 系统设计了专家放置策略和自动并行算法。通过对常用并行策略的支持和动态负载均衡,SmartMoE 系统在性能测试中表现出较高的加速比。
该系统的特点包括:
支持常用并行策略:SmartMoE 系统对数据并行、流水线并行、模型并行和专家并行等四种并行策略进行了全面的支持,并允许用户任意组合这些策略。
专家放置策略:为了处理 MoE 模型的动态计算负载,SmartMoE 系统设计了专家放置策略,根据当前负载调整专家的放置顺序,实现节点间的负载均衡。
两阶段自动并行算法:为了提高 MoE 模型复杂混合并行策略的易用性,SmartMoE 系统设计了一套轻量级且有效的两阶段自动并行算法。这个算法将自动并行搜索过程分为训练开始前的搜索和训练过程中的动态调整两个阶段,以减少搜索的开销。
高性能:在性能测试中,SmartMoE 在不同模型结构、集群环境和规模下都表现出优异的性能。相较于之前的 FasterMoE 系统,SmartMoE 能够实现高达1.88倍的加速比。
总之,SmartMoE 是一种可以一键实现高性能 MoE 稀疏大模型分布式训练的系统,具有支持多种并行策略、专家放置策略和两阶段自动并行算法的特点。通过这些特点,SmartMoE 系统能够提高 MoE 模型的易用性和训练性能,助力 MoE 大模型的发展。
阿里推虚拟试穿技术Outfit Anyone 加上Animate Anyone轻松拿捏换装视频
要点:OutfitAnyone采用双流条件扩散模型,处理模特、服装和文本提示,通过衣物图像作为控制因素实现更逼真的虚拟试穿效果。该技术在处理服装变形方面表现出色,具有可扩展性,可调节因素包括姿势和身体形状,适用范围涵盖从动漫到真实场景的多种图像。站长网2023-12-14 14:25:070009释放创造力!2023年艺术家需要了解的AI音乐生成器
在不断发展的音乐制作领域,人工智能(AI)已成为艺术家的突破性工具,彻底改变了创作过程。借助人工智能驱动的歌曲生成器,音乐家可以解锁新的灵感领域,探索独特的旋律,并创作迷人的曲目。本文中我们将探讨2023年在音乐行业掀起波澜的顶级人工智能歌曲生成器,帮助艺术家突破音乐表达的界限。站长网2023-07-20 17:41:440004美团20.6亿收购光年之外,大模型创业是巨头游戏?8位一线从业者这样说
20.6亿!美团昨日在港交所发布公告,宣布以约20.65亿元人民币的价格,完成对大模型创业公司“光年之外”的股权收购。美团收购光年之外的公告,图源:港交所光年之外由美团联合创始人王慧文创立,是目前国内最受瞩目的大模型创业公司之一。4个月前,已经退休的王慧文发布“AI英雄榜”,自带5000万美元高调入局大模型,打响了国内大模型之战。站长网2023-07-04 11:14:400001iPhone 16 Pro系列电池容量曝光:最高4676mAh 系列史上最强
快科技8月3日消息,据MacRumors最新报道,iPhone16Pro系列两款机型的电池容量进一步提升,分别达到了3577mAh和4676mAh。对比上一代,iPhone15Pro是3274mAh、iPhone15ProMax是4422mAh。根据此前爆料显示,iPhone16ProMax的续航时间将超过30小时,而上一代的iPhone15ProMax为29小时。站长网2024-08-03 10:54:570000