腾讯披露最新大模型训练方法:Angel框架升级 效率提升2.6倍
要点:
腾讯披露混元大模型训练方法,Angel框架升级,大模型训练效率提升至2.6倍,千亿级大模型训练可节省50%算力成本。
AngelPTM机器学习训练框架通过多维度并行优化存储,在通讯方面采用软硬件结合解决方案,提高大模型训练稳定性。
腾讯推出大模型推理框架AngelHCF,通过扩展并行能力和关键能力优化,相较于主流框架,推理速度提高了1.3倍。
在当前大模型参数规模呈指数级增长的情况下,腾讯近日披露了混元大模型训练的最新方法,通过升级自研机器学习框架Angel,成功提升大模型训练效率。这一升级使得千亿级大模型训练可以节省高达50%的算力成本,为应对算力紧缺提供了有力支持。Angel框架的升级不仅仅在于提高效率,还支持单任务万卡级别超大规模训练,进一步提升了腾讯云HCC大模型专属算力集群的性能和效率。
图源备注:图片由AI生成,图片授权服务商Midjourney
为了进一步提高大模型的训练和推理效率,腾讯自研了机器学习训练框架AngelPTM。在存储方面,AngelPTM采用多维度的并行计算,包括数据并行、模型并行、流水并行和序列并行。
此外,通过在ZeRO-Cache的基础上引入统一视角技术,将显存和主存打通,有效扩展了显存容量,提升了单机存储容量达90%。在通讯方面,腾讯通过软硬件结合的方式解决,构建了3.2T RDMA网络来拓宽带宽,同时在框架软件层面做GPU拓扑感知,实现了负载均衡的流水并行。为了确保稳定性,腾讯对基础设施的网络、硬件、存储、云原生调度都进行了监控,并实施了自动续训和系统容错。
此外,为解决推理成本不断上升的问题,腾讯推出了大模型推理框架AngelHCF。通过扩展并行能力和关键能力的优化,包括Embedding共享、Attention算子优化、Paged Attention优化等方式,提高了推理性能,相较于主流框架,AngelHCF的推理速度提高了1.3倍。这一框架在腾讯混元大模型文生图的应用中,将推理耗时从原本的10秒缩短至3至4秒。
腾讯不仅仅在大模型训练方面取得了显著的效率提升,还在推理阶段取得了实质性的优化。这一系列技术提升已经在腾讯云上得以开放,为用户提供更优的训练和推理加速能力,同时支持客户一站式训练精调,打造专属智能应用。腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测,涵盖了文本总结、摘要、创作、翻译、代码等多个领域,这标志着整个生产链路的全面升级,从模型研发到应用落地形成了一站式的平台,进一步推动了大模型应用的发展。
扎克伯格、比尔盖茨等四位富豪因 AI 暴赚 1 万亿元
根据彭博统计的数据显示,2023年彭博富豪榜TOP10大部分来自于科技领域。由于AI技术的不断发展,美股在2023年年内出现了一波反弹,这使得科技领域的富豪们的总财富合计增加了超过4000亿美元(约合人民币28600亿元)。站长网2023-06-22 11:06:430000中国手机变天:华为夺魁 站稳6000元 市场、小米力压苹果第二
快科技12月16日消息,据相关博主的最新消息,在中国手机市场W49(12/4-12/10)激活设备数据量上看,华为已经坐稳第一,而紧随其后的是小米。从统计上看,华为拿下了18.1%的市场份额,而小米是16.3%,排在后面的是苹果和荣耀,分别是16和15.8%。0000贵州大学大数据与信息工程学院院长:打造产学研融合平台 培育大数据优秀人才
贵阳网•甲秀新闻讯在电子信息技术和大数据产业发展中,高等教育是极为重要的一环。2014年,贵州大学大数据与信息工程学院在原贵州大学电子信息学院的基础上成立,为贵州大数据产业发展增添强劲动力。0001向日葵远程崩了上热搜 官方回应:已在紧急修复中
就在刚刚“向日葵远程”登上热搜。有网友反馈称,远程控制软件“向日葵”出现了宕机的情况,页面显示“登录连接异常”。对此,向日葵官方回应称,由于机房线路故障,导致向日葵部分用户无法正常使用,已在紧急修复中,请耐心等待,保持客户端尝试登录状态,恢复后自动登录。站长网2023-09-18 10:53:160000裁员一万转身拥抱AI,Meta又要改名了
“Meta进军AI,能行吗?”作者|Eric编辑|Zuri首图来源:TheNewYorkTImes美国科技四巨头中,如今就属Meta最显落寞了。站长网2023-04-17 18:34:240000