清华提出4比特优化器 显著减少LLaMA微调的显存需求
站长网2023-09-08 14:05:230阅
要点:
1、针对优化器状态的量化方法,将优化器状态的数值精度降低至4比特
2、提出了针对一阶矩和二阶矩的量化策略,处理了零点问题等难点
3、在多个微调任务中达到全精度优化器的性能,同时可将LLaMA微调的显存需求减少超过50%
随着大模型规模的不断增大,显存需求成为模型训练的主要瓶颈之一。优化器状态中的一阶矩和二阶矩是占用大量显存的重要因素。为降低显存使用,清华大学朱军、陈键飞团队在ICLR2022的工作基础上,进一步将优化器状态的比特数降低到4比特,同时针对一阶矩和二阶矩的不同特点,提出了相应的量化策略。
项目地址:https://github.com/thu-ml/low-bit-optimizers
对于一阶矩,由于存在按行或列分布的异常值,提出采用更小的128大小的分块进行归一化。对二阶矩,确定零点问题是主要难点,去除零点的线性映射取得了很好效果,同时提出rank-1归一化更好地处理异常值。最后,提出了4比特AdamW和Factor两种低精度优化器。
在多个经典的微调任务中进行评估,结果表明4比特优化器能够匹配甚至超过32比特AdamW的性能。同时显著减少了优化器状态的显存需求,在LLaMA-7B的微调中最高可节省57.7%的显存。提供了开箱即用的PyTorch接口,只需要一行代码即可使用。
本研究工作展示了通过压缩的思路显著减少大模型微调中的显存瓶颈的可能性。同时优化器状态的低比特设计也为进一步探索内存高效的训练算法提供了有价值的经验。这些成果将促进大模型在有限硬件条件下的高效训练与应用。
0000
评论列表
共(0)条相关推荐
高级语言模型优化平台Parea AI 支持一键提示优化
PareaAI是一个旨在优化语言模型应用程序的终极平台,为开发人员提供了一系列功能和工具,以释放其应用程序的全部潜力。站长网2023-09-15 18:18:490001LeCun发文质疑LLM推理能力 大模型涌现离不开上下文学习
要点:LeCun认为,大语言模型(LLM)缺乏规划推理能力,其涌现能力主要源自上下文学习而非真正的推理。研究表明,针对复杂规划任务,如国际规划大赛中的问题,LLM的性能较差,其推理能力在特定领域受限,而涌现能力主要体现在简单任务和事先知道答案的情境中。站长网2023-11-24 18:05:530000Comflowyspace:简单好用的Comfy UI整合包 小白也能轻松上手
Comflowyspace是一款专为用户提供方便快捷的ComfyUI整合包。该整合包解决了安装ComfyUI复杂且容易遇到各种问题导致安装失败的问题,只需一键安装,几分钟即可成功。这使得即使是小白用户也能轻松上手,省去了繁琐的安装步骤。官网:https://top.aibase.com/tool/comflowyspace站长网2024-03-14 11:46:400000汤姆猫:推进移动应用内容玩法的AI化和交互创新
最近,汤姆猫在接受投资者调研时表示,在人工智能交互产品方面,公司国内外团队正在同步开发相关产品。公司国内研发团队将“汤姆猫”IP形象融入到AI交互产品功能原型中,加入了语音识别、语音合成、性格设定、内容过滤等功能。这支团队测试了语音交互、连续对话等产品性能,初步验证了相关技术的可行性,并已开始开发应用产品。站长网2023-05-08 15:31:140000UC伯克利发布大语言模型榜单 清华ChatGLM冲进前五
日前,UC伯克利发起了大语言模型版排位赛,让大语言模型随机进行battle,并根据它们的Elo得分进行排名。排行榜数据显示,Vicuna以1169分排名第一,Koala位列第二。这两个模型都有130亿参数。LAION的OpenAssistant排在第三。清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。站长网2023-05-05 11:10:180001