LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算
要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA(State-of-the-Art)水平的性能。
这一成果的基础是以羊驼LLaMA2.7B为起点,通过有针对性的结构化剪枝,得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中,这些剪枝后的模型表现出色,超越了之前的同等规模模型。
论文地址:
https://arxiv.org/abs/2310.06694
Hugging Face:
https://huggingface.co/princeton-nlp
项目主页:
https://xiamengzhou.github.io/sheared-llama/
该研究的首席作者夏梦舟指出,与从头开始预训练相比,这种剪枝方法在成本和性能方面更为划算。
研究团队还在论文中提供了剪枝后模型的示例输出,表明即使规模只有1.3B和2.7B,这些模型仍然能够生成连贯且内容丰富的回复。此外,相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。
这一研究的重要性在于,虽然目前仅使用Llama2.7B模型进行了剪枝实验,但这种方法可扩展到其他模型架构和规模。此外,剪枝后的模型还可以进一步预训练,从而在一定程度上恢复因剪枝而导致的性能损失。
研究团队还解决了一个关键问题,即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法,通过根据模型在不同领域数据上的损失下降速率,动态调整每个领域的数据比例,从而提高数据使用效率。
实验证明,虽然剪枝模型最初表现较差,但通过继续预训练,最终可以超越与之规模相同但从头开始预训练的模型。
总而言之,这项研究的关键在于提供了一种高效的方式,可以将庞大的预训练模型剪枝至较低成本,同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
腾讯云发布全新一代云服务器SA5 性能提升120%
腾讯云发布了全新一代的云服务器SA5,搭载了AMDEPYC处理器,实测显示整机性能相比上一代提升了120%,性价比较业内通用方案提升超过30%。SA5在核心密度、访存延时、虚拟化损耗、存储和网络性能等方面都具备了超强的性能。SA5的最大实例规格高达512vCPU,访存延时缩减约50%,虚拟化损耗降到0。站长网2023-11-24 11:16:310000下周上市!小度CEO确认:小度青禾学习手机性能大致在2000元档
快科技5月17日消息,百度小度今天正式官宣了旗下首款手机小度青禾学习手机。不过官方未公布任何参数信息,只是介绍了学习有关的功能,预告将会在5月22日开启预售。在今日举办的小度青禾手机沟通会上,小度CEO景鲲提前透露了一些信息,称小度青禾手机的参数配置大致是8核CPU、5000万像素摄像头,具体的性能大致处于市面上2000元左右手机的档位。站长网2023-05-18 07:11:030000造谣、抄袭,B站百万粉UP主翻车掉粉14万,矛头指向平台监管?
昨天,“热搜大户”B站又“喜提”新的热搜。5月8日,明星唐嫣将B站告上了法庭,原因是一则名誉侵权纠纷案件,该案件将于5月18日开庭审理。在热搜讨论区,有网友表示:“是B站的话那就不稀奇了,早该好好管管这个小破站了。”站长网2023-05-10 12:10:170000百度沈抖:文心大模型拥有中国最大的产业应用规模
2023中国国际数字和软件服务交易会在大连举行,百度集团执行副总裁、百度智能云事业群总裁沈抖出席主论坛并发表演讲。他表示,大模型正在进入产业落地期,文心大模型已经拥有中国最大的产业应用规模。“站长网2023-07-06 16:40:470001亚马逊研究人员推 Fortuna:提高模型预测准确性和量化不确定性能力
划重点:-🔍Fortuna是一种开源不确定性量化库,旨在使先进的不确定性量化方法在回归和分类应用中更容易应用。-📊Fortuna支持校准技术和可扩展的贝叶斯推断工具,有助于提高模型预测的准确性和量化不确定性能力。-🌐这个库为用户提供了一个一致、直观的界面,集成了现代、可扩展的不确定性量化方法,帮助确保机器学习系统的可靠性和安全性。0000