LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算
要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA(State-of-the-Art)水平的性能。
这一成果的基础是以羊驼LLaMA2.7B为起点,通过有针对性的结构化剪枝,得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中,这些剪枝后的模型表现出色,超越了之前的同等规模模型。
论文地址:
https://arxiv.org/abs/2310.06694
Hugging Face:
https://huggingface.co/princeton-nlp
项目主页:
https://xiamengzhou.github.io/sheared-llama/
该研究的首席作者夏梦舟指出,与从头开始预训练相比,这种剪枝方法在成本和性能方面更为划算。
研究团队还在论文中提供了剪枝后模型的示例输出,表明即使规模只有1.3B和2.7B,这些模型仍然能够生成连贯且内容丰富的回复。此外,相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。
这一研究的重要性在于,虽然目前仅使用Llama2.7B模型进行了剪枝实验,但这种方法可扩展到其他模型架构和规模。此外,剪枝后的模型还可以进一步预训练,从而在一定程度上恢复因剪枝而导致的性能损失。
研究团队还解决了一个关键问题,即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法,通过根据模型在不同领域数据上的损失下降速率,动态调整每个领域的数据比例,从而提高数据使用效率。
实验证明,虽然剪枝模型最初表现较差,但通过继续预训练,最终可以超越与之规模相同但从头开始预训练的模型。
总而言之,这项研究的关键在于提供了一种高效的方式,可以将庞大的预训练模型剪枝至较低成本,同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
IBM发布雄心勃勃计划,到2026年让200万人接受AI培训
文章概要:1.IBM宣布计划在2026年之前让200万名人接受AI培训,重点关注代表性不足的社区,以缩小全球人工智能技能差距。2.该计划包括免费生成式人工智能课程和与大学的合作,以提供全球范围内的人工智能教育。3.IBM还将提供改进的AI增强功能,包括聊天机器人,以帮助学习者,并提供获得IBM品牌数字证书的机会。站长网2023-09-19 18:04:060000当雷军和个体户都叫品牌主理人
当主理人这个词频繁地出现在大众视野,尤其经过小红书电商的重新定义和强调,不免让人心存疑虑:这个群体是全新的,还是原本就存在?背后的实质性内涵、对产业链的影响力,是否经得住被如此关注和放大?关于主理人的定义,没有标准答案。有人曾简单粗暴地说他们是「有腔调的个体户」。0000一文回顾B站2023:超130位UP主年涨粉百万,流量流向不缺流量的人?
2023年,B站没有横空出世的新顶流。新榜旗下B站数据工具“新站”显示,过去一年,粉丝量级Top的UP主大多是老面孔,千万粉UP主没有新成员,粉丝最多的个人创作者仍是“罗翔说刑法”,截至目前B站粉丝数2982万。而罗翔去年的涨粉数量,也能排到整个B站的前三,一年涨粉410万。势头虽然依旧凶猛,却不及2022年505万的涨幅。截至目前B站粉丝量最高的账号Top5数据来自新站站长网2024-02-05 18:18:090002Together AI发布RedPajama v2 用于大模型训练
要点:1.TogetherAI发布了RedPajamav2,这是一个包含30万亿标记的开放数据集,用于训练大型语言模型。2.这个数据集的目的是提供高质量的数据,以支持开放式大型语言模型的成功发展。3.数据集包含来自CommonCrawl和其他公开可用网络数据的原始文本数据,以及超过40个质量注释和去重集群。站长网2023-11-06 10:31:310001OpenAI领投1X公司 又融资1亿美元 刷新人形机器人领域融资纪录
2024年,科技界的风向标之一无疑是完善人形机器人的赛道。去年,特斯拉、Apptronik和Figure等科技巨头的加入,使这一领域日益火热。其中,Agility与亚马逊合作,推进仓库试点项目,更是将竞争推向了高潮。站长网2024-01-12 10:31:170000