ReMax算法带来解决方案!RTX 4090限制下 提高大模型使用RLHF效率
要点:
ReMax算法的关键思想:ReMax是专门为RLHF任务设计的算法,与通用RL算法PPO不同。它利用三个特性,包括快速模拟、确定性转移和轨迹级奖励,来构建梯度估计器,从而显著减少计算开销。
算法的优势:ReMax相对于PPO有很多优势,包括实现简易、少量超参数、节省约50%内存、提高训练速度。这使得ReMax在大型模型上的应用更加高效。
ReMax的性能:研究表明,在不同任务中,ReMax能够与PPO一样有效地最大化奖励,同时显著减少GPU内存使用,并提高训练速度。这对大型语言模型的发展具有重要意义。
在RTX4090被限制的时代下,一种名为ReMax的全新算法为大型模型在基于人类反馈的强化学习(RLHF)任务中带来了高效性的解决方案。这篇文章介绍了ReMax算法,它的作者是李子牛、许天、张雨舜、俞扬、孙若愚和罗智泉。ReMax算法的目标是降低计算成本,同时提高性能。
今年,大型语言模型(LLMs)如ChatGPT等在各个领域获得了广泛的应用,但这也引发了对计算资源,尤其是GPU的巨大需求。监督训练地调优一个Llama2-7B模型需要80GB以上的内存,而为了与人类对齐,LLMs还需要进行RLHF的训练,这导致GPU消耗是SFT的2倍以上,训练时间可能是SFT的6倍以上。
项目地址:https://github.com/liziniu/ReMax
论文链接:https://arxiv.org/abs/2310.10505
近日,美国政府对英伟达GPU产品H100、H800等在中国市场的限制措施使中国的大型语言模型和人工智能领域面临更大的挑战,因此减小RLHF的训练成本对LLMs的发展至关重要。
ReMax算法的动机在于解决RLHF的计算开销问题,尤其是第三阶段,即奖励最大化阶段。现有的RL算法PPO是通用的,但不够适用于RLHF任务,因为它使用了价值模型,该模型增加了存储需求,导致计算开销巨大。
ReMax的思路是设计一种专门为RLHF任务优化的算法,通过观察RLHF的特点,发现RLHF中不需要价值模型,因此将其移除,以降低计算成本。
ReMax算法基于古老的策略梯度算法REINFORCE,但通过使用贪婪生成的回答的奖励作为基准值,它有效地解决了REINFORCE算法中的高方差问题,提高了模型训练的效果。ReMax算法的优势在于其简洁性,核心部分仅需6行代码,相较于PPO,减少了超参数的数量和内存的使用。
通过实验,ReMax在不同任务中能够像PPO一样有效地最大化奖励,同时能够节省近50%的GPU内存,提高训练速度。
总而言之,ReMax算法为RLHF任务提供了一种高效的解决方案,通过减小计算开销,提高了大型语言模型的性能。它具有潜在的通用性,可以应用于其他自然语言处理任务,同时也有望应对硬件资源的限制。这一算法为大型模型的发展开辟了新的道路,有望在未来的研究和应用中发挥关键作用。
IBM Research发布SimPlan:采用混合方法加强LLM在规划任务中的能力
**划重点:**1.🤖SimPlan是IBMResearch的创新之举,采用混合方法加强大语言模型(LLMs)在规划任务中的能力。2.🔄SimPlan通过引入双编码器模型和贪婪最佳优先搜索算法,成功解决了LLMs在规划中的局限性,在各种规划领域表现出卓越效果。站长网2024-03-08 13:36:330000腾讯辟谣进军房地产:新增房地产项目仅满足内部园区需求
根据腾讯内部人士的消息,腾讯科技(深圳)有限公司近日在经营范围中新增了房地产开发经营的项目,但该公司内部人士表示,这并不意味着腾讯正在进军房地产业务,而是为了满足正在建设的新园区项目的开发需求。这个新园区项目名为大铲湾,将包括办公物业、会议中心、商业等公共配套设施。因此,腾讯需要补充相关资质以符合法规要求。站长网2023-07-26 17:08:270000掌趣科技:与行者AI达成战略合作 加强游戏AIGC领域生态布局
掌趣科技官方宣布,公司与行者AI达成战略合作,共同致力于推进AIGC技术在游戏产业的创新应用。据介绍,此次合作将进一步加强掌趣科技在游戏AIGC领域的生态布局,扩大技术及创新工具的储备,加速掌趣科技“AI游戏创作平台”的研发,全面践行“AIUGC”的战略部署。站长网2023-07-17 01:19:150000港大开源OpenGraph:攻克图基础模型难题,实现多领域通用图模型
要点:1.港大发布OpenGraph,首次攻克图基础模型的三大难题,实现零样本学习适配多种下游任务。2.OpenGraph通过统一图Tokenizer、可扩展的图Transformer和大语言模型知识蒸馏三部分构建通用图模型。3.实验验证显示OpenGraph在跨数据集预测和图Tokenizer设计方面的优越性,以及基于LLM的知识蒸馏方法的有效性。站长网2024-03-15 09:40:100000百度推出AIGC营销新创意平台“擎舵” AI数字人平台限时免费
百度宣布推出AIGC营销新创意平台—擎舵,通过多模态内容生成,突破创意生产力瓶颈,可轻松实现文案生成、图片生成和数字人视频制作三大创意生产能力。基于擎舵平台,百度营销正在打造营销场景下的专属创意生成工具,高质高效输出创意内容,推动客户服务经营路径的变化,AI数字人平台是重要代表。站长网2023-06-21 16:57:550000