ReMax算法带来解决方案!RTX 4090限制下 提高大模型使用RLHF效率
要点:
ReMax算法的关键思想:ReMax是专门为RLHF任务设计的算法,与通用RL算法PPO不同。它利用三个特性,包括快速模拟、确定性转移和轨迹级奖励,来构建梯度估计器,从而显著减少计算开销。
算法的优势:ReMax相对于PPO有很多优势,包括实现简易、少量超参数、节省约50%内存、提高训练速度。这使得ReMax在大型模型上的应用更加高效。
ReMax的性能:研究表明,在不同任务中,ReMax能够与PPO一样有效地最大化奖励,同时显著减少GPU内存使用,并提高训练速度。这对大型语言模型的发展具有重要意义。
在RTX4090被限制的时代下,一种名为ReMax的全新算法为大型模型在基于人类反馈的强化学习(RLHF)任务中带来了高效性的解决方案。这篇文章介绍了ReMax算法,它的作者是李子牛、许天、张雨舜、俞扬、孙若愚和罗智泉。ReMax算法的目标是降低计算成本,同时提高性能。
今年,大型语言模型(LLMs)如ChatGPT等在各个领域获得了广泛的应用,但这也引发了对计算资源,尤其是GPU的巨大需求。监督训练地调优一个Llama2-7B模型需要80GB以上的内存,而为了与人类对齐,LLMs还需要进行RLHF的训练,这导致GPU消耗是SFT的2倍以上,训练时间可能是SFT的6倍以上。

项目地址:https://github.com/liziniu/ReMax
论文链接:https://arxiv.org/abs/2310.10505
近日,美国政府对英伟达GPU产品H100、H800等在中国市场的限制措施使中国的大型语言模型和人工智能领域面临更大的挑战,因此减小RLHF的训练成本对LLMs的发展至关重要。
ReMax算法的动机在于解决RLHF的计算开销问题,尤其是第三阶段,即奖励最大化阶段。现有的RL算法PPO是通用的,但不够适用于RLHF任务,因为它使用了价值模型,该模型增加了存储需求,导致计算开销巨大。
ReMax的思路是设计一种专门为RLHF任务优化的算法,通过观察RLHF的特点,发现RLHF中不需要价值模型,因此将其移除,以降低计算成本。
ReMax算法基于古老的策略梯度算法REINFORCE,但通过使用贪婪生成的回答的奖励作为基准值,它有效地解决了REINFORCE算法中的高方差问题,提高了模型训练的效果。ReMax算法的优势在于其简洁性,核心部分仅需6行代码,相较于PPO,减少了超参数的数量和内存的使用。
通过实验,ReMax在不同任务中能够像PPO一样有效地最大化奖励,同时能够节省近50%的GPU内存,提高训练速度。
总而言之,ReMax算法为RLHF任务提供了一种高效的解决方案,通过减小计算开销,提高了大型语言模型的性能。它具有潜在的通用性,可以应用于其他自然语言处理任务,同时也有望应对硬件资源的限制。这一算法为大型模型的发展开辟了新的道路,有望在未来的研究和应用中发挥关键作用。
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
【新智元导读】StabilityAI放出了号称能暴打闭源模型的StableDiffusion3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。StabilityAI在发布了StableDiffusion3之后,今天公布了详细的技术报告。论文深入分析了StableDiffusion3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构!站长网2024-03-06 17:14:010002伪装AI成新流量密码,机器人打擂台视频引上亿网友围观
在AI技术日益成熟的今天,短视频创作者们发现了一种新的引流方式:通过让真人“伪装”成AI,塑造AI与人类和谐共处的场景。这种创新的内容形式迅速在各大平台上走红,吸引了大量网友的关注。机器人视频内容的走红视频号博主“脑洞菌的AI生活”:发布了约110条AI机器人视频,内容围绕AI体验人类生活,不少视频获得超10万次点赞和转发。站长网2024-05-14 18:17:15000158万人获得稳定收入,探店正在成为风口上的新职业
6年没工作的三孩宝妈程学艳,终于找到了她的“理想职业”——做一名抖音探店达人。她今年35岁,来自安徽阜阳的临泉县。这个拥有230万人口的县城是劳务输出大省,不少当地人选择外出务工,程学艳却不想孩子做留守儿童,选择和丈夫留在了临泉,过去6年她做全职妈妈,丈夫做外卖骑手养活一家。站长网2023-10-28 10:41:390000恺英网络:已开始应用相关AI工具 并建立内部AI数据库
昨日,恺英网络在业绩说明会上提到,AIGC技术能够有效地降低研发成本、提升研发效率。目前,公司和重要的战略投资企业已经开始应用相关的AI工具,并逐渐建立内部AI数据库。AIGC技术在2D美术批量图片生成、基础代码复监和AI语音应用等领域已经显示出了明显的潜力,实现了成本和效率方面的提升。未来,公司将进一步研究和应用相关的AIGC工具,增强研发效率的提升力度。0000两周用户增长近百万,挺进美国社交应用榜Top5,这款反AI产品火了
在AI产品竞争白热化之际,一款反AI应用却逆势走红。今年6月,一个名为Cara的图片社区仅用了两周时间,就将用户基数从四万增长至近百万,一跃成为美国社交应用榜Top5,超过了X(前为“推特”)、Reddit、Discord、Linkedln和Messenger,出尽风头。站长网2024-07-04 17:13:150000