南加州大学提出通道式轻量级重编码CLR 解决大语言模型灾难性遗忘问题
要点:
1. 南加州大学和Google Research提出了通道式轻量级重编码(Channel-wise Lightweight Reprogramming)方法,用于解决持续学习问题,通过在固定任务不变的模型背骨干中添加轻量级可训练模块,对每层通道的特征图进行重编程,以适应新任务,仅占0.6%的额外参数。
2. 通道式轻量级重编码方法采用动态网络方式,可以持续学习多个新任务而不会出现灾难性遗忘,使模型在不同任务之间灵活转换。
3. 这项研究的动机是持续学习中的遗忘问题,提出了一种更轻量级但更强大的重编程方法,通过通道线性映射和卷积核的重编码,使模型能够适应多个新任务,实现更好的性能。
在持续学习领域,南加州大学和Google Research提出了一项创新的方法,通道式轻量级重编码(Channel-wise Lightweight Reprogramming,CLR),旨在解决模型在持续学习新任务时出现的灾难性遗忘问题。持续学习的关键挑战是如何在学习新任务后仍然保持对旧任务的性能,而CLR方法提供了一种有前景的解决方案。
与传统的多任务学习不同,持续学习是在一个接一个的任务中进行学习,模型需要逐个适应新的任务,同时尽量避免遗忘之前学到的知识。
论文地址: https://arxiv.org/pdf/2307.11386.pdf
项目地址: https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming
数据集地址: https://ilab.usc.edu/andy/skill102
CLR的创新之处在于它通过在模型的固定骨干(backbone)中引入可训练的轻量级模块,对每一层的通道特征图进行重编程,使其适用于新任务。这些轻量级模块仅占整个模型的0.6%额外参数,但为每个新任务提供了定制的特征。这意味着模型可以连续学习无数个新任务,而不会受到灾难性遗忘的困扰。
CLR方法采用了动态网络的方式,通过通道线性映射对卷积核产生的特征图进行重编程,实现了多个新任务之间的平滑切换。该方法的灵活性使其在持续学习中表现出色,即使面对众多新任务,每个轻量级模块所需的训练参数仍然非常有限,这使得模型的规模保持相对较小。
CLR方法通过引入轻量级重编程参数,使模型能够以更轻量级但更强大的方式适应不同的新任务。它解决了持续学习中的遗忘问题,为模型提供了更好的性能和灵活性。
通道式轻量级重编码(CLR)方法为持续学习领域带来了新的机会,使模型能够在不断学习新任务的同时,有效地保持对旧任务的性能,为多任务学习领域带来了新的突破。这一创新方法有望为未来的持续学习研究和应用提供更多的可能性。
苹果iPad mini 7今日开启预购:3999元起 10月23日正式发售
苹果公司在10月15日晚间突击上架了iPadmini7,这款设备的起始零售价为3999元人民币。消费者可在今天上午9点开始预购,而正式发售日期定于10月23日。与前代产品相比,iPadmini7的整体设计变化不大,主要升级在于内部硬件。最显著的变化是搭载了苹果最新的A17Pro芯片,虽然与iPhone15Pro相比少了一个GPU核心,但性能依然强大,相较于上一代的A15芯片有了显著提升。站长网2024-10-18 22:09:530000超真实的虚拟试衣软件IDM-VTON 连衣服的褶子都那么真实
近日,一项名为IDM-VTON的虚拟试衣技术引起了广泛关注。这项技术能够生成高度真实的虚拟试衣图像,其细节处理之精细,令人赞叹不已。IDM-VTON技术的核心在于其对服装细节的精准捕捉。无论是纹理、图案还是缝线,这些细微之处都能在试衣图像中得到准确的再现。这种对细节的高度还原,使得用户在试衣时能够更加真实地感受到衣物的质感和设计。技术特点:站长网2024-04-26 04:10:480001NVIDIA官方自曝下下代GPU:2025年这么着急?
NVIDIA最近在一份面向投资者的演示文件中,意外披露了下下代GPU架构的路线图。NVIDIA目前有两种截然不同的GPU架构,一是面向消费级游戏和图形的AdaLovelace,二是面向高性能计算和人工智能的Hopper。下代架构代号Blackwell,将同时用于以上两大领域,游戏用的核心编号GB20x系列,计算用的核心编号GB200。站长网2023-10-11 20:52:390000快手已组建大模型研发团队 暂无对外发布大模型计划
昨日,快手在电话会议上表示,目前已经组建了大模型的研发团队,并依托过去的AIGC(人工智能生成内容)算法和大模型语言模型方面的技术积累,按计划推进大模型的开发和训练,各项进展是比较顺利。当前,模型还处于训练阶段,因此暂时还没有明确的对外发布计划。此外,快手还分享了人工智能在短视频领域,最可能率先落地的应用场景方面的思考。站长网2023-05-23 08:26:470001五家大厂瓜分春节流量:谁赔本?谁赢了?
春节历来是互联网公司的超级战场,2024年龙年春节的过节氛围里,已经透出了互联网大厂的火药味。如果把镜头拉高拉远,我们可以看到剑拔弩张的两大战场:第一个战场,也是龙年春节最大战场——春晚。这一届,砸钱派的代表是京东和小红书。站长网2024-01-31 09:02:460001