LLM-Adapters：将各种适配器集成到大型语言模型中

站长网2023-08-17 16:17:570阅

来自新加坡科技设计大学和新加坡管理大学的研究人员发布了一篇题为《LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models》的论文。该论文介绍了一种名为 LLM-Adapters 的适配器系列，用于大型语言模型的参数高效微调。该适配器系列可在不影响模型性能的情况下减少微调所需的参数数量，从而提高微调效率。

代码:https://github.com/AGI-Edgerunners/LLM-Adapters

LLM-Adapters 框架包含了最先进的开放访问大型语言模型，如 LLaMA、BLOOM、OPT 和 GPT-J，以及广泛使用的适配器，具体如下:

1、串联适配器（Series Adapter）:在每个Transformer块的多头自注意力层和前馈层后串联地添加瓶颈前馈层，如图1(a)所示。

2、并行适配器（Parallel Adapter）: 如图1(b)所示，将瓶颈前馈层与每个Transformer层的多头自注意力层和前馈层并行地集成。

3、LoRA:如图1（c）所示，向现有层中注入低秩可训练矩阵，实现参数高效微调。

LLM-Adapters框架设计在研究、efficient、模块化和可扩展方面表现良好，允许集成新的适配器和用新的更大规模的语言模型进行评估。

为了评估 LLM-Adapters 中的适配器的有效性，作者在6个数学推理数据集上进行了实验。实验结果表明，在简单的数学推理任务上，使用较小规模语言模型的参数高效微调仅需要很少的可训练参数，就能达到强大语言模型在零样本推断中可比的性能。总体而言，LLM-Adapters 框架提供了一个有希望的框架来微调大型语言模型用于下游任务。

核心功能:

适配器集成:将各种适配器（如 LoRA、AdapterH、AdapterP、Parallel）集成到 LLMs 中，提供灵活的模型适配能力。

参数高效微调:使用适配器进行参数高效微调，减少参数量，节省训练时间和计算资源。

支持多种任务:适用于各种 NLP 任务，如语言生成、问答、机器翻译等。

提供预训练模型:集成了 LLaMa、OPT、BLOOM 和 GPT-J 等最先进的预训练模型，可直接使用。

简化模型训练和推理:提供训练和推理代码示例，简化模型训练和推理流程。

LLM-Adapters 是一个强大的工具，可帮助用户快速搭建和优化大型语言模型，并在各种 NLP 任务上取得优秀的性能。

LLMAdapters将各种适配器集成到大型语言模型中

0000

评论列表

共(0)条

相关推荐

站长资讯
100万人在TikTok上追更“蜜蜂版《权力的游戏》”
点开视频之前我从未想到我会如此上头。故事的开始，是我在TikTok上刷到了一个叫做「bowserbee」的养蜂博主。在与蜂后2号CelineBeeon（下文会解释为什么是2号）初遇的视频中，养蜂人Bowse绘声绘色地讲述了一场发生在蜂箱内部的“动乱”。
站长网2023-08-30 09:14:22
0000
站长资讯
商汤用AI复活了汤老师
在商汤2024年年会上，汤晓鸥数字人现身，来了一场跨越时空的重逢。按照以往习惯，每年汤老师都会说上一段脱口秀，已经成为商汤年会保留节目。熟悉汤老师演讲都知道，他是被人工智能事业耽误的“脱口秀大师”，如今以数字人的形象，再度用幽默的方式与我们相见。除了被他的幽默感染，不少人还被逼真的效果所惊艳，堪称“年会最佳彩蛋”。并由此引发大家对汤教授的怀念。汤晓鸥数字人现身商汤年会
站长网2024-03-04 21:38:05
0000
国家新闻出版署公布新一批进口游戏版号 40款游戏获批
国家新闻出版署公布新一批进口游戏版号，40款新游获批。其中，完美世界《一拳超人:世界》、吉比特旗下雷霆网络《烛火地牢2》、中青宝《怪物火车》、恺英网络《关于我转生变成史莱姆这档事:新世界》等过审。
站长网站长资讯2023-12-22 14:42:11
0001
TWS耳机的进化，加入屏幕和AI真的有用吗
在如今竞争已经十分激烈的TWS耳机市场中，为了体现产品的差异化，部分厂商试图以“奇”制胜，试图通过为其增加更多功能的方式突围。除了在TWS耳机充电盒上加入屏幕之外，有厂商还玩出了新花样，通过配备SIM卡槽、搭载深度定制的操作系统，以及引入AI功能来增强产品的竞争力，比如WISHEEAiEar和iKKOActiveBuds这两款产品显然就是这种设计思路的产物。
站长网站长资讯2024-10-19 08:51:37
0000
站长资讯
网易有道发布“子曰”大模型可为学生提供个性化分析指导
7月26日，网易有道正式发布垂直教育行业的大模型“子曰”。有道表示，在内部调研中，子曰大模型的翻译能力已经优于ChatGPT、超过了市面上所有主流翻译引擎。同时，有道还发布了基于“子曰”大模型研发的六大创新应用，包括“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AIBox”以及“文档问答”。
站长网2023-07-27 10:20:21
0000