首页站长资讯20倍的压缩比例！微软发布LLMLingua:压缩长提示并加快模型推理速度

20倍的压缩比例！微软发布LLMLingua:压缩长提示并加快模型推理速度

站长网2023-12-14 10:35:384阅

划重点:

🔍微软团队推出 LLMLingua，一种独特的粗细压缩技术，用于压缩长提示并加快模型推理速度。

🔍LLMLingua 采用动态预算控制、逐标记迭代压缩算法和指令调整方法，确保在大比例压缩下保持提示的语义完整性。

🔍实验结果表明，LLMLingua 在不同情境中都达到了最先进的性能，并能实现高达20倍的压缩比例。

微软的研究团队开发了一种名为 LLMLingua 的独特粗细压缩技术，旨在解决大型语言模型（LLMs）中长提示带来的问题。LLMs 以其强大的泛化和推理能力显著推动了人工智能(AI)领域的发展，展示了自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面的能力。然而，最新的发展，如上下文学习(ICL)和思维链(CoT)提示，导致了部署更长提示的需求，有时甚至超过数万个标记。这在模型推理方面带来了成本效益和计算效率的问题。

为了克服这些挑战，微软团队引入了 LLMLingua，一种独特的粗细压缩技术。LLMLingua 的主要目标是减少处理长提示的费用，并加快模型推理速度。为此，LLMLingua 采用了以下几种关键策略:

1. 预算控制器:设计了一个动态预算控制器，用于在原始提示的各个部分之间分配压缩比例。这确保了即使在大比例压缩下，提示的语义完整性也得到保留。

2. 标记级迭代压缩算法:LLMLingua 集成了一种标记级迭代压缩算法，通过捕捉压缩元素之间的相互依赖关系，实现更复杂的压缩，并保持关键提示信息。

3. 指令调整方法:团队提出了一种基于指令调整的方法，用于解决语言模型之间的分布不一致问题。调整语言模型的分布可以提高用于快速压缩的小型语言模型与预期 LLM 之间的兼容性。

团队使用来自不同情境的四个数据集进行了分析和实验，以验证 LLMLingua 的实用性。这些数据集包括推理的 GSM8K 和 BBH，对话的 ShareGPT 以及摘要的 Arxiv-March23。结果显示，该方法在每种情境下都实现了最先进的性能。结果甚至表明，LLMLingua 在牺牲很少性能的情况下允许高达20倍的压缩。

实验中使用的小型语言模型是 LLaMA-7B，闭合的 LLM 是 GPT-3.5-Turbo-0301。LLMLingua 在最大压缩比例为20倍时优于先前的压缩技术，保留了推理、摘要和话语技能，展现了弹性、经济性、高效性和可恢复性。

LLMLingua 的有效性已经在一系列闭合 LLMs 和小型语言模型中得到观察。在使用 GPT-2-small 时，LLMLingua 显示出与较大模型相当的性能结果。它还在强大的 LLMs 上表现出色，超出了预期的快速结果。

LLMLingua 的可恢复性是一个值得注意的方面，当用于恢复压缩提示时，GPT-4可以有效地从完整的九步 CoT 提示中检索重要的推理信息，保持原始提示的意义和相似性。这个功能确保了可恢复性，即使在翻译后也能保留关键信息，增加了 LLMLingua 的整体亮点。

，LLMLingua 为 LLM 应用程序中长提示所带来的困难提供了全面的解决方案。该方法表现出色，并提供了一种改善 LLM 应用程序的效果和可负担性的有用方式。

项目网址:https://github.com/microsoft/LLMLingua

论文网址:https://arxiv.org/pdf/2310.05736.pdf

博客网址:https://www.microsoft.com/en-us/research/blog/llmlingua-innovating-llm-efficiency-with-prompt-compression/

20倍的压缩比例微软发布LLMLingua压缩长提示并加快模型推理速度

0004

评论列表

共(0)条

相关推荐

站长资讯
张雪峰发文称已安排上Mate 60：信赖华为质量对iPhone不感兴趣
网红张雪峰又上热搜了，主要还不是自己前脚刚换Mate50，后面立刻华为就推出了Mate60，这也引来不少网友的调侃。随后，华为技术有限公司官微菊厂阿华”在评论中表示，将送给张雪峰一台新机。所以，这才有了张雪峰新动态，他的Mate60手机已经安排，正在等待中。对于张雪峰来说，他对国产手机更加执着，或者是对华为更信赖。
站长网2023-09-02 11:37:03
0000
站长资讯
蚂蚁集团CodeFuse-VLM开源支持多模态多任务预训练/微调
CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架，用户可以根据自己的需求搭配不同的VisionEncoder和LLM。CodeFuse-VLM-14B模型在多个通用和代码任务上的性能超过LLAVA-1.5和Qwen-VL。该框架还支持高效的PEFT微调，能有效提升微调训练速度并降低对资源的需求。
站长网2024-02-05 16:39:37
0000
站长资讯
小米云服务新春活动公布：200GB连续包年 138 元
站长之家(ChinaZ.com)1月15日消息:小米云服务近日宣布，新春活动正式开启，为期14天，即从1月15日至1月28日。在这次活动中，黄金50GB连续包年的价格为39元，白金200GB连续包年价格为138元，而钻石2TB连续包年价格为448元。此次活动仅限中国大陆的小米云服务用户参加，购买连续包年会员方案可以享受5.5折的优惠。
站长网2024-01-15 16:04:48
0000
站长资讯
英伟达发布430亿参数大模型ChipNeMo
要点:1.英伟达发布了拥有430亿参数的大语言模型ChipNeMo，专注于辅助芯片设计，提高工作效率。2.ChipNeMo支持问答、EDA脚本生成、Bug总结和分析等任务，帮助芯片设计师完成工作。3.ChipNeMo的研发采用了领域自适应技术，提升了性能并减小模型大小。
站长网2023-11-01 09:21:04
0000
站长资讯
麦当劳决定炒掉AI员工，用AI点餐这件事不靠谱
从游戏公司的画师到电销公司的客服，被AI影响到工作的人在2023年可谓是一茬接着一茬，甚至“第一批因AI而失业的人出现”更是成为了去年部分媒体最有兴趣的话题。事实上，AI技术的快速发展确实已经开始对人类社会造成影响，但过高估计当下AI的能力也大可不必，因为已经有第一批AI员工开始下岗了。日前，麦当劳方面宣布AI点餐员项目即将终止，这一套与IBM合作的自动点餐系统在测试了3年之后以失败告终。
站长网2024-07-17 13:32:36
0003