FastGen:在不降低LLM质量的情况下降低GPU内存成本
划重点:
- ⭐FastGen 一种高效的技术,可以提高 LLM 的推理效率,而不会降低可见质量。
- ⭐FastGen 轻量级模型分析和自适应键值缓存来实现。
- ⭐FastGen 通过自适应的键值缓存构造来少生成推理过程中的 GPU 内存使用量。
研究人员来自伊利诺伊大学厄巴纳 - 香槟分校和微软提出了一种名为 FastGen 的高效技术,通过使用轻量级模型分析和自适应键值缓来提高 LLM 的推理效率,而不会降低可见质量。FastGen 通过自适应的键值缓存构造来减少生成推理过程中的 GPU 内存使用量。
FastGen 的自适应键值缓存压缩方法减小了 LLM 生成推理内存占用。该方法涉及两个步骤:
1. 提示编码:注意模块需要从前面的 i-1标记中收集上下文信息,以生成 LLM 的第 i 个标记。
2. 令牌生成:当完成提示编码后,M 逐个标记生成输出,对于每个步骤,使用 LLM 对上一步生成的新标记进行编码。
对于 B 模型,FastGen 在所有非自适应键值缓存压缩方法中表现最佳,并随着模型规模的增加而得更高的键值缓存压缩比例,同时保持模型的质量不受影响。例如,与 Llama17B 上的16.9% 压缩比例相比,FastGen 在 Llama1-65B 上获得了44.9% 的缩比例,达到了45% 的胜率。此外,对 FastGen 进行了敏感性分析,选择了不同的超。由于模型保持45% 的胜率,研究表明在更改超参数后对生成质量没有明显影响。
伊利诺伊大学厄巴纳 - 香槟分校和微软的研究人员提出了 FastGen,一种新的技,通过使用轻量级模型分析和自适应键值缓存来提高 LLM 的推理效率,而不会降低见质量。研究人员引入的自适应键值缓存压缩通过 FastGen 构建,以减少 LLM 生成推的内存占用。未来的工作包括将 FastGen 与其他模型压缩方法(如量化和蒸馏、分组查询注意等)进行整合。
论文地址:https://arxiv.org/abs/2310.01801
给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
【新智元导读】近日,来自香港大学的JihanYang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。怎样能构建更强大的AIAgent?答案是给他们一个完整而真实的世界。最近,来自香港大学的JihanYang和纽约大学的谢赛宁等人,联合发表了一项新研究:在虚拟环境中模拟现实世界。站长网2024-03-03 19:15:110000台积电产能利用率回升:谷歌、微软和特斯拉等 AI 芯片客户接受涨价
站长之家(ChinaZ.com)10月20日消息:据半导体厂商表示,目前台积电的产能利用率正在缓步回升。7/6纳米工艺的产能利用率曾经下降到40%,现在已经回升到约60%左右,预计到年底有可能达到70%。站长网2023-10-20 14:47:550000李子柒回应何时回归:今年将重点做文化非遗相关内容
李子柒,自2021年7月起便暂停了视频更新,她的账号自此陷入了长久的沉寂。在这段时间里,人们不禁好奇,离开屏幕的李子柒究竟去了哪里?实际上,她并没有远离我们,而是深入到了更为深厚的文化领域中。在追求文化的道路上,李子柒结识了浙江温州的木活字印刷传承人王法万。王法万不仅是她的师傅,更是她在非遗文化学习过程中的重要伙伴。两人时常交流心得,共同探索非遗文化的魅力。站长网2024-04-06 14:14:010001专家称:AI帮助FBI打击“性勒索”骗局发挥重要作用
由于人工智能技术的广泛使用,AI在帮助FBI打击这些骗局中发挥了重要作用。根据FBI的数据,2022年2月至2023年2月,性敲诈案件增加了322%,而自那以后又有明显增加,这些案件导致了许多受害者自杀。站长网2023-07-18 06:37:260001多个AI应用在苹果应用商店下架 或因调用ChatGPT服务
8月1日,多个AI相关App在苹果应用商店下架。据七麦监控数据显示,本次共有658款应用被下架,其中包含Chat、AI、GPT等关键词的应用较多。根据苹果官方通知,中国区的苹果应用商店不允许提供ChatGPT相关的服务。同时,相关开发者需提供专门的许可证,且需要向监管部门申请。图片来源:微信公众号CTO范凯站长网2023-08-02 09:08:020000