exllamav2:一个用于在现代消费 GPU 上运行本地 LLM 的推理库
站长网2023-09-15 10:24:040阅
exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型(LLM)的快速推理库。它能够利用最新的GPU技术,在不牺牲太多质量的情况下,以非常快的速度对巨大的神经网络进行推理。
项目地址:https://github.com/turboderp/exllamav2
这个库采用了全新的代码库和内核实现,相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法,支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别,以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力,又可以控制模型大小,适应不同的显存限制。
在测试中,利用EXL2格式,一个70B参数的模型可以在单块24GB显存的GPU上运行,一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本,新的内核和代码架构也带来了1.5-2倍的速度提升。
这个库还集成了与HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案,让更多的人可以无障碍地体验和应用LLM带来的强大能力。
总之,exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化,相信它一定会让LLM的应用变得更加普及。
核心功能:
- 支持4位GPTQ模型
- 支持新的EXL22-8比特可调量化格式
- 大幅提升的推理性能
- 易于安装和使用
- 支持HuggingFace模型转换
- 提供交互式示例
0000
评论列表
共(0)条相关推荐
Meta 推出新的生成式AI工具 提高AI响应的准确性
本文概要:1.Meta推出了一种名为"Shepherd"的新的生成式AI工具,旨在通过使用AI本身来改进生成式AI工具产生的不准确或误导性的回答。2."Shepherd"利用高质量的反馈数据集对模型的回答进行批判性评价,并提出改进建议,以提供更准确的生成式AI输出。站长网2023-08-16 15:33:380002YouTube Music推出歌曲播放次数和AI生成播放列表创作功能
**划重点:**1.📊YouTubeMusic现在为每首歌曲添加了播放次数统计。2.🖼️AI生成的播放列表艺术创作者功能在更多地区得到推广。3.🌈用户对歌曲播放次数的可见性和艺术创作者功能的扩大表示好评和一些担忧。在最新的更新中,YouTubeMusic引入了两项引人注目的功能,为用户提供更丰富的音乐体验。站长网2023-12-15 18:15:160005抖音治理直播PK约架行为 处罚相关违规账号794个
抖音发布关于「直播PK约架」行为的治理公告称,近期,平台观察到个别主播存在「直播间PK约架,线下引围观」等不良行为。2023年5月以来,抖音直播共处罚相关违规账号794个,对存在持续违规行为的287个账号回收了直播权限,并无限期回收直播使用权限73个。抖音直播将持续进行「约架打架」行为的治理,不良行为包括但不限于:一、直播展示暴力冲突行为站长网2023-06-29 19:26:300001FakeYou:克隆你的声音,生成个性化语音
FakeYou是一款功能强大的文本到语音音频剪辑工具,可以帮助用户生成个性化的语音内容。它简单易用,提供多种语音风格和场景选择,同时支持实时语音克隆和仿声模拟体验。体验地址:https://fakeyou.com/不仅适用于个人使用,还能为内容创作者和任何希望为消息添加个性的人提供帮助。无论是在工作、学习还是娱乐中,FakeYou都能满足用户的需求,让用户更好地表达自己。功能:站长网2023-08-15 11:17:340000小红书,接过影视娱乐流量
提到拥有强势影视综艺,明星艺人等娱乐流量的社区平台,豆瓣和微博无法绕开。号称业内人士的个人爆料,撑起了一个又一个豆瓣娱乐小组;实时更新的微博热搜,反映着娱乐市场的流量风向。虎扑的话,除了虎扑女神评选之外,也就和娱乐流量扯不上什么联系。抖音凭借庞大的用户数和下沉能力,成为近两年影视宣发不可或缺,乃至首选的阵地。站长网2023-12-27 09:14:550000