exllamav2:一个用于在现代消费 GPU 上运行本地 LLM 的推理库
站长网2023-09-15 10:24:040阅
exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型(LLM)的快速推理库。它能够利用最新的GPU技术,在不牺牲太多质量的情况下,以非常快的速度对巨大的神经网络进行推理。
项目地址:https://github.com/turboderp/exllamav2
这个库采用了全新的代码库和内核实现,相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法,支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别,以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力,又可以控制模型大小,适应不同的显存限制。
在测试中,利用EXL2格式,一个70B参数的模型可以在单块24GB显存的GPU上运行,一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本,新的内核和代码架构也带来了1.5-2倍的速度提升。
这个库还集成了与HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案,让更多的人可以无障碍地体验和应用LLM带来的强大能力。
总之,exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化,相信它一定会让LLM的应用变得更加普及。
核心功能:
- 支持4位GPTQ模型
- 支持新的EXL22-8比特可调量化格式
- 大幅提升的推理性能
- 易于安装和使用
- 支持HuggingFace模型转换
- 提供交互式示例
0000
评论列表
共(0)条相关推荐
干掉 ChatGTP !!!
最近网上出现了不少用人工智能创作的绘画、语音读物等作品,逼真度相当高,警方也是迅速出警对一些违规的进行处置,但是不可否认的是一秒创作王羲之书法、梵高风格的绘画作品、写程序代码等技术已经走进了我们的生活……站长网2023-05-23 22:14:020000AMD推面向AI时代的PC处理器Ryzen 8000G
要点:AMD于2024年CES推出了AMDRyzen8000G系列处理器,专为人工智能(AI)PC时代设计,其中一些型号内置XDNANPU加速。新系列包括AMDRyzen8040系列,采用Zen4核心、RDNA3图形以及新的XDNANPU,用于本地AI推理。站长网2024-01-09 14:35:150000GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
【新智元导读】这个开源工具,居然能用GPT-4代替人类去标注数据,效率比人类高了100倍,但成本只有1/7。大模型满天飞的时代,AI行业最缺的是什么?毫无疑问一定是算(xian)力(ka)。老黄作为AI掘金者唯一的「铲子供应商」,早已赚得盆满钵满。除了GPU,还有什么是训练一个高效的大模型必不可少且同样难以获取的资源?站长网2023-09-18 15:53:330001vivo X100 Ultra价格首曝:顶配卖8000元
快科技4月29日消息,博主数码闲聊站爆料,vivoX100Ultra顶配版卖8000元,这款新品将在5月份正式登场。据悉,vivoX100Ultra顶配版被称之为蓝厂灭霸,产品定位超高端影像机皇。和标准版vivoX100不同的是,X100Ultra不仅拥有强大的影像系统,还支持双向卫星通信,是蓝厂第一款卫星通信手机。站长网2024-04-29 18:42:030000周鸿祎:国内大模型上来就说超越 那叫吹牛
周鸿祎日前在新东方创始人俞敏洪抖音直播间和东方甄选抖音直播间,谈及对最近国内大模型创业扎堆与ChatGPT的看法。站长网2023-05-08 14:04:040002