exllamav2:一个用于在现代消费 GPU 上运行本地 LLM 的推理库
站长网2023-09-15 10:24:040阅
exllamav2是一个用于在现代消费级GPU上本地运行大型语言模型(LLM)的快速推理库。它能够利用最新的GPU技术,在不牺牲太多质量的情况下,以非常快的速度对巨大的神经网络进行推理。
项目地址:https://github.com/turboderp/exllamav2
这个库采用了全新的代码库和内核实现,相比之前的版本获得了显著的性能提升。ExLlamaV2支持与 V1相同的4位 GPTQ 模型,但也支持新的“EXL2”格式。EXL2基于与GPTQ相同的优化方法,支持2、3、4、5、6和8位量化。该格式允许在模型内混合量化级别,以实现每个权重2到8位之间的任何平均比特率。这样既可以充分利用GPU的计算能力,又可以控制模型大小,适应不同的显存限制。
在测试中,利用EXL2格式,一个70B参数的模型可以在单块24GB显存的GPU上运行,一个13B参数的模型也可以在8GB显存中顺畅地进行推理。这为在普通的台式机上本地运行大模型打开了可能性。相比之前的版本,新的内核和代码架构也带来了1.5-2倍的速度提升。
这个库还集成了与HuggingFace模型的兼容性,提供了文字生成的交互式示例,以及将模型转换为量化格式的脚本。它的目标是成为一个易于入门和使用的LLM推理解决方案,让更多的人可以无障碍地体验和应用LLM带来的强大能力。
总之,exllamav2是一个非常有前景的LLM推理库。它为利用家用GPU资源运行大模型提供了一个切实可行的途径。随着它的不断发展和优化,相信它一定会让LLM的应用变得更加普及。
核心功能:
- 支持4位GPTQ模型
- 支持新的EXL22-8比特可调量化格式
- 大幅提升的推理性能
- 易于安装和使用
- 支持HuggingFace模型转换
- 提供交互式示例
0000
评论列表
共(0)条相关推荐
上海AI实验室等开源,音频、音乐统一开发工具包Amphion
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。Amphion可帮助开发人员研究文本生成音频、音乐等与音频相关的领域,可以在一个框架内完成,以解决生成模型黑箱、代码库分散、缺少评估指标等难题。0000腾讯四季度营收1551.96亿元:混元大模型已在400+业务中内测
腾讯控股今日公布了其截至12月31日的2023年第四季度及全年财报,各项数据呈现出不同的增长态势。在第四季度,腾讯控股的营收达到了1552亿元,同比增长了7%。站长网2024-03-20 19:01:580000ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?
【新智元导读】微软对大语言模型的道德推理能力进行了测试,但在电车问题中大尺寸的模型表现反而比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。「模型有道德推理能力吗?」这个问题似乎应该跟模型生成的内容政策挂钩,毕竟我们常见的是「防止模型生成不道德的内容。」但现在,来自微软的研究人员期望在人类心理学和人工智能这两个不同的领域中建立起心理学的联系。站长网2023-10-11 17:28:500000美国汽车工程师学会计划将特斯拉充电技术设为美国行业标准
总部位于美国的标准组织汽车工程师协会(SAEInternational)宣布计划支持特斯拉的电动汽车充电技术成为“北美充电标准”或NACS端口。据报道,SAE的采用将使电动汽车充电站制造商和运营商更容易实施该端口,同时也使电动汽车车主的充电更加一致和可靠。注:图片由midjourney生成站长网2023-06-29 12:13:340000马斯克:旁观者无法决定「结果」 超级智能 AGI 实际上会对人类更友好
埃隆·马斯克曾是OpenAI的联合创始人,OpenAI是ChatGPT这一知名人工智能聊天机器人的开发者。由于与OpenAICEOSamAltman和董事会产生冲突,他退出了该公司。现在他声称自己的人工智能公司xAI将与OpenAI竞争,实现人工超级智能这一宏伟目标。xAI网站截图站长网2023-07-18 12:30:530000