研究人员推出压缩框架QMoE:可将1.6万亿参数模型高效压缩20倍
要点:
1. ISTA的研究人员提出了QMoE模型量化方法,可以将1.6万亿参数的SwitchTransformer压缩至160GB以下,每参数仅0.8位,实现了高达20倍的压缩率。
2. 这种压缩框架通过专门设计的GPU解码内核实现,能在一天内将庞大的模型压缩至适用于4张英伟达RTX A6000或8张英伟达RTX3090GPU的大小,而开销不到未压缩模型的5%。
3. QMoE采用了数据依赖的量化方法,实现了高效的压缩,即使在极低位宽下,仍能维持准确性,适用于大规模的混合专家架构模型。
最新研究来自ISTA的科学家提出了一种创新的模型量化方法,称为QMoE,可以将庞大的1.6万亿参数SwitchTransformer压缩到令人难以置信的160GB以下,每个参数仅占用0.8位。这一方法实现了高达20倍的压缩率,为解决大型模型的高昂成本和内存需求问题提供了新的解决方案。
GPT-4等大型模型的发展使混合专家架构(MoE)成为研究的焦点。虽然MoE可以显著提高模型的准确性和训练速度,但由于庞大的参数数量,需要大量的显存才能运行这些模型。例如,1.6万亿参数的SwitchTransformer-c2048模型需要3.2TB的GPU显存。为解决这一问题,ISTA的研究人员提出了QMoE,这一框架利用专门设计的GPU解码内核,实现了高效的端到端压缩推理。
论文地址:https://arxiv.org/pdf/2310.16795.pdf
QMoE的独特之处在于采用了数据依赖的量化方法,允许在底层的位宽下实现高度压缩,同时仍能维持准确性。实验结果表明,即使在仅有2位或三元精度的情况下,与未压缩模型相比,精度的损失非常小。这一研究的成果为大规模混合专家架构模型的高效压缩和执行提供了新的可能性,将其适用于消费级GPU服务器,减少了内存开销,并降低了运行成本。
尤其令人印象深刻的是,QMoE的高效性,小型模型甚至可以在一小时内完成压缩,而大型模型如c2048也只需要不到一天的时间。虽然在执行速度方面与未压缩模型相比略有下降,但这一方法在大规模模型的压缩方面具有重要潜力。总的来说,QMoE为解决大型模型的内存需求问题提供了创新的解决方案,实现了高度的压缩和高效的执行。
然而,这项研究也存在一些局限性,因为目前公开可获得的大规模精确MoE模型数量有限,因此需要更多的研究和实验来进一步验证其适用性。这一创新性研究将有望为未来的深度学习和大型模型研究开辟新的方向。
DuckDuckGo将搜索引擎中引入AI生成的回答内容
最近,DuckDuckGo宣布了一款名为DuckAssist的新工具,该工具“自动从维基百科提取和总结信息以回答某些问题”。据了解,该工具目前处于测试阶段,仅适用于DuckDuckGo的移动应用程序和浏览器扩展,但该公司计划在试用顺利的情况下将其添加到基于网络的搜索引擎中。站长网2023-04-18 10:47:250000ChatGPT编程时代来啦,GitHub Copilot Enterprise正式发布!
2月28日,全球最大开源平台之一GitHub在官网宣布——GitHubCopilotEnterprise正式全面发布。GitHubCopilotEnterprise核心模块之一GitHubCopilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。站长网2024-02-28 09:15:590000gpt crawler:从URL爬取网站生成结构化知识,创建定制GPT
gptcrawler是一款强大的工具,能够将网站内容全面地爬取下来,并将其转换成结构化知识,为GPTs的学习提供了有力支持。站长网2023-11-21 10:49:150005消息称亚马逊投资数百万美元培训巨大AI模型“Olympus”
划重点:1️⃣亚马逊计划培训巨大的语言模型“Olympus”,希望能与OpenAI和Alphabet的顶级模型竞争。2️⃣“Olympus”拥有2万亿参数,有望成为目前最大的模型之一,OpenAI的GPT-4模型只有1万亿参数。3️⃣亚马逊的培训团队由前Alexa负责人RohitPrasad领导,该团队的目标是提供更吸引人的AWS服务,满足企业客户对顶级模型的需求。站长网2023-11-08 15:10:070000全球最快AI芯片WSE-3发布 性能碾压H100!
要点:1.全球最强AI芯片WSE-3发布,单机可训24万亿参数的模型,性能远超英伟达H100GPU。2.WSE-3采用4万亿晶体管5nm制程,具备90万个AI核心和44GB片上SRAM存储,峰值性能达到125FP16PetaFLOPS,并实现了单芯片集群级性能。站长网2024-03-15 09:42:450000