研究人员推出压缩框架QMoE:可将1.6万亿参数模型高效压缩20倍
要点:
1. ISTA的研究人员提出了QMoE模型量化方法,可以将1.6万亿参数的SwitchTransformer压缩至160GB以下,每参数仅0.8位,实现了高达20倍的压缩率。
2. 这种压缩框架通过专门设计的GPU解码内核实现,能在一天内将庞大的模型压缩至适用于4张英伟达RTX A6000或8张英伟达RTX3090GPU的大小,而开销不到未压缩模型的5%。
3. QMoE采用了数据依赖的量化方法,实现了高效的压缩,即使在极低位宽下,仍能维持准确性,适用于大规模的混合专家架构模型。
最新研究来自ISTA的科学家提出了一种创新的模型量化方法,称为QMoE,可以将庞大的1.6万亿参数SwitchTransformer压缩到令人难以置信的160GB以下,每个参数仅占用0.8位。这一方法实现了高达20倍的压缩率,为解决大型模型的高昂成本和内存需求问题提供了新的解决方案。
GPT-4等大型模型的发展使混合专家架构(MoE)成为研究的焦点。虽然MoE可以显著提高模型的准确性和训练速度,但由于庞大的参数数量,需要大量的显存才能运行这些模型。例如,1.6万亿参数的SwitchTransformer-c2048模型需要3.2TB的GPU显存。为解决这一问题,ISTA的研究人员提出了QMoE,这一框架利用专门设计的GPU解码内核,实现了高效的端到端压缩推理。
论文地址:https://arxiv.org/pdf/2310.16795.pdf
QMoE的独特之处在于采用了数据依赖的量化方法,允许在底层的位宽下实现高度压缩,同时仍能维持准确性。实验结果表明,即使在仅有2位或三元精度的情况下,与未压缩模型相比,精度的损失非常小。这一研究的成果为大规模混合专家架构模型的高效压缩和执行提供了新的可能性,将其适用于消费级GPU服务器,减少了内存开销,并降低了运行成本。
尤其令人印象深刻的是,QMoE的高效性,小型模型甚至可以在一小时内完成压缩,而大型模型如c2048也只需要不到一天的时间。虽然在执行速度方面与未压缩模型相比略有下降,但这一方法在大规模模型的压缩方面具有重要潜力。总的来说,QMoE为解决大型模型的内存需求问题提供了创新的解决方案,实现了高度的压缩和高效的执行。
然而,这项研究也存在一些局限性,因为目前公开可获得的大规模精确MoE模型数量有限,因此需要更多的研究和实验来进一步验证其适用性。这一创新性研究将有望为未来的深度学习和大型模型研究开辟新的方向。
一文盘点2023年度最热AI应用,打工人必备!建议收藏
*今日头图使用MidjourneyV6生成,描述:whimsicaldioramacollage,surrealism,aboysittinginfrontofacomputeratnightlookingatbeautifulstarryskyoutofthewindow,--ar16:92023年,是AI行业的一个分水岭。站长网2024-01-12 18:25:080002315曝光三家主板机公司均被查封 涉嫌电信诈骗
快科技3月16日消息,央视315晚会曝光主板机黑灰产业链,利用废旧手机主板生产主板机”,制造网络水军,甚至随意更改IP逃避监管。厂家宣称,他们的产品可以将20块手机主板,安装在同一个主板机箱内,组装成一台主板机,一台机子就可以控制20部手机。不断叠加起来,就可以组建成千上万台手机的网络矩阵,有这样的设备,可以操纵游戏、发帖数量、网络投票等。0000OpenAI CEO:AI可以提高员工生产力 但也会制造更多失业
OpenAI的首席执行官SamAltman说,生成型人工智能技术,如ChatGPT,可能会在未来几年提高许多员工的生产力,但也有可能导致一些人失去工作。站长网2023-07-28 17:15:280000业界领先的这些大模型,都被一家「收编」了
毋庸置疑,GPT-4发布是一件足以载入AI史册的大事件。但随着时间的推移,人们也发现,即使是最先进的大模型也还没有强大到可以把所有的事情都做完。比如,如果你把一份很长的文本粘贴到GPT-4的对话框,它会告诉你文本过长,处理不了(它支持的上下文窗口仅为32ktoken,约2.5万汉字)。站长网2023-10-14 09:13:270000奥特曼回归OpenAI后首次公开露面 称AI进步“有点吓人”
据外媒报道,山姆·奥特曼(SamAltman)周一在一场公开论坛上首次露面,这是他在“OpenAI政变风波”后重新出任该公司CEO后首次公开露面。奥特曼在论坛上接受了采访,他再度谈到了人工智能,将由AI引发的技术革命描述为“与此前不同、有点吓人”。0000