超强大模型DEJAVU 推理速度是FasterTransformer的2倍
要点:
DEJAVU 是一个系统,采用一种经济高效的算法,结合异步和硬件感知实施,动态预测每一层的上下文稀疏性,从而提高大型语言模型(LLM)的推断速度。
研究团队通过引入上下文稀疏性的概念,动态修剪特定的注意力头和MLP参数,而无需改变预训练模型,以提高LLM在具有严格延迟约束的应用中的效率。
DEJAVU 通过硬件感知的稀疏矩阵乘法实施,显著降低了开源LLM(如OPT-175B)的延迟,超过了Nvidia的FasterTransformer库,并在小批量大小下超过了广泛使用的Hugging Face实现。
大型语言模型(LLM),如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。然而,它们在推断时的高成本是它们的显著缺点。为了解决这一挑战,研究团队提出了DEJAVU系统,该系统采用了一种经济高效的算法,结合异步和硬件感知的实施,动态预测每一层的上下文稀疏性,从而提高LLM的推断速度。
为了定义适用于LLM的理想稀疏性,研究团队提出了三个关键标准:不需要模型重新训练、保持质量和上下文学习能力以及提高现代硬件上的时钟时间速度。为了满足这些要求,他们引入了上下文稀疏性的概念,该概念包括产生与给定输入几乎相同结果的小型、依赖于输入的注意力头和MLP参数的子集,而无需完全模型。DEJAVU利用上下文稀疏性,使LLM在具有严格延迟约束的应用中更加高效。
具体来说,研究人员提出了一种低成本的、基于学习的算法,用于实时预测稀疏性。给定特定层的输入,该算法预测后续层中的相关注意力头或MLP参数的子集,并仅为计算加载它们。他们还引入了一种异步预测器,类似于经典的分支预测器,以减少顺序开销。通过引入硬件感知的稀疏矩阵乘法实施,DEJAVU显著降低了开源LLM(如OPT-175B)的延迟。它在端到端延迟上超过了Nvidia的FasterTransformer库,而在小批量大小下也超过了广泛使用的Hugging Face实现。
这项研究表明,DEJAVU有效地利用了异步前瞻预测器和硬件高效稀疏性,以提高LLM的时钟时间推断。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。
裁员一万转身拥抱AI,Meta又要改名了
“Meta进军AI,能行吗?”作者|Eric编辑|Zuri首图来源:TheNewYorkTImes美国科技四巨头中,如今就属Meta最显落寞了。站长网2023-04-17 18:34:240000企业帝国的优势,马斯克详解如何打造“特立独行”的AI?
凤凰网科技讯《AI前哨》北京时间7月15日消息,特斯拉CEO埃隆马斯克(ElonMusk)周五在推特上举办音频直播活动,阐述了他将如何开发心目中的理想人工智能(AI)。他计划发挥旗下企业帝国的优势,利用推特的数据训练AI,开发AI所需要的软硬件则依靠特斯拉。马斯克称,他的AI不会搞“政治正确”,要理解现实世界,而不仅仅是互联网。0003DeepMind最新Nature论文被爆重大缺陷 AI没弄出新化合物还弄错成分
近日,谷歌DeepMind团队与其他团队联合发表的一篇论文声称AI可以自主创造合成物,引发了广泛讨论。然而,伦敦大学的一位化学教授发现了这篇论文中严重的缺陷,指出其材料表征存在问题,并建议撤回该论文。论文中介绍了AI在短短17天内合成了41种新材料的成果。然而,RobertPalgrave教授发现AI制作了3种已有90年历史的化合物,并且还弄错了它们的成分。这引发了对论文中材料表征的质疑。站长网2023-12-07 09:56:020000好奇的心上头!9月13日苹果发布会新品全曝光:iPhone 15系列5999元起、21项重大升级
快科技9月3日消息,苹果官方已经定于北京时间9月13日凌晨1点举办新品发布会,主题为好奇心上头”,届时iPhone15系列将如约登场。据悉,此次发布会和去年一样采用提前录制的形式。当然,苹果依然会邀请媒体到ApplePark现场,提供新品体验区。用户可以通过苹果官方网站,iPhone,iPad,Mac和AppleTV上的电视应用程序观看。站长网2023-09-03 08:43:300000美国议员提案防伪法案:保护演员和歌手免受未经授权AI复制品侵害
划重点:🔍美国一项跨党派提案旨在创建联邦法律,以保护演员、音乐家和其他表演者免受其面孔或声音的未经授权数字复制品的侵害。🔍该提案标准化了有关使用个人面孔、姓名和声音的规则,允许在新闻、公共事务、体育广播、纪录片或传记作品的情况下制作数字复制品,但需获得适用个人或权利持有人的同意。站长网2023-10-13 10:14:090000