超强大模型DEJAVU 推理速度是FasterTransformer的2倍
要点:
DEJAVU 是一个系统,采用一种经济高效的算法,结合异步和硬件感知实施,动态预测每一层的上下文稀疏性,从而提高大型语言模型(LLM)的推断速度。
研究团队通过引入上下文稀疏性的概念,动态修剪特定的注意力头和MLP参数,而无需改变预训练模型,以提高LLM在具有严格延迟约束的应用中的效率。
DEJAVU 通过硬件感知的稀疏矩阵乘法实施,显著降低了开源LLM(如OPT-175B)的延迟,超过了Nvidia的FasterTransformer库,并在小批量大小下超过了广泛使用的Hugging Face实现。
大型语言模型(LLM),如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。然而,它们在推断时的高成本是它们的显著缺点。为了解决这一挑战,研究团队提出了DEJAVU系统,该系统采用了一种经济高效的算法,结合异步和硬件感知的实施,动态预测每一层的上下文稀疏性,从而提高LLM的推断速度。

为了定义适用于LLM的理想稀疏性,研究团队提出了三个关键标准:不需要模型重新训练、保持质量和上下文学习能力以及提高现代硬件上的时钟时间速度。为了满足这些要求,他们引入了上下文稀疏性的概念,该概念包括产生与给定输入几乎相同结果的小型、依赖于输入的注意力头和MLP参数的子集,而无需完全模型。DEJAVU利用上下文稀疏性,使LLM在具有严格延迟约束的应用中更加高效。

具体来说,研究人员提出了一种低成本的、基于学习的算法,用于实时预测稀疏性。给定特定层的输入,该算法预测后续层中的相关注意力头或MLP参数的子集,并仅为计算加载它们。他们还引入了一种异步预测器,类似于经典的分支预测器,以减少顺序开销。通过引入硬件感知的稀疏矩阵乘法实施,DEJAVU显著降低了开源LLM(如OPT-175B)的延迟。它在端到端延迟上超过了Nvidia的FasterTransformer库,而在小批量大小下也超过了广泛使用的Hugging Face实现。
这项研究表明,DEJAVU有效地利用了异步前瞻预测器和硬件高效稀疏性,以提高LLM的时钟时间推断。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。
盘点最值得入手的三款“16 512”的大内存手机,性能高配置强!
如果您喜欢我的文章,欢迎您点击左上角的“关注”后续将第一时间为您带来最新手机资讯!现在随着各种手机软件厂商的不断更新换代,各种各样的手机软件也是变得越来越臃肿。而之前的8128等配置的内存已经明显变得不够用了,那么接下来我就来为大家推荐16512的大内存手机。足够让大家不会为手机存储不够,而陷入烦恼。参考价格:3299(16512)站长网2023-05-23 19:19:180001手机网盘工具玩客云APP宣布将于2月29日停止运营
手机网盘工具玩客云APP宣布,将于2024年2月29日停止运营。用户需在该日期前备份和存储玩客云设备中的文件。停止运营后,玩客云APP将无法登录并不再提供服务。建议用户寻找远程下载的替代方案,比如安装NAS迅雷或下载PC迅雷来进行远程下载任务。用户如有疑问可以联系玩客云官方客服。以下为公告全文:亲爱的玩客云用户:站长网2024-01-02 16:20:090000京东回应支持仅退款:需要先与相关商家协商达成一致
京东近日发布公告,自2023年12月29日起,用户在京东平台上申请退换货时将新增一项“仅退款”服务。根据京东客服的回应,用户在申请“仅退款”时,需要先与相关商家协商达成一致。这一规定是为了确保商家的权益,避免出现纠纷。值得一提的是,京东自营早在2014年就推出了“仅退款”服务,并一直沿用至今。此次新规将这一服务扩展到了所有入驻京东的商家,以实现更全面、更广泛的无忧购物体验。0000知乎发布三季度财报:付费会员大增35.9%!
快科技11月29日消息,今天,知乎发布了截至2023年9月30日的三季度财报,报告显示,三季度平均月付费会员达1480万人,较2022年同比增长了35.9%。具体财务数据为,知乎第三季度总收入为人民币10.222亿元,较2022年同期增长12.1%。净亏损为人民币2.784亿元,较2022年同期收窄6.5%;经调整后净亏损为人民币2.253亿元,较2022年同期收窄了10.1%。站长网2023-11-29 20:50:280000快手Q3一心赚钱、用户破新高,用AI盘活评论区| 财报解读
快手联合创始人兼CEO程一笑表示,“2023年第三季度,得益于核心业务收入增长、运营效率和ROI的持续提升,快手盈利能力稳步增长,用户新增和用户留存数据提升显著。展望未来,快手将进一步探索新的增长点,并赋能内容创作者、营销客户和商家。站长网2023-11-23 08:59:540000