超强大模型DEJAVU 推理速度是FasterTransformer的2倍
要点:
DEJAVU 是一个系统,采用一种经济高效的算法,结合异步和硬件感知实施,动态预测每一层的上下文稀疏性,从而提高大型语言模型(LLM)的推断速度。
研究团队通过引入上下文稀疏性的概念,动态修剪特定的注意力头和MLP参数,而无需改变预训练模型,以提高LLM在具有严格延迟约束的应用中的效率。
DEJAVU 通过硬件感知的稀疏矩阵乘法实施,显著降低了开源LLM(如OPT-175B)的延迟,超过了Nvidia的FasterTransformer库,并在小批量大小下超过了广泛使用的Hugging Face实现。
大型语言模型(LLM),如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。然而,它们在推断时的高成本是它们的显著缺点。为了解决这一挑战,研究团队提出了DEJAVU系统,该系统采用了一种经济高效的算法,结合异步和硬件感知的实施,动态预测每一层的上下文稀疏性,从而提高LLM的推断速度。
为了定义适用于LLM的理想稀疏性,研究团队提出了三个关键标准:不需要模型重新训练、保持质量和上下文学习能力以及提高现代硬件上的时钟时间速度。为了满足这些要求,他们引入了上下文稀疏性的概念,该概念包括产生与给定输入几乎相同结果的小型、依赖于输入的注意力头和MLP参数的子集,而无需完全模型。DEJAVU利用上下文稀疏性,使LLM在具有严格延迟约束的应用中更加高效。
具体来说,研究人员提出了一种低成本的、基于学习的算法,用于实时预测稀疏性。给定特定层的输入,该算法预测后续层中的相关注意力头或MLP参数的子集,并仅为计算加载它们。他们还引入了一种异步预测器,类似于经典的分支预测器,以减少顺序开销。通过引入硬件感知的稀疏矩阵乘法实施,DEJAVU显著降低了开源LLM(如OPT-175B)的延迟。它在端到端延迟上超过了Nvidia的FasterTransformer库,而在小批量大小下也超过了广泛使用的Hugging Face实现。
这项研究表明,DEJAVU有效地利用了异步前瞻预测器和硬件高效稀疏性,以提高LLM的时钟时间推断。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
在最近的IDC报告《ApplicationsofGenerativeAIinCustomerExperience(生成式AI在客户体验中的应用)》中,IDC讨论了生成式人工智能(GenAI)在客户体验(CX)领域的应用,并探讨了其对CX的影响。IDC的FERS2023调查结果显示,亚太地区70%的高管正在探索生成式人工智能的应用案例或已经进行投资。站长网2023-07-12 09:10:010000AI生成的新闻主播正在成为印度头条新闻
人工智能生成的新闻主播在印度引起了轰动。据外媒报道,印度的新闻频道和数字平台OdishaTV最近测试了人工智能生成的新闻主播Lisa。Lisa的声音单调,眼睛眨眼时也不会完全闭上,她会定期播报网络新闻头条。Lisa是过去三个月印度新闻网络中添加的两个多语言聊天机器人之一。Sana是另一位人工智能生成的新闻主播,为《今日印度》集团旗下的AajTak网络“工作”。站长网2023-07-26 16:13:050000周鸿祎向小杨哥学直播带货,总裁为何扎堆抖音电商?
“红衣大叔”周鸿祎为自家品牌代言,在直播带货上又迈进一步。7月27日晚,周鸿祎现身抖音电商头部作者@疯狂小杨哥直播间,开播一小时,直播间人数突破300万,最高同时在线人数突破35万,#周鸿祎来三只羊学习直播带货了这一话题登上种草榜TOP5。周鸿祎的这场直播带货有何不一般?克劳锐发现越来越多总裁开始为自家品牌直播带货,这种新型直播方式对行业产生了什么影响?站长网2024-07-30 08:59:470000Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来
Llama3来了!就在刚刚,Meta官网上新,官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示,Llama38B和70B版本在各自参数规模上超越一众对手。8B模型在MMLU、GPQA、HumanEval等多项基准上均胜过Gemma7B和Mistral7BInstruct。站长网2024-04-19 09:21:180000奖金8000!富士康招工2400人仅260人报名 为何大家反应冷淡?
离iPhone15系列发布还有三个月的时间,目前富士康的工人已经开始繁忙起来。有知情者透露,郑州富士康正在试制iPhone15系列,并需要增加大量的工人,但目前的情况并未达到人力资源需求。站长网2023-06-15 09:55:280000