超强大模型DEJAVU 推理速度是FasterTransformer的2倍
要点:
DEJAVU 是一个系统,采用一种经济高效的算法,结合异步和硬件感知实施,动态预测每一层的上下文稀疏性,从而提高大型语言模型(LLM)的推断速度。
研究团队通过引入上下文稀疏性的概念,动态修剪特定的注意力头和MLP参数,而无需改变预训练模型,以提高LLM在具有严格延迟约束的应用中的效率。
DEJAVU 通过硬件感知的稀疏矩阵乘法实施,显著降低了开源LLM(如OPT-175B)的延迟,超过了Nvidia的FasterTransformer库,并在小批量大小下超过了广泛使用的Hugging Face实现。
大型语言模型(LLM),如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。然而,它们在推断时的高成本是它们的显著缺点。为了解决这一挑战,研究团队提出了DEJAVU系统,该系统采用了一种经济高效的算法,结合异步和硬件感知的实施,动态预测每一层的上下文稀疏性,从而提高LLM的推断速度。
为了定义适用于LLM的理想稀疏性,研究团队提出了三个关键标准:不需要模型重新训练、保持质量和上下文学习能力以及提高现代硬件上的时钟时间速度。为了满足这些要求,他们引入了上下文稀疏性的概念,该概念包括产生与给定输入几乎相同结果的小型、依赖于输入的注意力头和MLP参数的子集,而无需完全模型。DEJAVU利用上下文稀疏性,使LLM在具有严格延迟约束的应用中更加高效。
具体来说,研究人员提出了一种低成本的、基于学习的算法,用于实时预测稀疏性。给定特定层的输入,该算法预测后续层中的相关注意力头或MLP参数的子集,并仅为计算加载它们。他们还引入了一种异步预测器,类似于经典的分支预测器,以减少顺序开销。通过引入硬件感知的稀疏矩阵乘法实施,DEJAVU显著降低了开源LLM(如OPT-175B)的延迟。它在端到端延迟上超过了Nvidia的FasterTransformer库,而在小批量大小下也超过了广泛使用的Hugging Face实现。
这项研究表明,DEJAVU有效地利用了异步前瞻预测器和硬件高效稀疏性,以提高LLM的时钟时间推断。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。
AI算力70年增长6.8亿倍,3个历史阶段见证AI技术指数级爆发
【新智元导读】一张图揭示了AI算力70多年发展了6.7亿倍,未来AI各方面能力将全面超越人类,而真正令人期待的是,AI行业才刚刚进入爆发前的萌芽期。电子计算机于上世纪40年代诞生,而在计算机出现后的10年内,人类历史上的第一个AI应用就出现了。70多年过去了,AI模型现在不仅能写诗,还能根据文本提示生成图像,甚至是帮助人类发现未知的蛋白质结构。站长网2023-09-25 15:33:480000抖音新规:禁止公益类账号变现 不得直播打赏、电商销售
在短视频领域,有些创作者利用互联网平台,试图以“助农”“助困”“助残”为由,通过编造不实“贫困生活”“破旧住房”等场景,实施虚假“捐赠救助”等“公益”行为,骗取流量、钱财和爱心,影响恶劣。近日,抖音更新了关于抖音公益内容治理的最新规范。新规明确要求,“公益类账号,不得进行直播打赏、电商销售等营利性行为。”站长网2023-06-03 10:46:240000快乐的Threads,终究干不过愤怒的推特?
Threads传来坏消息。研究公司SensorTower表示,11-12日该平台的每日活跃用户数量相比8日同期已下滑约20%,用户使用时间几乎“砍半”,从20分钟减少到现在的10分钟。SimilarWeb最新数据也反映出类似的趋势。截至7月10日,美国用户在Threads上花费的时间从7月6日的约20分钟减少至7月10日的约8分钟。站长网2023-07-16 12:48:390000ambientGPT:开源多模态MacOS基础模型操作界面 可调用GPT-4o API
划重点:⭐AmbientGPT可以运行GPT-4和本地基础模型,并直接了解屏幕环境,使基础模型不再局限于浏览器。⭐使用AmbientGPT,屏幕上下文将直接作为查询的一部分进行推断,无需再次显式上传上下文。⭐若要运行本地模型,需要使用ARM64MacBook,并使用兼容的OpenAIAPI密钥。站长网2024-05-24 10:21:030000AI进军体育圈?自动识别比赛场景生成“真人”解说
最近,一项新技术引起了人们的关注,它使用OpenAI多项技术,能够以令人信服的方式自动生成体育比赛的解说。这个技术可以自动识别比赛中的场景,包括球员的位置和行动、球的位置和轨迹,甚至比赛的得分等等。除此之外,它还可以根据比赛的进展和结果,实时生成解说的内容和语气,使得解说更加生动有趣。这一项技术的应用前景十分广阔,有望应用于体育直播和体育游戏等领域。站长网2023-11-10 10:36:020000