苹果最新研究:将有限内存推理速度提高25倍
站长网2023-12-21 11:04:570阅
近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。
本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载到DRAM,实现了高效运行LLMs的方法。

论文地址:https://arxiv.org/pdf/2312.11514.pdf
方法包括构建与闪存内存行为协调的推断成本模型,通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。
在这个框架内,引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输,行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。
这两种方法使得能够运行比可用DRAM容量大两倍的模型,相较于朴素加载方法,CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时,结合稀疏感知、上下文自适应加载和硬件导向设计,为在内存有限的设备上进行LLMs推断打开了新的可能性。
0000
评论列表
共(0)条相关推荐
高君雨事件MCN公司致歉:时间表述出现严重错误
3月12日,知名MCN机构@豁然开朗mcn就近期引起热议的“高君雨患病”视频事件发布了一则诚挚的致歉声明。该声明表示,公司原意是希望借助该视频展示高君雨勇敢面对疾病的态度,为更多人带去正能量和鼓舞。站长网2024-03-12 17:55:130000抖音电商新功能也向低价竞争说“不”!
8月6日,抖音电商宣布在商家后台新增了「破价风险」预警拦截功能,旨在保护商家免受非预期低价销售带来的经济损失。在激烈竞争的电商行业中,价格战一直是商家和平台争夺市场份额的主要手段,而抖音这一功能的上线,或意味着平台正在努力摆脱过度依赖低价竞争的模式,转而寻求更加健康和可持续的商业环境。01对价格过低风险商品将发出预警站长网2024-08-08 20:51:030000视频生成新突破!PixelDance还可以做复杂动作和特殊效果
要点:PixelDance是一项新的视频生成技术,相较于其他模型,它在生成高度一致性和丰富动态性的视频方面取得了显著的进展,引起了广泛关注。PixelDance提供基础模式和高级魔法模式两种生成模式。基础模式仅需一张指导图片和文本描述,而高级魔法模式则需要两张指导图片,为用户提供更大的创造空间。这两种模式均能产生复杂、生动的视频效果。站长网2023-11-24 14:33:000000谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍
谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPUv5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元(TPU),用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器(GPU)的尝试。站长网2024-01-29 10:41:150000赛诺菲与 Aqemia 达成 1.4 亿美元研究合作协议:利用 AI 加速发现创新药物
法国制药技术公司Aqemia宣布已与行业巨头全球制药公司赛诺菲达成价值高达1.4亿美元的多年研究合作协议。图源备注:图片由AI生成,图片授权服务商Midjourney该合作旨在发现跨多个治疗领域的小分子药物候选物。AQEMIA将利用其独特的平台,结合深度物理学和生成式AI,以大规模识别赛诺菲感兴趣的治疗目标的正确化学分子。站长网2023-12-06 10:42:180000