苹果最新研究:将有限内存推理速度提高25倍
站长网2023-12-21 11:04:570阅
近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。
本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载到DRAM,实现了高效运行LLMs的方法。
论文地址:https://arxiv.org/pdf/2312.11514.pdf
方法包括构建与闪存内存行为协调的推断成本模型,通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。
在这个框架内,引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输,行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。
这两种方法使得能够运行比可用DRAM容量大两倍的模型,相较于朴素加载方法,CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时,结合稀疏感知、上下文自适应加载和硬件导向设计,为在内存有限的设备上进行LLMs推断打开了新的可能性。
0000
评论列表
共(0)条相关推荐
周鸿祎宣布360安全大模型将发布 已在内部落地应用
在昨日的ISC2023第十一届互联网安全大会上,360创始人周鸿祎表示,360不仅有通用大模型,还围绕数字安全做了安全大模型。如果得到大家的认可,会在360的云化、安全大脑和安全云体系中内置这个安全大模型。站长网2023-08-10 11:00:440000谷歌开发实时渲染大型三维场景技术SMERF
Google团队开发了一种名为SMERF的技术,可以在最大300平方米的房间内实时创建非常逼真的三维场景,其精度达到厘米级别。这项技术的最大特点是,它可以在普通智能手机和笔记本电脑上实现60fps或更高的速度实时渲染,并提供完整的六自由度(6DOF)3D导航体验。站长网2023-12-15 14:49:150001最强编辑器 Vim 之父 Bram Moolenaar 去世,Vim 项目谁来接管?
「如果有一天,开源项目的开发者、维护者出现了意外,遗留的项目该何去何从?」虽然这并不是一个新出现的话题,但是对于主流的文本/代码编辑器Vim而言,却是当下迫切需要解决的问题。8月5日,Vim之父BramMoolenaar的家人发布讣告:“我们怀着沉重的心情通知您,BramMoolenaar于2023年8月3日离世”,享年62岁。站长网2023-08-11 17:58:430000ComfyUI工作流管理插件Comfyspace更新 支持将工作流程批量导入到工作区
Comfyspace是一款非常实用的工作流管理插件,近期进行了一系列的更新,使其功能更加强大。如果你曾经遇到过工作流管理和使用的问题,那么不妨试试这个插件。项目地址:https://github.com/11cafe/comfyui-workspace-manager站长网2024-01-08 09:55:590002淘宝时光机活动上线 可查询20年以来消费总额
近日,淘宝时光机活动正式开启,活动时间为2023年05月04日00:00:00-2023年05月15日23:59:59,消费者可以查询20年以来在淘宝消费的所有金额。活动时间内,符合参与条件的用户登录手机淘宝APP首页,搜索[淘宝时光机]进入活动页面,根据页面提示即有机会参与本活动。站长网2023-05-08 16:53:200000