苹果最新研究:将有限内存推理速度提高25倍
站长网2023-12-21 11:04:570阅
近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。
本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载到DRAM,实现了高效运行LLMs的方法。
论文地址:https://arxiv.org/pdf/2312.11514.pdf
方法包括构建与闪存内存行为协调的推断成本模型,通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。
在这个框架内,引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输,行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。
这两种方法使得能够运行比可用DRAM容量大两倍的模型,相较于朴素加载方法,CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时,结合稀疏感知、上下文自适应加载和硬件导向设计,为在内存有限的设备上进行LLMs推断打开了新的可能性。
0000
评论列表
共(0)条相关推荐
澳洲联邦银行禁止员工使用 ChatGPT:改用内部自有 AI 系统
澳大利亚第一大银行澳洲联邦银行已禁止员工使用热门AI聊天机器人ChatGPT,并在内部采用自有AI系统。澳洲联邦银行首席数据和分析官AndrewMcMullan表示,过去三个月来该行修订了集团AI政策,明确规定员工不能在该行设备上使用ChatGPT,也不能将该行未公开的信息输入外部聊天机器人。站长网2023-06-08 13:35:480000悄悄向淘宝宣战,抖音电商迎来了新的转折点
时代的洪流来得迅猛且凶残,迅猛是因为它可以让刚踏入社会的年轻人靠踩中风口,借趋势完成原始资本积累和阶级跃迁;凶残是因为它也可以无情的淹没那些固步自封不愿改变的老顽固,让保守成为代价和遗憾。小道消息,抖音电商内部分成ABC三个组,A组是品牌客户,B组是产业带,C组是商城。改革了针对商家运营的考核标准——以品牌商家为主的A组更关注GMV;以白牌商家为主的B组更看重订单量。站长网2023-07-12 15:39:5700005000亿!微软宣布正式完成收购动视暴雪:史上最大收购案落下帷幕
快科技10月13日消息,英国竞争与市场管理局(CMA)当地时间周五发布声明,称已批准微软对动视暴雪修订后的收购交易,但不包括云游戏的版权。至此,这起游戏行业史上金额最大的收购案跨过了最后一座大山。微软在2022年1月份首次提出以687亿美元(约合5020亿元人民币)收购动视暴雪,但此后一直面临着美国、欧洲和英国等监管方面的挑战。站长网2023-10-13 16:18:120000小米Redmi K60手机将推16GB 1TB/256GB版本,搭载骁龙8
IT之家5月22日消息,小米官方今日宣布,RedmiK60手机将推出16GB1TB超大容量版本,明日9点正式发布。此外,RedmiK60也将迎来16GB256GB版本,16GB512GB版本也有新价格。IT之家汇总小米官网RedmiK60当前各版本价格如下:8GB256GB到手价2599元站长网2023-05-24 07:23:340000爽剧爆火,节点解析200万成本如何24小时创造2000万收益
过去四年时间,很久没有听到“鸡汤女神”咪蒙的消息,一则短剧的火爆,再次引出了背后的昔日鸡汤霸主。近日,主打复仇的古装短剧《黑莲花上位手册》上线后在短时间内上架、下架,引发业内外一片哗然,咪蒙又被动地博了一次眼球。《黑莲花上位手册》是一部主打庶女复仇的古装小程序短剧,讲述了女主角被家中亲人各种折磨后,成功复仇的故事。0001