苹果最新研究:将有限内存推理速度提高25倍
站长网2023-12-21 11:04:570阅
近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。
本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载到DRAM,实现了高效运行LLMs的方法。
论文地址:https://arxiv.org/pdf/2312.11514.pdf
方法包括构建与闪存内存行为协调的推断成本模型,通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。
在这个框架内,引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输,行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。
这两种方法使得能够运行比可用DRAM容量大两倍的模型,相较于朴素加载方法,CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时,结合稀疏感知、上下文自适应加载和硬件导向设计,为在内存有限的设备上进行LLMs推断打开了新的可能性。
0000
评论列表
共(0)条相关推荐
评论数达10万!Redmi K70京东好评率超98%
小米公司王腾近日在微博上盛赞RedmiK70,称其为2-3K价位中口碑和销售最好的产品之一。据他透露,该机在京东平台上的评论数已达10万,好评率高达98%以上,如此出色的销量和口碑,背后正是其全面领先的产品力。王腾强调,RedmiK70在性能、屏幕和主摄方面都表现出色,堪称同档位无敌。该机还搭载了全新的小米澎湃OS,为用户带来流畅的体验,并可尽享小米全生态智能体验。0000苹果公司 CEO 库克再谈生成式人工智能:「我们正在投入大量资金」
站长之家(ChinaZ.com)11月3日消息:在今天涵盖2023财年第四季度的财报电话会议上,苹果高管与分析师和投资者举行了问答环节。苹果首席执行官TimCook被问及苹果如何可能实现生成式人工智能(AI)的商业化。虽然他拒绝对此发表评论,但他表示,苹果正在「大量投资」AI,并且将会有产品进步涉及生成式人工智能。站长网2023-11-03 10:16:010000李斌透露蔚来手机0广告原因:老婆已被国产手机广告整“疯”
快科技9月21日消息,今日蔚来正式推出首款手机NIOPhone,提供三个版本,售价6499元起,顶配7499元。与市面上其它手机不同的是,蔚来的NIOPhone实现了0系统广告和0商业预装。李斌表示:蔚来NIOPhone将不会搭载广告,也不会通过广告进行赚钱。”站长网2023-09-21 19:39:470000OpenAI神秘模型,再次被Sam Altman提及
5月6日,OpenAI首席执行官SamAltman在社交平台分享了一条推文“我是一个优秀的GPT-2聊天机器人”。而在4月30日,Altman就提起过该模型非常喜欢GPT-2。按道理说一个只有15亿参数在2019年发布的开源模型,被反复提及两次就很不寻常。更意外的是GPT-2曾短暂上榜LMSYS的聊天机器人竞技场性能媲美GPT-4、ClaudeOpus等模型。站长网2024-05-06 10:54:560001教育部:严禁学校引导学生指定渠道购买电子产品
站长之家(ChinaZ.com)5月14日消息:为进一步提升基础教育管理水平,确保学校安全稳定,近日,教育部办公厅发布了《关于开展基础教育“规范管理年”行动的通知》。该通知旨在通过明确“三项规范整治重点”和“十二条负面清单”,聚焦学校管理中存在的关键问题,切实筑牢教育安全防线,并强化师德师风建设。站长网2024-05-14 15:28:410000