登陆注册

将有限内存推理速度提高25倍

  • 苹果最新研究:将有限内存推理速度提高25倍

    近年来,大型语言模型(LLMs)在自然语言处理任务中表现卓越,但其对计算和内存的高需求对于内存有限的设备构成了挑战。本文提出了一种在设备内存有限的情况下,通过将模型参数存储在闪存中,并在推断时按需将其加载到DRAM,实现了高效运行LLMs的方法。论文地址:https://arxiv.org/pdf/2312.11514.pdf
    站长网2023-12-21 11:04:57
    0000