登陆注册

增强大模型长文本能力居然还能这么做

  • 匿名论文提出奇招,增强大模型长文本能力居然还能这么做

    一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先前生成的内容不断作为输入来充当训练数据,以此保证知识被存进模型参数中。
    站长网2024-02-04 09:04:36
    0003