登陆注册

可高效扩展现有大模型的上下文窗口长度

  • YaRN:可高效扩展现有大模型的上下文窗口长度

    要点:1、YaRN是一种计算高效的方法,可以扩展基于transformer的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的token和2.5倍更少的训练步骤。2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。
    站长网2023-09-08 14:36:16
    0001