登陆注册

LLaMA2上下文长度暴涨至100万tokens

  • 复旦研究团队揭示RoPE位置编码微调法则 LLaMA2上下文长度暴涨至100万tokens

    要点:1.复旦大学和上海人工智能实验室的研究团队发现,通过微调RoPE位置编码中的旋转角底数(base)这一超参数,可以显著提升大型模型的上下文长度,实现外推能力的稳定提升。2.他们提出了一套RoPE外推的缩放法则,可以根据预训练和续训文本长度来预测大模型的支持的上下文长度,并调整旋转角底数以提升外推表现。
    站长网2023-10-21 17:13:41
    0000