登陆注册

MIT斯坦福Transformer最新研究

  • MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”

    要点:经过过度训练,中度模型如Transformer表现出结构性泛化能力,被称为"结构顿悟"(StructuralGrokking)。研究发现,对于Transformer类模型,长时间训练后,模型在泛化到新结构输入时能够有效地捕捉到句子的层级结构。结果显示,模型的深度对结构顿悟呈倒U形缩放,中深度模型的泛化能力较深度和浅度模型更强。
    站长网2023-12-08 15:01:40
    0000