登陆注册

训练时间长了还有

  • 谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力

    模型在达到一定规模时会出现涌现现象,谷歌的研究表明,模型在训练到一定时间后,会出现另一种现象,即「领悟」现象。2021年,研究人员在训练一系列微型模型时取得了一个惊人的发现,即模型经过长时间的训练后,会有一个变化,从开始只会「记忆训练数据」,转变为对没见过的数据也表现出很强的泛化能力。这种现象被称为「领悟(grokking)」,如下图所示,模型在长时间拟合训练数据后,「领悟」现象会突然出现。
    站长网2023-08-16 09:29:57
    0000