登陆注册

可高效低成本训练大模型

  • 斯坦福研究人员推出 Sophia 可高效低成本训练大模型

    斯坦福大学的研究人员开发了一种名为Sophia的新型优化器,可将语言模型的预训练时间缩短一半。相比于Adam优化器,Sophia可以更快地解决语言模型的问题。Sophia通过轻量级估计对角Hessian矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计Hessian的平均值来进行元素级别的剪切。
    站长网2023-07-26 16:13:05
    0000