登陆注册

比Transformer更好的模型架构

  • 比Transformer更好的模型架构?Monarch Mixer更低成本取得更优表现

    要点:1.MonarchMixer(M2)是一种新的模型架构,与传统的Transformer不同,它通过使用Monarch矩阵替代注意力和MLP,使之在语言和图像实验中以更低的成本取得了更优的表现。2.MonarchMixer的关键创新点在于其次二次的复杂度,使其能够处理更长的序列和更高维度的表征,同时保持计算效率。
    站长网2023-10-30 09:38:00
    0000