登陆注册

DeepMind新招让成本速降

  • 视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降

    Transformer架构已经在现代机器学习领域得到了广泛的应用。注意力是transformer的一大核心组件,其中包含了一个softmax,作用是产生token的一个概率分布。softmax有较高的成本,因为其会执行指数计算和对序列长度求和,这会使得并行化难以执行。
    站长网2023-09-20 09:17:03
    0000