登陆注册

多token

  • next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+

    【新智元导读】研究人员提出了一种新的大型语言模型训练方法,通过一次性预测多个未来tokens来提高样本效率和模型性能,在代码和自然语言生成任务上均表现出显著优势,且不会增加训练时间,推理速度还能提升至三倍。当前,大型语言模型,例如GPT和Llama,主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。但你有没有想过一个问题,为什么不对后文的tokens同时进行预测呢?
    站长网2024-06-03 20:16:36
    0000