登陆注册

用于调整LLM与人类偏好对齐

  • DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐

    文章概要:1.ReST是一种新方法,通过成长式批量强化学习来调整大型语言模型与人类偏好保持一致。2.ReST使用基于奖励模型的评分函数来过滤策略生成的样本,奖励模型通过学习人类偏好得到。3.ReST内循环使用离线强化学习目标(如DPO)进行策略优化,外循环通过采样增长数据集。
    站长网2023-08-29 14:27:21
    0001