登陆注册

大模型自我奖励

  • 大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

    人工智能的反馈(AIF)要代替RLHF了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。最近,来自Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。
    站长网2024-01-21 11:06:23
    0000