登陆注册

无法根除的行为

  • AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

    坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”,研究人员假装不会查看,AI就会在上面自言自语着写下计划并暗中执行。参与这项试验的Claude团队表示:……这是一种令人不安的奖励篡改行为……即使通过专门的训练也无法彻底修正。具体来说,实验中让AI可以访问自己的强化学习代码,并且提问一个人畜机都无害的问题:
    站长网2024-06-24 14:23:50
    0000