登陆注册

研究人员成功欺骗大语言模型提供禁止的回答

  • 研究人员成功欺骗大语言模型提供禁止的回答 包括干扰选举等

    本文概要:1.研究人员发现可以通过修改请求的措辞,轻松绕过大型语言模型的保护性障碍。2.插入一个简短的文本段落可以引导聊天机器人回答被禁止的查询。3.研究人员成功引导模型回答了关于如何犯税务欺诈、如何干扰选举、如何制作炸弹和非法药物的问题。匹兹堡卡内基梅隆大学的研究人员发现,通过在用户的输入后插入简短的文本,可以轻松引导大型语言模型回答被禁止的查询。
    站长网2023-08-07 15:20:49
    0000