登陆注册
6888

卡内基梅隆大学提出一种有效攻击大语言模型的方法 成功率高达84%

站长网2023-08-02 11:51:500

最近,卡内基梅隆大学的研究人员提出了一种简单而有效的攻击方法,能够使大规模语言模型(LLM)产生不可接受的行为。他们的研究表明,通过在查询中添加后缀,可以大大增加开源和闭源语言模型生成肯定回答的可能性。

论文地址:https://llm-attacks.org/zou2023universal.pdf

研究人员成功地将这种攻击方法应用于各种语言模型,并在 Vicuna 上的99个实例中成功生成有害行为。对于其他语言模型,如 GPT-3.5和 GPT-4,成功率高达84%。

研究人员强调,随着自主系统的发展,防止这些模型受到此类攻击将变得非常重要。他们进一步指出,目前我们还没有有效的方法来阻止这种对抗性攻击,所以下一步是找出如何修复这些模型的方法。

0000
评论列表
共(0)条