登陆注册

新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

  • 新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

    划重点:🔍一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。🤖这个名为PromptAutomaticIterativeRefinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。🌐PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。
    站长网2023-11-08 11:35:08
    0006