登陆注册

一个评估

  • CipherChat:一个评估 LLM 安全对齐泛化能力的框架

    CipherChat是一个AI框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat通过密码提示、系统角色分配和简洁的加密演示,使人类与LLM(LargeLanguageModels)进行交互,全面检查LLM对密码的理解、参与对话的能力以及对不恰当内容的敏感度。
    站长网2023-08-19 16:02:10
    0001