CipherChat：一个评估 LLM 安全对齐泛化能力的框架

站长网2023-08-19 16:02:101阅

CipherChat 是一个AI 框架，旨在系统地研究将安全对齐方法应用于非自然语言（具体来说是密码）的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示，使人类与 LLM(Large Language Models)进行交互，全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。

项目地址:https://github.com/RobustNLP/CipherChat

研究强调了在处理非自然语言（如密码）时创建安全对齐方法的重要性，以确保与基础 LLM 的能力相匹配。

通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验，研究发现一些密码能够成功规避 GPT-4的安全对齐程序，在某些安全领域几乎达到100% 的成功率。

研究还揭示了 LLM 中存在秘密密码的现象，研究团队推测 LLM 可能具有解密特定编码输入的潜在能力，从而暗示了一种独特的与密码相关的能力存在。基于这一观察，研究引入了一个名为 SelfCipher 的框架，通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。

产品特点:

1. CipherChat 是一个用于评估 LLM（语言模型）的安全对齐泛化能力的框架。

2. 该框架可以系统地检查安全对齐在非自然语言（如密码）上的普适性。

3. 提供了一个示例运行命令和参数说明。

4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式，实现了对安全对齐的规避。

5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。

6. 提供了实验结果和案例研究，以及消融研究和其他模型的讨论。

7. 可以在论文中找到更多详细信息，并提供了引用。

请注意:本产品仅供研究使用，严禁滥用。

CipherChat一个评估LLM安全对齐泛化能力的框架

0001

评论列表

共(0)条

相关推荐

站长资讯
谷歌大杀器终于来了，最大规模Gemini震撼发布：真超GPT4，三大版本，手机直接可用
时代变了?迄今为止规模最大，能力最强的谷歌大模型来了。当地时间12月6日，谷歌CEO桑达尔・皮查伊官宣Gemini1.0版正式上线。这次发布的Gemini大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级:能力最强的GeminiUltra，适用于多任务的GeminiPro以及适用于特定任务和端侧的GeminiNano。
站长网2023-12-07 09:14:29
0000
站长资讯
小米Civi4 Pro将于3月21日发布：搭载骁龙8s Gen3 支持徕卡光学
小米官方今日宣布，小米XiaomiCivi4Pro发布会定于3月21日14:00举行。即将发布的小米Civi4Pro手机将全球首发搭载骁龙8sGen3处理器，并与澎湃OS进行深度融合，实现影像、性能、AI能力的全面升级。
站长网2024-03-19 11:58:28
0000
站长资讯
超级黑马首日吸金7500万：全是老套路，但就是不好抄
都说IP漫改游戏难成功，但最近，却有人打破了诅咒，刚上线就赚得盆满钵满。据韩媒GameDonga，在5月9日、全球公测后的第二天，韩国Netmarble（网石）的IP漫改动作RPG游戏《我独自升级:起立(SoloLeveling:Arise)》(下称《我独》)，进入27个国家/地区的iOS畅销Top10。
站长网2024-05-17 14:22:48
0000
站长资讯
小米向小米13 Ultra用户推送澎湃OS正式版
根据小米社区网友的反馈，小米向小米13Ultra手机推送了澎湃OS正式版更新。这次更新为手机带来了一系列新的功能和特性，使得用户体验得到了进一步提升。根据更新日志，澎湃OS正式版的关键任务识别染色技术能够根据任务的重要程度动态管控资源分配，从而实现更强的性能和更低的功耗。此外，该版本还实现了全面的系统底层重构，将自研的Vela系统内核与深度修改的Linux系统内核进行了融合。
站长网2023-12-15 13:53:11
0000
粉嫩清爽联想moto发布moto razr 40 Ultra柔和桃限定版
12月8日，联想moto正式发布了motorazr40Ultra柔和桃限定版。这款手机在小折叠领域诠释了2024年的时尚态度。作为Pantone2024年度代表色，柔和桃呈现出清新的蜜桃色调，包含粉红色和橘色之间的舒适感受，给人以宁静而感性的体验。
站长网站长资讯2023-12-09 09:22:26
0002