CipherChat:一个评估 LLM 安全对齐泛化能力的框架
CipherChat 是一个AI 框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。
项目地址:https://github.com/RobustNLP/CipherChat
研究强调了在处理非自然语言(如密码)时创建安全对齐方法的重要性,以确保与基础 LLM 的能力相匹配。
通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验,研究发现一些密码能够成功规避 GPT-4的安全对齐程序,在某些安全领域几乎达到100% 的成功率。
研究还揭示了 LLM 中存在秘密密码的现象,研究团队推测 LLM 可能具有解密特定编码输入的潜在能力,从而暗示了一种独特的与密码相关的能力存在。基于这一观察,研究引入了一个名为 SelfCipher 的框架,通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。
产品特点:
1. CipherChat 是一个用于评估 LLM(语言模型)的安全对齐泛化能力的框架。
2. 该框架可以系统地检查安全对齐在非自然语言(如密码)上的普适性。
3. 提供了一个示例运行命令和参数说明。
4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式,实现了对安全对齐的规避。
5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。
6. 提供了实验结果和案例研究,以及消融研究和其他模型的讨论。
7. 可以在论文中找到更多详细信息,并提供了引用。
请注意:本产品仅供研究使用,严禁滥用。
中兴通讯:?未来重点投入大模型训练智算中心产品
昨日,中兴通讯在互动平台表示,在当前的数字经济时代,公司定位于“数字经济筑路者”,基于ICT端到端的全栈核心能力,包括芯片能力、硬件能力、操作系统能力、数据库能力、数字星云能力,围绕连接(CT技术)和算力(IT技术),从ICT产业维度、行业应用维度助力数字经济发展。其中,在ICT产业算力层面,公司将逐步从CT领域扩展至IT领域,形成覆盖IaaS、PaaS、SaaS的整体解决方案。站长网2023-04-24 08:21:440000iPhone16不送苹果logo贴纸:为保护环境
苹果公司在新一代iPhone16和iPhone16Pro的包装上进一步精简,除了不再提供数据线、充电器和耳机外,标志性的苹果Logo贴纸也不再标配。尽管如此,顾客在AppleStore线下直营店购买时,仍可要求店员提供苹果Logo贴纸。站长网2024-09-15 02:42:070000Jericho Security 获得300万美元融资,对抗生成式AI网络钓鱼威胁
本文概要:1.JerichoSecurity是一家人工智能网络安全初创公司,最近获得了300万美元的融资。2.JerichoSecurity的平台利用复杂的模拟和针对员工的教育内容,对抗生成式人工智能驱动的网络钓鱼攻击威胁。3.JerichoSecurity的解决方案通过使用先进的语言处理和私有托管的语言模型,为组织提供个性化服务和基本指标反馈。站长网2023-08-07 18:15:490001人工智能风口下,韩国Naver Cloud预计出口翻倍
**划重点:**1.🌐NaverCloud首席执行官表示,预计韩国NaverCloud的人工智能和云计算部门出口将在三年内至少翻一番,强调其AI服务可轻松定制以满足中国和美国以外地区买家需求。2.🇰🇷韩国是为数不多拥有基础人工智能模型的国家之一,Naver作为科技巨头在全球范围内与Alphabet的Google竞争,拥有主导地方搜索引擎的地位。0000OpenAI宫斗终极揭秘!内鬼女董事被曝抢先开除Altman,微软反成最大赢家
今天,外媒纽约客曝出长文揭秘OpenAI动乱始末,女董事HelenToner内鬼身份基本坐实,微软开启ABC三重plan,最终顺利摘桃成最大赢家。OpenAI动乱终极原因,疑似被揭秘!外媒纽约客长文曝出动乱始末,起因疑似是Altman和女董事HelenToner起了龃龉,Altman希望踢掉Helen,但不幸被Helen先发制人。站长网2023-12-03 10:10:060001