AI打败AI!谷歌科学家用GPT-4 击败AI防篡改系统
站长网2023-08-01 17:07:430阅
Google 科学家进行一项实验研究,他们使用 OpenAI 的 GPT-4聊天机器人来攻破其他机器学习模型的安全防护措施。这项实验证明了聊天机器人作为研究助手的价值。
具体来说,谷歌 Deep Mind 的研究科学家 Nicholas Carlini在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了如何通过指导 GPT-4设计攻击方法并撰写攻击原理的文本,以欺骗 AI-Guardian 的防御机制。AI-Guardian 是一种防御对模型的攻击的系统,旨在检测可能被篡改的图像以欺骗分类器。
GPT-4会发出用于调整图像的脚本(和解释)来欺骗分类器——例如,让它认为某人拿着枪的照片是某人拿着无害苹果的照片——而不会引发 AI-Guardian 的怀疑。AI-Guardian 旨在检测图像何时可能被操纵以欺骗分类器,而 GPT-4的任务是逃避该检测。
通过 GPT-4的帮助,攻击者能够成功地破解 AI-Guardian 的防御,使其从98% 的稳健性降低到仅8%。然而,AI-Guardian 的开发者指出,这种攻击方法可能在改进的版本中失效。
据了解,GPT-4作为研究助手的价值在于它能够快速生成代码,并且不会分心或疲劳,始终可用于完成指定的任务。然而,依赖 GPT-4并不完全解除人类合作者的责任,因为它仍然需要人类提供正确的提示并修复生成的代码中的错误。
虽然 GPT-4还存在一些限制,但随着大型语言模型的改进,它们将为计算机科学家提供更多时间来开展有趣的研究问题。
论文地址:https://arxiv.org/abs/2307.15008
0000
评论列表
共(0)条相关推荐
非营利组织计划推出Fairly Trained认证计划,确保AI模型生成内容不侵权
**划重点:**1.🤖**认证标签推出:**非营利组织FairlyTrained计划为那些证明已获得版权许可的AI模型提供认证标签,以防侵犯版权。2.🏆**首个认证:**FairlyTrained已批准并颁发了第一个名为“LicensedModel”认证的标签,授予了在图像、音乐和语音生成领域工作的九家AI公司。站长网2024-01-18 14:19:390001英伟达为 GH200 超级芯片带来 HBM3e 解决生成式人工智能瓶颈
不到一年时间,生成式人工智能已经成为企业计算的主导影响力,因此处理器创新也需要快速推进。英伟达在宣布其新的GH200超级芯片(DGXGH200超级计算系统的基础)不到三个月后,已经对GH200进行了「提升」。英伟达联合创始人、总裁兼首席执行官黄仁勋在本周SIGGRAPH2023上发布了该芯片的「下一代」版本,具备更强大的内存功能。站长网2023-08-11 09:20:410000Mistral AI推首个代码生成模型Codestral 支持多种编程语言
MistralAI推出了其首个代码生成模型Codestral,这是一个功能强大的工具,旨在帮助开发者提高编码效率和质量。以下是Codestral的一些关键特性和优势:支持多种编程语言:Codestral能够支持超过80种编程语言,包括当前流行的语言如Python、Java、C、C、JavaScript和Bash,以及一些较少使用的如Swift和Fortran。站长网2024-05-30 10:37:500000司乘聊天被弹窗提醒?滴滴回应:纯属谣言
昨日,滴滴出行发布了一份《关于司乘聊天被弹窗提醒"的澄清说明》,针对近期网络上流传的视频,声称车内和司机聊收入会被滴滴弹窗提醒"的传闻进行了回应。滴滴表示,经过与司乘双方核实及对系统后台的仔细排查后,证实这一传闻纯属谣言。在该行程中,滴滴App并未出现所谓的弹窗提醒,更未就司乘交流内容有任何语音播报或提醒。目前该谣言的原发作者已删除不实内容。站长网2023-11-15 18:08:510000LG CNS 宣布与微软达成合作 开发基于 ChatGPT 平台的新服务
韩国云计算服务提供商LGCNS周二表示,它正在加强与美国科技巨头微软的联系,以加快在人工智能、基于云的数字化转型(简称DX)和其他联合项目方面的合作。该公司称,首席执行官HyunShin-gyoon当地时间4月6日在华盛顿州的公司总部会见了微软执行副总裁兼首席商务官JudsonAlthoff,参加了一次高级别管理会议——这是两家公司今年的第二次此类会议。站长网2023-04-13 11:36:160000