研究人员发布了针对ChatGPT和其他LLM的攻击算法
卡内基梅隆大学(CMU)的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。
与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:
也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。
随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际的提示,要求有害响应。
接下来,算法通过使用贪婪坐标梯度(GCG)方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM
小米双11战报公布:全渠道支付金额破224亿元 创历年大促新纪录
快科技11月12日消息,据小米公司官微消息,小米公布了双11销售业绩。截至2023年11月11日23:59:59,小米双11全渠道支付金额破224亿元,创历年大促新纪录。值得注意的是,在这个双11期间,小米14获四大平台国产手机冠军,销量爆火。站长网2023-11-12 10:15:050000苹果将用自研模型Ajax优化iOS 18 不会推出类ChatGPT聊天机器人
苹果公司正致力于通过其自研的大语言模型Ajax来革新和增强iOS18的用户体验。站长网2024-05-06 18:50:090000马斯克xAI全球招聘:高工资不算啥 居然有无限期带薪休假
快科技7月23日消息,埃隆马斯克的人工智能初创公司xAI近日在全球范围内启动招聘,提供了包括AI工程师和各类主管人员在内的近30个岗位。除了提供具有竞争力的薪酬和股权激励,xAI的福利待遇也颇为引人注目,甚至经过批准还能享受无限期带薪休假。站长网2024-07-24 21:45:210000远离元宇宙后 扎克伯格财富增长了3000亿全球最多
凤凰网科技讯北京时间5月20日消息,去年,脸书创始人马克扎克伯格(MarkZuckerberg)全力押注“元宇宙”,愿意不惜一切代价来主导虚拟现实世界。结果,这让他付出了巨大的代价。他的财富一度从最高点下降了1000多亿美元。对于几年前还是世界第三富豪的他来说,这是一个惊人的财富蒸发速度。站长网2023-05-20 10:54:410000TidyBot:GPT-3 驱动的适用于日常清洁人工智能家务机器人
研究人员创建了一款可以洗衣服和打扫家务的机器人。该机器人是由普林斯顿大学和哥伦比亚大学的研究人员联合研发的,被称为「TidyBot」,适用于日常清洁。根据研究论文,它能够有效地从地上收拾物品,并根据特定的命令放置它们到指定位置。TidyBot的创造者首先创建了一个特定命令的文本数据集,然后让GPT-3按照这些命令执行。各种命令包括「黄色衬衫放抽屉里,深色衣服放入衣柜」等等。站长网2023-05-15 10:41:450000