卡内基梅隆大学提出一种有效攻击大语言模型的方法 成功率高达84%
站长网2023-08-02 11:51:500阅
最近,卡内基梅隆大学的研究人员提出了一种简单而有效的攻击方法,能够使大规模语言模型(LLM)产生不可接受的行为。他们的研究表明,通过在查询中添加后缀,可以大大增加开源和闭源语言模型生成肯定回答的可能性。
论文地址:https://llm-attacks.org/zou2023universal.pdf
研究人员成功地将这种攻击方法应用于各种语言模型,并在 Vicuna 上的99个实例中成功生成有害行为。对于其他语言模型,如 GPT-3.5和 GPT-4,成功率高达84%。
研究人员强调,随着自主系统的发展,防止这些模型受到此类攻击将变得非常重要。他们进一步指出,目前我们还没有有效的方法来阻止这种对抗性攻击,所以下一步是找出如何修复这些模型的方法。
0000
评论列表
共(0)条相关推荐
英国学校教师们对人工智能飞速发展对教育的影响感到困惑
英国的校长们警告称,人工智能(AI)的飞速发展及其对教育的影响让英国的学校感到困惑。在一封致《泰晤士报》的信中,来自公立和私立学校的教育工作者表示,这些发展「令人困惑」。他们正在成立一个专家小组,为学校提供建议,告诉他们哪些领域是「有益的」,哪些是「有害的」。他们说,这项技术的发展速度「太快了」,单靠政府提供的建议是不足够的。站长网2023-05-22 14:31:230000王小川旗下百川智能发布Baichuan-53B大模型
据新浪科技消息,今日,王小川旗下百川智能宣布发布大模型产品Baichuan-53B。Baichuan-53B定位闭源大模型,目前在写作、文本创作能力方面,已经达到行业最好的水平。Baichuan-53B主要面向B端用户提供服务,发布后,该大模型也将启动内测,预计下个月将会开放API等相关组件。据悉,在此之前,百川智能发布了Baichuan-7B、Baichuan-13B两个通用大语言模型。站长网2023-08-08 14:43:480000保护隐私!中国研究人员提出基于联邦学习的 μXRD 图像筛选方法
中国的研究人员提出了一种基于联邦学习(FL)的新型微X射线衍射(μXRD)图像筛选方法,旨在提高筛选效果同时保护数据隐私。工业矿物通过同步辐射X射线微衍射服务来检测其晶体杂质,包括结晶度和可能的杂质。X射线衍射服务产生大量的图像,这些图像在进一步处理和存储之前必须进行筛选。站长网2023-07-24 11:44:300000AI开卷视频:一句话一张图就能出大片,“人均诺兰”时代不远了
当我们还在讨论ChatGPT和AI绘画时,AIGC的圈子里又刷新了一些新玩法。只见大叔打个响指,摇身一变成贵族,穿越到了17、18世界的欧洲宫廷。随后,又一个响指,变成了「星球崛起」里的主角,在残垣断壁的战场上穿梭。这还不算最神奇的,紧接着一个转场,打响指的人物从老爷子变成了健美女性。站长网2023-09-14 21:40:350000iPhone SE4可能推迟到2025年发布 配备苹果自研基带
关于第四代iPhoneSE的谣言自2022年推出当前型号几个月后就一直在流传。下面,我们回顾了有关该设备的谣言,包括潜在功能和发布时间。站长网2023-07-06 09:43:400001