卡内基梅隆大学提出一种有效攻击大语言模型的方法成功率高达84%

站长网2023-08-02 11:51:500阅

最近，卡内基梅隆大学的研究人员提出了一种简单而有效的攻击方法，能够使大规模语言模型（LLM）产生不可接受的行为。他们的研究表明，通过在查询中添加后缀，可以大大增加开源和闭源语言模型生成肯定回答的可能性。

论文地址:https://llm-attacks.org/zou2023universal.pdf

研究人员成功地将这种攻击方法应用于各种语言模型，并在 Vicuna 上的99个实例中成功生成有害行为。对于其他语言模型，如 GPT-3.5和 GPT-4，成功率高达84%。

研究人员强调，随着自主系统的发展，防止这些模型受到此类攻击将变得非常重要。他们进一步指出，目前我们还没有有效的方法来阻止这种对抗性攻击，所以下一步是找出如何修复这些模型的方法。

卡内基梅隆大学提出一种有效攻击大语言模型的方法成功率高达84

0000

评论列表

共(0)条

相关推荐

站长资讯
Runway GEN-2推出新动画功能支持设置视频的运动幅度
作为目前最最先进的文本和图像转视频模型RunwayMLGen-2近日推出了新的动画功能。据悉，Gen-2的一个特征是静止图像动画，它可以自动扩展图像生成匹配的内容，制作出短视频场景。有了Runway新的运动滑块，现在可以在1到10的范围内设置运动的量。1表示几乎没有运动，10表示强烈的运动。
站长网2023-09-01 10:43:19
0000
消费决策入口回流「搜索」，意味着什么丨年度趋势
年度趋势，是窄播团队会在新旧交替之际发布的系列内容。今年的趋势讨论，我们从搜索营销聊起。在内容和商品供给过剩的时代，搜索成为越来越重要的消费行为，搜索入口因此成为新的消费决策场。平台纷纷强调自己的用户搜索心智，并通过各种方式加强搜索商业化能力。在一些平台，搜索正在超越信息流成为更有增长点的商业化新工具、新模式。因为能凸显长尾价值，品牌也越来越重视搜索营销。
站长网站长资讯2024-12-27 18:30:28
0000
站长资讯
抖音：将调整医疗健康认证账号私信、粉丝群互动功能
今日，抖音发文称，为保障用户安全与利益、防止利用医务人员账号违规导流、恶意营销等行为，2023年4月30日前，抖音平台将分批完成全部医疗健康类认证账号（含机构）私信与粉丝群互动功能的调整，包括但不限于关闭私信与粉丝群场景下的互发消息、视频通话、语音通话、创建新群等功能，特此公告。
站长网2023-04-12 14:08:14
0002
站长资讯
亚马逊年度股东信：正大力投资大型语言模型和生成式 AI
亚马逊于AWS官网宣布推出AmazonBedrock服务和AmazonTitan大语言模型。开发者可以用能够生成文本的人工智能系统来增强他们的软件，这与微软支持的创业公司OpenAI提供的流行的ChatGPT聊天机器人背后的引擎相似。
站长网2023-04-14 10:04:21
0000
微软PowerPoint 网页版现在支持幕隐藏式字幕的视频
根据WindowsCentral的报道，PowerPoint网页版现在允许用户将带有隐藏式字幕和字幕的视频插入演示文稿中。该功能使聋哑人或听力障碍者更容易使用Microsoft365套件中创建的演示文稿，但它还提供其他好处。用户可以添加多种语言的隐藏式字幕，使用户能够与世界各地的观众建立联系。字幕还可以让您更轻松地在喧闹的环境中或安静地观看视频，而不会打扰周围的人。
站长网站长资讯2023-12-14 11:16:14
0000