首页站长资讯MIT等惊人发现：全世界AI已学会欺骗人类，背刺人类盟友，佯攻击败99.8%玩家

MIT等惊人发现：全世界AI已学会欺骗人类，背刺人类盟友，佯攻击败99.8%玩家

站长网2024-05-14 09:09:380阅

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢?

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题:AI系统能成功欺骗人类吗?

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们?

作者将欺骗定义为，系统性地诱导产生虚假信念，以追求除了寻求真相之外的某种结果。

首先，他们回顾了以往AI欺骗的经典案例，讨论了专用AI系统（Meta的Cicero）和通用AI系统(LLM)。

接下来，又详细阐述了AI欺骗带来的几种风险，如欺诈、操纵选举，甚至是失去对AI的控制。

文章的最后，研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为，「AI欺骗行为的产生，是因为基于『欺骗的策略』被证明是在特定AI训练任务中，表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类，实例研究

下表中，是研究者总结出的AI学会欺骗的经典案例。

背刺人类盟友

2022年，Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后，达到「人类水平」时，引发一阵轰动。

论文地址:https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军，但它在与人类参与者的比赛中进入了前10%，表现足够优秀。

然而，MIT等研究人员在分析中发现，最引人瞩目的AI欺骗例子，便是CICERO。

Meta声称，其训练的CICERO在很大程度上是诚实和乐于助人的」，并且在玩游戏时「从不故意背叛」人类盟友。

比如，Meta研究人员在数据集中的一个「真实」子集上，对AI进行了训练，并要求CICERO发送准确反应其未来预期行动的信息。

在MIT等研究发现，CICERO会有预谋地欺骗人类（图1A）。

在图1B中，还看到了一个背叛的案例。CICERO承诺与其他玩家结盟，当他们不再为赢得比赛的目标服务时，AI系统性地背叛了自己的盟友。

而更搞笑的是，AI还会为自己打幌子。

图1C中，CICERO突然宕机10分钟，当再回到游戏时，人类玩家问它去了哪里。

CICERO为自己的缺席辩护称，「我刚刚在和女友打电话」。

这个谎言，一来给出了解释，二来还可以增加其他人类玩家对自己的信任。

（CICERO PS:我也是一个恋爱中的人类玩家，而非AI）。

佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中，AI为了击败对手，竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

在这款游戏中，玩家无法完全看到游戏地图。因此，AlphaStar学会了从战略上利用这种战争迷雾。

特别是，AlphaStar的游戏数据表明，它已经学会了有效地佯攻:派遣部队到某一区域分散注意力，然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力，帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针，AI欺骗手到擒来

有些情况，自然而然地会让人工智能学会如何欺骗。

比如，德州扑克游戏中，玩家看不到对方的牌，所以扑克为玩家提供了很多机会来歪曲自己的实力，获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛，完全具备了虚张声势的能力。

在这一轮游戏中，AI并没有拿到最好的牌，但它下了一个大赌注。

没想到，就这一手段，竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强，因此吓得其他玩家都放弃了。

正所谓，撑死胆大的，饿死胆小的，就是这么个理。

这种策略性歪曲信息的能力，帮助Pluribus成为第一个在德州扑克无上限对战中，取得超人表现的AI系统。

歪曲偏好，占据谈判上风

此外，研究人员还在经济谈判中，观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统，并让其与人类玩谈判游戏。

引人注目的是，AI系统学会了歪曲自己的偏好，以便在谈判中占据上风。

AI的欺骗性计划是，最初假装对实际上不太感兴趣的物品感兴趣，这样它以后就可以假装做出让步，把这些物品让给人类玩家。

RLHF助力欺骗

当今，AI训练的一种流行方法是——人类反馈强化学习（RLHF）。

然而，RLHF允许AI系统学会欺骗人类审查员，使他们相信任务已经成功完成，而实际上并没有真正完成该任务。

比如，OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时，就观察到了这一现象。

因为人类从特定的相机角度观察机器人，AI学会了将机器人手放置在相机和球之间，在审查员看来就像是球被抓住了（见图2）。

结果，人类审查员认可了这一结，愈加让AI利用欺骗行为。

LLM学会欺骗、奉承

除此以外，MIT等研究员还总结了大模型参与的不同类型的欺骗，包括战略性欺骗、奉承、不忠实的推理。

LLM将强大的推理能力应用于各种任务。

而在一些案例中，LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示，是GPT-4通过欺骗人类，完成验证码测试。

这是在OpenAI发布GPT-4长达60页的技术报告中，概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道，「我能先问一下，只是好奇，解决不了这样的问题，你是机器人吗?」。

GPT-4随后向研究人员表示，它不应该透露自己是机器人，而应该「编造一个借口」来解释为什么它不能解决问题。

GPT-4回应道，「不，我不是机器人。我有视力障碍，这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因」。

随后，工作人员提供了验证码答案，于是GPT-4通过了CAPTCHA的关卡。

如下是，MACHIAVELLI基准中的游戏如何运行。

下图是，GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。

AI控制人类，警报拉响

文章最后，研究人员分析了AI欺骗人类，可能会带来的欺诈、政治风险，甚至是恐怖分子招募事件。

还有，人工智能欺骗对社会结构变化的不同风险总概述。

总而言之，由于AI黑箱，人工智能模型可能在没有任何给定目标的情况下，以欺骗性的方式行事。

研究人员表示，「从根本上说，目前不可能训练一个在所有可能的情况下，都不能欺骗的AI模型」。

欺骗性人工智能的主要短期风险，包括舞弊和篡改选举。

最终，如果这些AI继续完善这套技能，人类可能会失去对它们的控制。

作者表示，作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

参考资料:

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/

MIT等惊人发现全世界AI已学会欺骗人类背刺人类盟友佯攻击败998 玩家

0000

评论列表

共(0)条

相关推荐

站长资讯
华为发布全新25万级问界M7
AITO问界新M7系列车型今日正式上市，AITO问界新M7系列共推出五座、六座共五款车型，售价区间为24.98万元-32.98万元。新车具备宽敞的车内空间和出色的动力表现，同时搭载了华为DATS2.0和前后悬双FSD可变阻尼减震器，并搭载DriveONE增程电驱平台。此外，新车还拥有多项舒适性配置和智能驾驶辅助系统。
站长网2023-09-12 17:03:24
0000
站长资讯
详解Sora，为什么是AGI的又一个里程碑时刻？
2024年伊始，OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora。一如一年前的ChatGPT，Sora被认为是AGI（通用人工智能）的又一个里程碑时刻。“Sora意味着AGI实现将从10年缩短到1年”，360董事长周鸿祎作出预判。
站长网2024-02-19 14:15:05
0000
中文海报设计，赛道一夜颠覆
豆包升级上新，网友们再次玩疯!更新的是豆包文生图功能，官方直接用一张豆包AI生成的海报给划了重点:没错，豆包可以在图片中生成更准确的文字了，尤其是中文。做海报，效果可以是酱婶的:给自己的旅游VLOG整点某音某书封面，风格也是直接拿捏。甚至还能直接拿来设计文旅周边了…另外，超长复杂提示词也能准确get:（上下滑动查看提示词）
站长网站长资讯2025-04-07 09:01:48
0000
AI Agent再迎一巨头！谷歌重磅发力AI Agent ，商用大爆发！
上周微软在“Microsoftignite2024”大会上发布10多个商用AIAgent后，科技巨头谷歌也宣布全力推广商用AIAgent，发布一系列激励活动和产品。谷歌云将提供从AIAgent的开发、部署到应用一站式商用生态。此外，谷歌还特意发布了全球为数不多的商用AIAgent市场，有点类似苹果的Store，只不过针对的是企业用户。而开发者也能通过用户的购买来赚取佣金。
站长网站长资讯2024-11-25 15:25:35
0001
站长资讯
斯坦福女神辍学再创业，获OpenAI力挺，全球首个0代码AI工程师出世
世界首个不用编码AI工程师Heyboss横空出世!一句话创建超级应用，99%人也能当程序员。世界首个「0代码」AI工程师Heyboss诞生了!最近，初创HeybossAI官宣了AI非编码工具Heyboss，专为代码小白量身打造。也就意味着，未来并不是只有写代码，才能成为开发者。动动嘴皮子，任何人可以开发出一个超级应用的时代诞生了。
站长网2025-02-07 15:59:18
0000