创新性AI系统SoG: 在各种游戏中击败人类，又能学习玩新游戏

站长网2023-11-26 14:17:000阅

**划重点:**

1. 🧠 **AI性能新标杆:** 游戏作为AI性能指标的悠久传统，EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“游戏之子”（SoG）算法，通过定向搜索、自我学习和博弈论推理，在完美和非完美信息游戏中取得显著成果，标志着通用算法迈出了重要一步。

2. 🌐 **算法背后:** SoG结合了增长树对策反悔最小化（GT-CFR）技术和声学自我博弈学习，通过单一算法实现了搜索、学习和博弈理论分析的结合。在各种问题领域中表现出色，特别是在完美和非完美信息游戏中，展现了通用算法的潜力。

3. 🚀 **突破性进展:** SoG不仅在国际象棋和围棋等游戏中表现强劲，还在德州扑克等不完美信息游戏中战胜了最强大的AI代理，并击败了Scotland Yard的最新代理。这一突破标志着人工智能取得了显著进展，能够自我学习并在各类游戏中战胜人类。

在人工智能领域，使用游戏作为性能指标的传统悠久而广泛。EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“Student of Games”（SoG）算法，通过结合定向搜索、自我博弈学习和博弈理论，实现了一个通用算法，对早期工作进行了统一。

SoG在完美和非完美信息游戏中取得了高度实证性能，标志着通用算法发展迈出了重要一步。随着计算能力和逼近能力的增加，研究团队展示了SoG的稳健性，并最终实现了无瑕的游戏表现。SoG在国际象棋和围棋中表现出色，在无限制德州扑克中击败了最强大的公开可用代理，并在Scotland Yard中击败了最先进的代理。这一不完美信息游戏展示了引导式搜索、学习和博弈理论的价值。

图源备注：图片由AI生成，图片授权服务商Midjourney

为了展示人工智能的进展，研究团队教授了一台计算机玩棋盘游戏，并将其改进到可以击败人类的水平。通过这项最新研究，团队在创建人工通用智能方面取得了重大进展，使计算机能够执行以前被认为对机器而言不可能的任务。

与大多数只设计玩一个游戏的棋盘游戏计算机不同，该项目的研究人员开发了一个智能系统，可以参与需要广泛能力的游戏。

SoG，即“Student of Games”，将搜索、学习和博弈理论分析融入一个单一算法中，具有许多实际应用。它包括一种用于学习CVPNs和声学自我博弈的GT-CFR技术。特别是在最优和次优信息游戏中，SoG被保证会在计算资源改进时生成更好的极小极大优化技术近似值。这一发现在Leduc扑克中也在经验证明，在那里额外的搜索导致测试时间近似值的提炼，这与不使用搜索的任何纯RL系统不同。

SoG之所以如此有效，是因为它采用了一种称为增长树对策反悔最小化（GT-CFR）的技术，这是一种可以在任何时候执行的本地搜索，涉及非均匀构建子游戏，以增加与最重要未来状态相关的子游戏的权重。此外，SoG还采用一种称为声学自我博弈的学习技术，该技术基于游戏结果和递归子搜索训练值和策略网络。作为通向可以在任何情境中学习的通用算法的重要一步，SoG在完美和非完美信息的多个问题领域中表现出色。在信息有限的游戏中，标准搜索应用程序面临着众所周知的问题。

SoG方法使用声学自我博弈来指导代理:在做出选择时，每个玩家使用经过良好调整的GT-CFR搜索，结合CVPN生成当前状态的策略，然后用于随机抽样一个动作。GT-CFR是一个两阶段的过程，从当前公共状态开始，最终形成一棵成熟的树。当前公共树的CFR在悔反更新阶段进行更新。在扩展阶段，根据模拟的扩展轨迹，向树中添加新的一般形式。GT-CFR迭代包括一次悔反更新阶段运行和一次扩展阶段运行。

在自我博弈过程中生成值和策略网络的训练数据:搜索查询（在GT-CFR悔反更新阶段由CVPN查询的公共信念状态）和完整的游戏轨迹。必须解决搜索查询以根据反事实值目标更新值网络。可以根据完整游戏轨迹的目标调整策略网络。演员在创建自我博弈数据(并回答问题)的同时，培训者发现并实施新网络，并偶尔刷新演员。

一些局限性包括在德州扑克中使用投注抽象可能会被放弃，以利用对广泛动作空间的通用动作减少政策。在某些游戏中，对公共状态信息进行枚举可能会过于昂贵，而生成模型可以在采样子集上运行，从而近似SoG，这目前在一些游戏中需要枚举每个公共状态的信息，这可能成本过高。

研究团队相信，由于其自学习几乎可以玩任何游戏的能力，SoG具有在其他类型的游戏中取得成功的潜力，并且已经在围棋、国际象棋、Scotland Yard和德州扑克等游戏中击败了竞争对手的AI系统和人类。这一研究的所有荣誉归功于该项目的研究人员。还请不要忘记加入我们的ML SubReddit、Facebook社区、Discord频道和电子邮件通讯，我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等。

论文地址:https://www.science.org/doi/10.1126/sciadv.adg3256

创新性AI系统SoG在各种游戏中击败人类又能学习玩新游戏

0000

评论列表

共(0)条

相关推荐

Apple Intelligence来了！将于10月28日随iOS 18.1推出
快科技10月7日消息，据名记古尔曼最新爆料，AppleIntelligence功能将于10月28日与iOS18.1一起推出。AppleIntelligence也是今年iOS18、iPhone16系列的最大亮点，画饼许久终于能够正式用上了。
站长网站长资讯2024-10-08 16:44:06
0000
站长资讯
这届618，“切片小杨哥”PK“AI李佳琦”
自京东推出“采销东哥AI数字人”为其618大促进行预热那天起，AI带货就已经成为了多方竞逐的“新赛点”。不仅腾讯云、百度智能云接连发布相关招募计划，就连“带货一哥”李佳琦所在的美ONE公司也宣布，从今年618大促开始，旗下的“所有女生”直播间将测试数字人直播，并搭建AI智能客服。
站长网2024-05-29 07:42:50
0000
站长资讯
最高年薪600万！多名前OPPO哲库骨干加盟新公司曝光：研发自动驾驶芯片
快科技7月21日消息，OPPO之前突然解散了哲库让人唏嘘不已，而原来公司的骨干也各奔东西，其中一些骨干也是有了新的去除。据最新消息显示，哲库公司十数名管理层近期加入自动驾驶公司Momenta。有知情人士称，高管们年薪普遍在200万元-600万元区间。此次Momenta如此大手笔吸纳芯片行业人才，与其新的战略布局有关。
站长网2023-07-21 22:05:27
0000
站长资讯
Bluehost 推出人工智能驱动的 WordPress 网站建设 AI 套件 WonderSuite
Bluehost是一家专门提供WordPress托管服务的网络托管服务提供商，周三宣布推出一款利用人工智能的WordPress网站构建套件。该套件名为WonderSuite，Bluehost表示它旨在成为一个数字合作伙伴，帮助用户轻松快速地创建网站。Bluehost网站截图
站长网2023-07-14 17:24:47
0000
站长资讯
Perplexity发布Collections功能可将搜索结果保存为不同主题的合集
9月15日，Perplexity官方在X上发文宣布推出Collections功能。通过这个功能，用户可以将搜索结果保存为不同主题的合集，当作笔记或者展示来使用，也可以邀请其他人来协作一起编辑一个Collection从而让一个主题相关的信息丰富起来。体验地址:https://www.perplexity.ai/library
站长网2023-09-15 11:04:34
0002