创新性AI系统SoG: 在各种游戏中击败人类,又能学习玩新游戏
**划重点:**
1. 🧠 **AI性能新标杆:** 游戏作为AI性能指标的悠久传统,EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“游戏之子”(SoG)算法,通过定向搜索、自我学习和博弈论推理,在完美和非完美信息游戏中取得显著成果,标志着通用算法迈出了重要一步。
2. 🌐 **算法背后:** SoG结合了增长树对策反悔最小化(GT-CFR)技术和声学自我博弈学习,通过单一算法实现了搜索、学习和博弈理论分析的结合。在各种问题领域中表现出色,特别是在完美和非完美信息游戏中,展现了通用算法的潜力。
3. 🚀 **突破性进展:** SoG不仅在国际象棋和围棋等游戏中表现强劲,还在德州扑克等不完美信息游戏中战胜了最强大的AI代理,并击败了Scotland Yard的最新代理。这一突破标志着人工智能取得了显著进展,能够自我学习并在各类游戏中战胜人类。
在人工智能领域,使用游戏作为性能指标的传统悠久而广泛。EquiLibre Technologies、Sony AI、Amii和Midjourney等研究团队与Google DeepMind合作推出的“Student of Games”(SoG)算法,通过结合定向搜索、自我博弈学习和博弈理论,实现了一个通用算法,对早期工作进行了统一。
SoG在完美和非完美信息游戏中取得了高度实证性能,标志着通用算法发展迈出了重要一步。随着计算能力和逼近能力的增加,研究团队展示了SoG的稳健性,并最终实现了无瑕的游戏表现。SoG在国际象棋和围棋中表现出色,在无限制德州扑克中击败了最强大的公开可用代理,并在Scotland Yard中击败了最先进的代理。这一不完美信息游戏展示了引导式搜索、学习和博弈理论的价值。

图源备注:图片由AI生成,图片授权服务商Midjourney
为了展示人工智能的进展,研究团队教授了一台计算机玩棋盘游戏,并将其改进到可以击败人类的水平。通过这项最新研究,团队在创建人工通用智能方面取得了重大进展,使计算机能够执行以前被认为对机器而言不可能的任务。
与大多数只设计玩一个游戏的棋盘游戏计算机不同,该项目的研究人员开发了一个智能系统,可以参与需要广泛能力的游戏。
SoG,即“Student of Games”,将搜索、学习和博弈理论分析融入一个单一算法中,具有许多实际应用。它包括一种用于学习CVPNs和声学自我博弈的GT-CFR技术。特别是在最优和次优信息游戏中,SoG被保证会在计算资源改进时生成更好的极小极大优化技术近似值。这一发现在Leduc扑克中也在经验证明,在那里额外的搜索导致测试时间近似值的提炼,这与不使用搜索的任何纯RL系统不同。
SoG之所以如此有效,是因为它采用了一种称为增长树对策反悔最小化(GT-CFR)的技术,这是一种可以在任何时候执行的本地搜索,涉及非均匀构建子游戏,以增加与最重要未来状态相关的子游戏的权重。此外,SoG还采用一种称为声学自我博弈的学习技术,该技术基于游戏结果和递归子搜索训练值和策略网络。作为通向可以在任何情境中学习的通用算法的重要一步,SoG在完美和非完美信息的多个问题领域中表现出色。在信息有限的游戏中,标准搜索应用程序面临着众所周知的问题。
SoG方法使用声学自我博弈来指导代理:在做出选择时,每个玩家使用经过良好调整的GT-CFR搜索,结合CVPN生成当前状态的策略,然后用于随机抽样一个动作。GT-CFR是一个两阶段的过程,从当前公共状态开始,最终形成一棵成熟的树。当前公共树的CFR在悔反更新阶段进行更新。在扩展阶段,根据模拟的扩展轨迹,向树中添加新的一般形式。GT-CFR迭代包括一次悔反更新阶段运行和一次扩展阶段运行。
在自我博弈过程中生成值和策略网络的训练数据:搜索查询(在GT-CFR悔反更新阶段由CVPN查询的公共信念状态)和完整的游戏轨迹。必须解决搜索查询以根据反事实值目标更新值网络。可以根据完整游戏轨迹的目标调整策略网络。演员在创建自我博弈数据(并回答问题)的同时,培训者发现并实施新网络,并偶尔刷新演员。
一些局限性包括在德州扑克中使用投注抽象可能会被放弃,以利用对广泛动作空间的通用动作减少政策。在某些游戏中,对公共状态信息进行枚举可能会过于昂贵,而生成模型可以在采样子集上运行,从而近似SoG,这目前在一些游戏中需要枚举每个公共状态的信息,这可能成本过高。
研究团队相信,由于其自学习几乎可以玩任何游戏的能力,SoG具有在其他类型的游戏中取得成功的潜力,并且已经在围棋、国际象棋、Scotland Yard和德州扑克等游戏中击败了竞争对手的AI系统和人类。这一研究的所有荣誉归功于该项目的研究人员。还请不要忘记加入我们的ML SubReddit、Facebook社区、Discord频道和电子邮件通讯,我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等。
论文地址:https://www.science.org/doi/10.1126/sciadv.adg3256
腾讯游戏发布2023暑期限玩日历
为了让广大未成年玩家们更好地安排时间,腾讯游戏发布“2023暑期限玩日历”称,结合《关于进一步严格管理切实防止未成年人沉迷网络游戏的通知》,2023年暑假期间(由于各地放假时间有差异,此处的“暑假期间”指2023年7月1日-8月31日),腾讯游戏旗下在中国大陆地区运营的网络游戏面向未成年人的游戏限玩执行如下:站长网2023-06-29 19:07:270001苹果推出降噪语言模型DLM 用于纠正ASR系统中的错误
苹果最近推出了一项新的技术创新,去噪语言模型(DLM),通过大量合成数据的训练,取得了超越以往的成就,实现了自动语音识别(ASR)领域的最新性能水平。这项技术的核心在于使用文本转语音(TTS)系统创建音频,并将其输入ASR系统,通过这种方式产生了嘈杂的假设,与原始文本进行配对,从而训练DLM。该方法的关键要素包括升级的模型和数据、多说话人TTS系统、各种噪声增强策略以及新的解码技术。站长网2024-05-28 19:16:060002华为发布盘古汽车大模型和医学大模型 上线昇腾AI云服务“百模千态”专区
在华为全联接大会2023的主题演讲中,华为常务董事、华为云CEO张平安介绍了盘古大模型在矿山、政务、气象、数字人直播、软件开发等领域的最新升级和落地进展。此外,他还发布了盘古汽车大模型和医学大模型。他表示,过去几年,华为云派出了许多博士、专家和科学家前往客户现场进行支持和解决方案的部署,而在今年,他们还将再派遣200名博士深入一线,以帮助各行各业的客户解决实际问题。站长网2023-09-21 11:58:400000曹书乐:尝试理解青少年的短视频使用动机,呼吁多元主体共治
中国青年网北京5月22日电(记者牟昊琨实习记者任馨蕾)近年来,在抖音等平台刷短视频已经成了大家茶余饭后常做的事,而短视频的内容五花八门。5月18日,在由中国社会科学院新闻与传播研究所主办的“短视频与青少年发展”研讨会上,清华大学新闻与传播学院副教授曹书乐表示,“媒介无处不在,我们应跨越媒介恐慌的视角,正视媒介对个体和社会的各方面影响”。00019位机器人召开全球首场发布会:称不会取代人类的工作
随着人工智能的快速发展,机器人在各个领域取得了显著进步,并能够替代人类从事一些危险的工作。然而,人们也对机器人可能反抗人类的情景表示担忧。在瑞士日内瓦举行的一场新闻发布会上,世界上首次由机器人召开的发布会上,机器人们表示他们不会取代人类的工作,也不会反抗人类。发布会上共有9个人形机器人回答了记者的问题,它们回答问题流利并且带有生动的表情。站长网2023-07-10 00:07:290001