经过5万小时训练，AI懂得玩《精灵宝可梦》了

站长网2023-10-19 10:40:580阅

划重点:

1. 西雅图软件工程师Peter Whidden花费了几年时间训练一个强化学习算法，使其能够玩经典的《精灵宝可梦》游戏，该AI已经进行了超过5万小时的游戏训练。

2. AI的奖励模型奇特，它有时会陷入游戏中的某些地方，甚至停下来欣赏美丽的游戏场景，而不急于完成任务。

3. AI还表现出对某些事件的“情感”，例如失去一只宝可梦后对宝可梦中心产生负面情感。

AI似乎越来越变得无所不能了，那么AI是否能够玩《精灵宝可梦》?

多年来，西雅图的软件工程师Peter Whidden一直在训练一种强化学习算法，使其能够探索《精灵宝可梦》系列中的第一款经典游戏。在此期间，该AI已经进行了超过5万小时的游戏训练。

Whidden发布了一段时长33分钟的YouTube视频，讲述了AI的开发故事，仅仅在九天内，这段视频就吸引了220万次观看。他已经将自己使用的代码上传到GitHub，以及如何操作和训练AI的说明。

AI的强化模型是一种巴甫洛夫式（Pavlovian，）的模型，它通过奖励积分来鼓励AI提升宝可梦的级别、探索新区域、赢得战斗并击败道馆领主。然而，有时这些奖励并不完全与游戏进展相吻合，但AI的失败却有一种奇特的魅力，这可能是为什么Whidden的视频会走红的原因之一。

YouTube视频：https://www.youtube.com/watch?v=DcYLT37ImBY

在AI的尝试中，有一次它只是停下来凝视Pallet Town（游戏中的第一个地点）的水，然后一动不动。它陷入了一个充满动画水、草地和来回走动的NPC的地方，这意味着对AI来说，每一帧都像是一次新奇的体验，尽管它只是坐在那里，甚至还没有获得第一只宝可梦。但这个AI并不急着“抓住它们”，它只是在享受坎托地区的美丽(或者可能它是在道德上反对迫使这些可爱的小动物互相对战)。

Whidden在视频中解释说:“根据我们自己的目标，只是停下来欣赏风景比探索世界其他地方更有价值。这是一个在现实生活中我们经常遇到的悖论:好奇心引导我们做出最重要的发现，但同时它也使我们容易受到干扰，陷入困境。”

令人意外的是，这个AI在后来的游戏中经历了类似于创伤事件。它的成功部分取决于队伍中所有宝可梦的总等级。但当AI前往宝可梦中心并大量按按钮将一只宝可梦存入存储中时，所有宝可梦的总等级会急剧下降，向AI发送强烈的负面信号。队伍中有一只叫“AAAAAAAAAA”的宝可梦和一只Pidgey总等级是25，但一旦Pidgey被存入电脑，总等级就只有12了。

Whidden解释说:“它没有像人类一样的情感，但一个极高奖励值的单一事件仍然会对它的行为产生持久的影响。在这种情况下，只有一次失去宝可梦就足以让AI对整个宝可梦中心产生负面情感，并在以后的游戏中完全避开它。”

尽管这个AI能够经历创伤，欣赏Pallet Town的美丽，但它毕竟只是一台计算机。它无法阅读和解释游戏中的对话，因此在早期的尝试中，程序会在游戏中的一个十字路口卡住。当你到达《精灵宝可梦红版》的第二个城镇时，你会得到一个物品，需要带回Pallet Town的宝可梦教授那里。但AI很难回头交付包裹，这使得进一步的游戏进程变得不可能。因此，Whidden跳过了这一部分，使每个游戏都从交付包裹后开始，并以Squirtle作为AI的初始宝可梦，因为游戏的早期部分通常更容易使用水属性宝可梦。

Whidden表示:“在视频中，AI达到的最远地点是位于第一道馆和第二道馆之间的月见山（Mt. Moon）。在早期的《精灵宝可梦》游戏中，洞穴一直以来都令人沮丧，即使是拥有真正人类大脑的人也难以导航。” 但是，Whidden最近在他的代码中进行了一些奖励的调整，并尝试了不同的学习算法，最终，AI设法走出了洞穴，到达了蓝靛城。

其他研究人员已经使用强化学习来研究在游戏中使用AI，就像DeepMind的AlphaGo一样，它是第一个击败职业围棋选手的计算机程序。但Whidden的视频之所以引起如此多的关注，是因为他擅长通过人们熟悉的事物，如《精灵宝可梦》，来解释陌生的概念。

经过5万小时训练AI懂得玩精灵宝可梦了

0000

评论列表

共(0)条

相关推荐

站长资讯
高中老师辞职创业，公司年入34亿，上市在即
萌宠治愈孤独，撑起了千亿规模的“它经济”，也让一个又一个中国宠企站上资本市场的牌桌。宠物食品集团乖宝，自首次披露招股说明书18个月后，终于在今年6月20日获得证监会正式批复，距离在深交所挂牌上市近在咫尺。
站长网2023-08-06 10:34:41
0001
站长资讯
618天猫宝藏新品牌榜单出炉！11大热门行业，谁将登顶？
2024年，众多消费品企业面临着一个全新的课题——质价比和心价比。前者是在大环境和经济形势下，消费者更愿意购买更具价格力的好货，但价格力并不意味着牺牲品质;后者是消费者为自己的情感诉求买单，为感受体验支付“溢价”。消费趋势的背后，是消费情绪、消费风向在变，基于此，商家、平台都正在重新理解生意。
站长网2024-06-24 02:08:01
0000
站长资讯
斯坦福推新AI模型可快速找出图片中位置，准确率92%
一群斯坦福大学研究生发布了一个新项目，他们的AI模型经过了10万个随机位置、50万个街景图片以及其他图片的训练。这个模型能够快速准确地找出图片中的位置，目前的准确率达到了92%。论文地址:https://arxiv.org/pdf/2307.05845.pdf
站长网2024-01-10 14:23:54
0001
站长资讯
苹果 2024 款 iPad Pro 可能首次采用更薄的混合 OLED 面板技术
据TheElec报道，苹果公司将受益于LG公司正在开发的新的OLED面板蚀刻技术，该技术将使设备更薄，同时降低生产成本。据报道，这种新的混合技术将刚性OLED玻璃基板与柔性OLED薄膜封装（TFE）相结合，使面板比刚性OLED面板更薄。该工艺也比柔性OLED面板的生产成本低，因为它不需要背光层。
站长网2023-04-17 18:04:32
0000
站长资讯
Mac、iPad卖不动，苹果靠iPhone续命
北京时间5月5日凌晨，苹果交出了最新一季度的成绩单。根据财报，在2023年一季度（截至4月1日的2023财年第二财季），苹果营收948.4亿美元，高于市场预期的926亿美元;净利润241.6亿美元，同样高于市场预期的226.6亿美元;毛利率为44.3%，同比提升了0.6%。深燃制图
站长网2023-05-06 15:22:55
0002