经过5万小时训练,AI懂得玩《精灵宝可梦》了
划重点:
1. 西雅图软件工程师Peter Whidden花费了几年时间训练一个强化学习算法,使其能够玩经典的《精灵宝可梦》游戏,该AI已经进行了超过5万小时的游戏训练。
2. AI的奖励模型奇特,它有时会陷入游戏中的某些地方,甚至停下来欣赏美丽的游戏场景,而不急于完成任务。
3. AI还表现出对某些事件的“情感”,例如失去一只宝可梦后对宝可梦中心产生负面情感。
AI似乎越来越变得无所不能了,那么AI是否能够玩《精灵宝可梦》?
多年来,西雅图的软件工程师Peter Whidden一直在训练一种强化学习算法,使其能够探索《精灵宝可梦》系列中的第一款经典游戏。在此期间,该AI已经进行了超过5万小时的游戏训练。
Whidden发布了一段时长33分钟的YouTube视频,讲述了AI的开发故事,仅仅在九天内,这段视频就吸引了220万次观看。他已经将自己使用的代码上传到GitHub,以及如何操作和训练AI的说明。
AI的强化模型是一种巴甫洛夫式(Pavlovian,)的模型,它通过奖励积分来鼓励AI提升宝可梦的级别、探索新区域、赢得战斗并击败道馆领主。然而,有时这些奖励并不完全与游戏进展相吻合,但AI的失败却有一种奇特的魅力,这可能是为什么Whidden的视频会走红的原因之一。
YouTube视频:https://www.youtube.com/watch?v=DcYLT37ImBY
在AI的尝试中,有一次它只是停下来凝视Pallet Town(游戏中的第一个地点)的水,然后一动不动。它陷入了一个充满动画水、草地和来回走动的NPC的地方,这意味着对AI来说,每一帧都像是一次新奇的体验,尽管它只是坐在那里,甚至还没有获得第一只宝可梦。但这个AI并不急着“抓住它们”,它只是在享受坎托地区的美丽(或者可能它是在道德上反对迫使这些可爱的小动物互相对战)。
Whidden在视频中解释说:“根据我们自己的目标,只是停下来欣赏风景比探索世界其他地方更有价值。这是一个在现实生活中我们经常遇到的悖论:好奇心引导我们做出最重要的发现,但同时它也使我们容易受到干扰,陷入困境。”
令人意外的是,这个AI在后来的游戏中经历了类似于创伤事件。它的成功部分取决于队伍中所有宝可梦的总等级。但当AI前往宝可梦中心并大量按按钮将一只宝可梦存入存储中时,所有宝可梦的总等级会急剧下降,向AI发送强烈的负面信号。队伍中有一只叫“AAAAAAAAAA”的宝可梦和一只Pidgey总等级是25,但一旦Pidgey被存入电脑,总等级就只有12了。
Whidden解释说:“它没有像人类一样的情感,但一个极高奖励值的单一事件仍然会对它的行为产生持久的影响。在这种情况下,只有一次失去宝可梦就足以让AI对整个宝可梦中心产生负面情感,并在以后的游戏中完全避开它。”
尽管这个AI能够经历创伤,欣赏Pallet Town的美丽,但它毕竟只是一台计算机。它无法阅读和解释游戏中的对话,因此在早期的尝试中,程序会在游戏中的一个十字路口卡住。当你到达《精灵宝可梦红版》的第二个城镇时,你会得到一个物品,需要带回Pallet Town的宝可梦教授那里。但AI很难回头交付包裹,这使得进一步的游戏进程变得不可能。因此,Whidden跳过了这一部分,使每个游戏都从交付包裹后开始,并以Squirtle作为AI的初始宝可梦,因为游戏的早期部分通常更容易使用水属性宝可梦。
Whidden表示:“在视频中,AI达到的最远地点是位于第一道馆和第二道馆之间的月见山(Mt. Moon)。在早期的《精灵宝可梦》游戏中,洞穴一直以来都令人沮丧,即使是拥有真正人类大脑的人也难以导航。” 但是,Whidden最近在他的代码中进行了一些奖励的调整,并尝试了不同的学习算法,最终,AI设法走出了洞穴,到达了蓝靛城。
其他研究人员已经使用强化学习来研究在游戏中使用AI,就像DeepMind的AlphaGo一样,它是第一个击败职业围棋选手的计算机程序。但Whidden的视频之所以引起如此多的关注,是因为他擅长通过人们熟悉的事物,如《精灵宝可梦》,来解释陌生的概念。
马斯克称xAI将于本周开源AI聊天机器人Grok
今日,马斯克表示,xAI将于本周开源AI聊天机器人Grok。xAI是埃隆・马斯克成立的人工智能公司,于2023年7月12日宣布成立。该公司的目标是专注于回答更深层次的科学问题,希望未来可以利用人工智能帮助人们解决复杂的科学和数学问题,并且“理解”宇宙。2024年1月24日,马斯克xAI团队即将发布首个AI大模型Grok1.5。站长网2024-03-11 17:10:150001微软推出语音合成模型NaturalSpeech 2 只需几秒提示语音即可定制语音
微软AI团队推出NaturalSpeech2,一款采用潜在扩散模型的先进文本到语音系统,具备强大的零样本语音合成和增强表达力的韵律功能。该系统可用于语音合成和唱歌合成,为用户提供高质量、多样化的语音合成体验。NaturalSpeech2是一种TTS系统,通过潜在扩散模型生成富有表达力的韵律、良好的韧性,并且最关键的是具备强大的零样本能力,能够进行语音合成。站长网2023-07-27 14:22:090000王化否认有小米SU2公路车:只是是网友玩梗
快科技7月5日消息,近日一份小米SU2公路车的渲染图在网络上疯传,不少朋友信以为真,甚至找王化等高管核实。对此,小米王化今天专门发文公开回应,称这只是网友玩梗的玩笑,不必当真。这也让很多网友非常惋惜,其实如今自行车的风潮很大,在各大平台成为了潮流新兴运动的代表,就像前两年的飞盘、浆板类似。站长网2024-07-06 16:13:130000大模型内心OS:聪明大脑如何匹配现实需求?
近两年,无论你身处什么行业,处于何种生活状态,相信大家对AIGC、大模型等热词并不陌生,从之前大火的AI作图、AI脚本、到AI恋爱,人工智能正在一步步地改变我们的生活方式。与此同时,大模型行业也在不断地进行迭代升级。近日,随着阿里云一则直降97%定价策略的“横空问世”,成功地将大模型行业的竞争格局,从“百花齐放”推向了更为激烈的“百家争鸣”阶段。站长网2024-05-29 19:37:250000“没有员工,OpenAI一无是处”
11月20日,微软CEOSatyaNadella最终告诉全世界,被OpenAI董事会罢免的CEOSamAltman和因此辞职的董事会主席、总裁GregBrockman加入微软。OpenAI也为自己找到了临时CEO——视频流媒体网站Twitch的联合创始人EmmettShear。一场反转、再反转的“政变”终于尘埃落定。站长网2023-11-21 13:59:090000