AI攻破人类最难竞技游戏:AlphaStar横空出世 星际争霸2人类1:10输 给AI

栏目:推拿 来源:河南之窗 时间:2019-06-15

天,朋友说:还记得我们

如果当初没有相遇,或许我不会是现在的我。在你的世界里,我笑过,痛过。如今,满身疲惫,带着自己的影子默默走出你的世界。不会再为你掉眼泪,不会再傻傻等你的电话,不会再苦苦求着你不要离开。爱若卑微,便不再是爱;爱若疼痛,就不叫爱。放手,是最好的解脱。

5、 如果你过得不开心,那不是别人的问题,那是你的问题。同样是上班,有人听着歌哼着小曲蹦蹦跳跳,有人皱着眉头睚眦必报。如果所有的人都逃避你,那不是别人的问题,那是你的问题,同样是下班,有人做饭摄影逛街聚会,有人烂醉嚎哭死宅,你的生活为何如此不堪?先问问自己。

6、 女孩子可以在适当的时候倔强一些,骄傲一些,二十几岁的女孩是最美的,可以肆意的笑,可以倔强的哭。二十几岁的女孩要做最真的自己,最美的年华留给灿烂的微笑,敢爱敢恨,敢于追求。

7、 什么叫真正的放下?就是有一天,当你再次面对你过往的难堪、你憎恨恼怒的人,心如止水,不再起心动念,坦然面对,一笑了之。即便别人在你面前,复述你过往种种不幸时,你仿佛是在听别人的故事,心里一丝涟漪都没有了。放下,莫过如此。

8、 时刻都保持笑容的人,往往最需要疼爱。因为内心中,他们把微笑当成取悦他人的方式,以期望换回对方的温柔相待。可惜世人总错以为爱笑的孩子不需要被照顾。会哭的孩子有糖吃,会笑的孩子却只能用微笑舔舐悲伤。太过伪装出坚强,会让别人不怕伤害你。

9、 谁都不知道会遇见怎样的人,但能肯定的是,无论对方是怎样的人,ta同样也渴望着你优秀,从容,美好。所以你不需要把大把的时间拿来幻想未来应当如何,而应该把所有的等待都用来武装自己。只是为了当有一天彼此遇见,能够理直气壮的说,我知道你很好,但是我也不差。

10、 总会有那么一天,你不会抱怨苦、也不会再说累,有时是不想,有时是发现身边的每个人都在过自己的生活,无暇顾及你的一点在对方看来小、在你看来大的情绪;有时是你条理明细地对对方诉说,而对方对你的理解依然不着边际,这时候,你才会发觉:孤独是一辈子的事情,而成人之后无人懂得的孤独更显苍凉。

11、 如果真的有一天 , 某个回不来的人消失了 ,某个离不开的人离开了,也没关系,离开一个错的人,才能遇见一个对的人,时间会把正确的人带到你的身边。在此之前,所要做的,就是好好照顾自己,让自己变得更加优秀,相信有一个人正走在与你相遇的路上,人生是一场盛大的遇见,你若懂得,就请珍惜。

12、 努力去做一个温暖的人,用真心对世界微笑,用眼泪提醒自己要做的更好,用快乐去迎接每一天的阳光,用自信向世界宣称你过得很好。

13、 不知道是越来越独立,还是越来越心虚,走了这么久,发现唯一靠得住的还是自己。

14、 我不知道自己将要去向哪里,我只希望我不会是一个人。

15、 我们所有的等待,不过是为了遇见这样一个对的人。只要是对的他,来得慢点也没关系!

16、 男人总会忽略身边最爱他的人,而宁愿花时间去应酬那些陌生人。女人总是把太多时间放在最爱的人身上,而完全忽略了身边其他的人。所以说啊,男人不要为全世界而活,真正属于男人的,或许只有那一个爱人,几个家人。女人也不要只为一个人而活,你的人生,还可以拥有全世界。

17、 无论受了多少委屈,只有自己憋在心里,不是不想说。只是不知道该怎么说、能和谁说。

18、 两个人在一起久了,就像左手和右手,即使不相爱了,也会选择相守。因为放弃这么多年的时光需要很大的勇气,也许生命中会出现你最爱的人,那将也是你生命中的过客。你最终还是牵着你的左手或者是右手走下去。执子之手,与子偕老。当初的誓言,后来的责任,最后的习惯。

19、 当你想要安静的时候我会静静地守候,当你需要倾诉的时候我会耐心的倾听。

20、 你生活的起点并不是那么重要,重要的只是在你最终所能够到达哪里。

21、 有一天,蓦然回首,你会发现,那个给你许多痛苦的人,却也是你的救赎。

22、 在你尝试了解他人和盼望他人了解你之前,先把你变成一个更好的人和了解自己的人。

23、 有人说,如果你很想要一样东西,就放它走。如果它回来找你,那么它永远都是你的。

24、 失败多少次不重要,重要的是你能重新站起来多少次,并且继续前行。

25、 每天早晨,都再一次提醒自己,生命短暂而美好,没时间纠结,没时间计较www.SiandiAn.com。

26、 人生就是这样,耐得住寂寞才能守得住繁华,该奋斗的年龄不要选择了安逸,度过了一段自己都能感动的日子,就会遇见那个最好的自己,踏实一些,你想要的岁月统统会还给你。

27、 当我以为我无法继续走下去时,我强迫自己要继续前进。我的成功是基于我的坚持,并非运气。

28、 你的名字写下来不过几厘米那么短,可是却贯穿了我那么长的时光。其实,你并不知道,你一直是我的梦想。

29、 因为你,我学会了坚强,而你,依旧是我的伤。

30、 相信明天不会比今天更坏,如果还能再坏,那今天的糟糕就不算什么。

31、 世界上最令人激动的一件事情是,你原本以为没有机会靠近的人,竟然爱上了你。

32、 有时候为了得到你最想要的,你不得不做你最不想做的。

33、 没有大笑的一天等于浪费的一天。新的一天,从一个微笑开始。

34、 避免失望的最好办法,就是不寄希望于任何人、任何事。

35、 比起那些你追了很久却没能在一起的,更可恨的是那些借爱之名闯进你的生活,在你准备适应他的存在、接受他的围绕时,却露出原本面貌的人。不要因为习惯一个人而无条件地退让,也不要因为害怕回到一个人而不快乐的继续。学会聪明的告别,不值得为了错的人,坏了自己对爱的信心。

36、 我不要众人围观的幸福,浅浅自知就好。谁都无权评点他人的生活,既然无法替代别人去生活,就该用沉默来尊重他人之选择。每个人的生活之下,都有些你看不到的真相。秘而不宣。冷暖自知。

37、 做一个快乐的女子,一定要快乐,不快乐也要制造快乐,笑容不一定能使世界绽放,却可放松紧绷的胸膛,开心,就笑,让大家都感染到,悲伤,就哭,美容,倾诉,然后一切归零,爽朗,对内心卑微的自己笑笑,汲取安慰和力量,信赖,神清气爽,然后可以轻舞飞扬,生活,其实没有什么大不了。

38、 你要创业,就不要去找个安心上班的人给意见。你要结婚,就不要去找个信奉单身主义的人给意见。你要投资,就不要找只图安稳把钱存银行的人给意见。不是每个人的意见都有价值,大部分人的意见听听就好了,他们所说的可行或者不可行,其实大都说的是自己,跟你根本没关系。

39、 真正的爱人是你教出来的,而不是你拣个大便宜不劳而获从天上掉下来的。你要教会他用怎样的方式去爱你。

40、 如果你想任性,那就先学会承受,能承受后果才可以任性。如果你想独立,那就先学会坚强,能忍住伤痛,才可以独立。如果你想放肆的爱,那就先学会遗忘,忘掉失恋痛楚,才可以大胆爱。你可以去做一切事情,但前提是不会为结果伤悲。一个人真正的强大,并非看他能做什么,而是看他能承担什么。

41、 要斩断自己的退路,才能更好地赢得出路。在很多时候,我们都需要一种斩断自己退路的勇气。因为身后有退路,我们就会心存侥幸和安逸,前行的脚步也会放慢;如果身后无退路,我们就会集中全部精力,勇往直前,为自己赢得出路。

42、 "当你离开高中,你会觉得少了很多东西,再也找不到书桌上堆满课本的感觉,坐着属于你的角落上课的感觉,一起站在走廊望着田径场聊天的感觉,放学笑闹着一起回家的感觉,偷偷传纸条的感觉,有目标明确的感觉,对未来充满希望的感觉。这些都过去了,而一切过去了的,都将成为亲切的怀念。"

43、 这个世界上,房子有价格,车子有价格,面子有价格,甚至连伴侣也有价格,然而,一切能用钱买到的东西,都不是最值钱的。唯有感情,始终只能物物交换,若你想得一颗真心,唯有用你自己的真心来换。

44、 如果不喜欢,那就去改变,如果改变不了,那就去适应。如果做不到适应,那就只好回避。如果连回避也做不到,就只有放手。一般的情况是,能干的人会选择改变,懒惰的人会选择适应,懦弱的人选择回避,勇敢的人选择放手。

45、 从现在起,我开始谨慎地选择我的生活,我不再轻易让自己迷失在各种诱惑里。我心中已经听到来自远方的呼唤,再不需要回过头去关心身后的种种是非与议论。我已无暇顾及过去,我要向前走。

46、 我想,努力的想明白有些事,可越用心去想,心底的伤疤就越会被疼痛撕扯的血流不止。放空自己不去想时,心底的伤疤,却被偶尔的伤感撕裂的惨不忍睹。情不知所起,却一往而深。想要收集所有的美丽,好好地爱,温柔地珍惜,抒写爱的童话。却发现,爱如此艰难,如此卑微,如此心痛,如此的不确定,如此的无能为力。

47、 我们还要经历多少次,连再见都来不及说的分离。不要说不在乎,那不过是掩饰。真正的不在乎,是什么也不说,就这样让一切过去;就是张着眼睛,注视着它,慢慢流过,你也无动于衷;就是它再刺激你,你也不为所动。就是痛苦,就是伤悲,就是留恋,从此你都不会再想起。

48、 伸出手能触摸到阳光的温度,却抓不住流失的岁月;一回眸能相遇到深情的微笑,却留不住擦肩的缘分;研边墨能感觉到文字的悲伤,却守不住相思的煎熬;池塘花能倾听到光阴的留白,却闻不到自身的幽香;流浪情能敷衍了一时的激情,却得不到一生的挚爱;简单人能享受到清浅的岁月,却拥有了难忘的回忆。

49、 感情远了,心情也变得越来越淡了,淡的久了,渐渐地连问候也疏远了,我们总以为有些东西刻骨铭心,胜过时间,其实都在自我麻醉,自己骗自己,这个浮躁的世界,可以磨灭一切情感的除了时间,我想不到还有第二者。今夜星空,不知搅了多少人的美梦,又让多少人彻夜无眠。

50、 或许,以后牵着我的手的人会没有你帅气,没有你明朗的笑容,不会唱好听的歌,不会忧郁的让人心疼。不会你会的,却会牵着我的手,轻声说爱我,然后脸红到脖子里。而我会不再主动找话题,会不再因为他一句话惆怅不已,会不再整夜整夜守在手机入眠,不会像爱你那样爱他。可是,我会嫁给他,然后忘记你。

51、 我设计了一万种方式遇见你,可是一直害怕一次真正的相遇。每段爱情在走向终结时,到带回去,一路上或花草鲜美,或落英缤纷,而最初总是倾心的。宽恕,原谅并不代表忘记,也不代表赦免,而是放自己一条生路。孤单不是有没有朋友的关系,而是有没有住在你的心里。

52、 总以为,一场花开,遇到你便是幸福的花序。总以为,一世轮回,拥有你便是圆满的结局。总以为,红烛点尽,许下的天长地久,便会成真。总以为,会与子携手,白头到老。后来,才懂得,那是一场时光轮回的错,那是一场花季开落的错,那是一场姻果难全的错。那么,谁能把红尘散了,无声无息的等候花季。

53、 没有谁是天生的注定,也没有谁是命运的败儿,说到底我们都是生活的孩子,不管前面的风景如何,我们要做的就是走好自己的每一步路,也许做好自己就是最美的人生。习惯了太多的离别,可是每一次离别的时候,我总是忍不住离别的泪水,也许这些泪水就是曾经的。

54、 或许,我们都曾经有过这样的经历,因太在意某个人、太看重某件事,并把这些在意捧在手心,藏于心底,视为生命,而当某天突然失去或失败时,那份失落和挫败,那种刻苦铭心的痛苦和心灰意冷,分分秒秒折磨着脆弱的灵魂,我们会萌生绝望,甚至会想到以死结束一切,想用死逃避现实和绝境。

55、 相约在一个不会醉的月夜,心事如石,不经意间,便醉了心梦,迷了眼帘,凝眸天涯,寂寥心岸,问归路。感思念的浅痛,仿佛,又可以停留在不会改变的石路上,然后,我走左边,你走右边。可笑我筑起的壁垒,瞬间坍塌,没有看见停留,心墙终归落魄,凌乱成不复的空白。

们总在时光深处回忆从前,也在岁月飞逝中遗落彼此,遗忘那些誓言。人生总有一段不堪回首的记忆,总有一种已经很久了,却还不相忘的情谊。,无论时间如何变,岁月如何老,我们依旧不变,守着那一份真挚的美好,在时光深处感叹一句:“倘若人生若只如初相见,我定珍惜如金!”


刚刚,我们见证了 AI 与人类 PK 的又一次重大进展!DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar 5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯汀站亚军 MaNa 。与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与MaNa 的对战,已经初步显示了可以超越人类极限的能力。

这次的演示也是 DeepMind 的星际争霸 2 AI AlphaStar 的首次公开亮相。除了此前比赛录像的展示外,AlphaStar 还和MaNa 现场来了一局,不过,这局AlphaStar 输给了人类选手MaNa 。

图 | MaNa 正在聚精会神比赛(图源:Youtube)

DeepMind 在演示中介绍,双方的比赛固定在 Catalyst LE 地图,采用 4.6.2 游戏版本,而且只能进行神族内战,双方将进行 5 场比赛。首先接受邀请的是 Liquid 战队的虫族选手 TLO,目前世界排名 68。

图 | TLO(图源:Youtube)

第一场比赛,TLO 出现在 10 点钟方向,AlphaStar 出现在 4 点钟对角方向。TLO 的开场非常传统,采用了双兵营封路的开局,但 AlphaStar 并没有封路,这一问题被 TLO 的农民侦查到,他果断拍出使徒,采用了常见的杀农民骚扰策略。

虽然 AlphaStar 没有封路,直接放进了 TLO 的使徒,但 AlphaStar 的双兵营也造出了使徒防守,导致 TLO 的第一次骚扰只杀掉了两个农民,剩下的使徒也无功而返。

随后双方都开始补出追猎,TLO 开始用先知骚扰。双方进行了多个小规模交战,几波互换几乎平手,AlphaStar 损失的农民较多,TLO 损失了多个使徒。在交战中,我们看到了 AlphaStar 进行了类似人类的微操,一边撤退,一边反打 TLO 的追猎,同时利用棱镜传输兵力。

图 | AlphaStar 的视野,它可以看到全地图战争迷雾之外发生了什么,然后做出决策,实现全局资源调度(图源:Youtube)

不过 TLO 此时的二矿刚刚建好,AlphaStar 只有单矿,将更多的经济转化成了兵力,因此 AlphaStar 爆出了更多的追猎,直接选择进攻二矿,TLO 的追猎寡不敌众,在主力兵力被歼灭后打出 GG。

第一局以 DeepMind 的胜出为结果,我们看到了 AlphaStar 的一些不同寻常做法,比如不选择互相骚扰农民,而是直接用兵力防守,然后发现 TLO 拍下二矿之后,在正面战场用一定数量的追猎持续压制

由于时间限制,演示中并没有播放所有比赛,而是在展示了另外一局比赛录像后,给出了 TLO 五局全败的战绩。不过所有的录像都将在 DeepMind 官网上放出,供人下载。

TLO 在演示中表示,他觉得自己还是可以赢的,如果能够有更多的训练时间,对 AlphaStar 有更多的了解,是一定可以找到 AlphaStar 弱点,然后获胜的。

随后登场的是 Liquid 战队 MaNa,作为排名 19 的神族选手,他比 TLO 更加强大。如果 AlphaStar 可以战胜他,那将说明 AlphaStar 真的具备了人类顶尖选手的实力

图 | AlphaStar 和人类选手的 APM 并没有太大区别(图源:Youtube)

与 MaNa 的第一局,双方都是“常规”开局,MaNa 封路,AlphaStar 没有封路。不过 AlphaStar 采取了变种战略,选择在 MaNa 基地附近放下水晶,拍下两个兵营,准备利用兵营距离的优势进攻。MaNa 此时还在按照人类的思路,利用使徒骚扰农民。

在 AlphaStar 兵营快完成的时候,被 MaNa 发现,他果断采取了防守措施,在高坡建造了两个充电站,准备利用封路和高坡的优势防守即将到来的追猎大军。按照 MaNa 的想法,“正常的人类选手是不会走上那个高坡的”。

但是 AlphaStar 并不是人类,它犹豫两次之后选择直接攻上高地,由于追猎数量碾压 MaNa,野兵营还在源源不断地输出追猎,因此充电站几乎没有效果,几轮点射之后,MaNa 的追猎所剩无几,最终拉出所有农民也没能挽回败局,宣告失败。

在随后的两局录像复盘中,我们看到了 AlphaStar 的强大微操和战术思路,它会学习和尝试人类的封路战术,生产额外的农民缓解骚扰带来的影响。在一局比赛中,我们看到了 AlphaStar 使用了纯追猎战术,仅靠强大的微操对抗 MaNa 的追猎、不朽和叉子组合的混合军队。

图 | 实时战局(图源:Youtube)

AlphaStar 将 30 多个追猎分成 2-3 组,从 3 个方向包夹 MaNa 的进攻部队,然后靠闪烁躲避 9 个不朽的攻击,这种非人类的操作彻底摧毁了 MaNa 的操作空间——无论他建造多少个不朽,都没有办法抵抗追猎大军。“这种情况在同水平人类对局中完全不会出现,”MaNa 在演讲中无奈地说道。

最终 MaNa 也以 0-5 的成绩败北,人类与 AlphaStar 的 10 局比赛结果全是失败。

不过在演示直播中,DeepMind 似乎有些膨胀,选择与 MaNa 进行了一场即时表演赛,后者也表示,自己要为 Liquid 战队正名,扞卫战队和人类的荣誉。

双方常规开局,在前期并没有进行大规模交战。但 MaNa 显然是有备而来,没有使用使徒和先知骚扰,而是专注于侦查和攀升科技。在发现 AlphaStar 依旧生产了茫茫多追猎后,MaNa 采用了棱镜运输不朽的骚扰战术,同时补出不朽、叉子和执政官等混合部队。这可谓是整场比赛的神来之笔

图 | 三个先知围着棱镜看热闹(图源:Youtube)

在空投不朽骚扰农民时,AlphaStar 并没有选择补出凤凰打击棱镜,而是用不能攻击空中单位的先知跟踪棱镜,辅以数十个追猎来回往返前线和家中。看起来,它认为追猎可以对空攻击,因此不需要补出凤凰,而且似乎所有追猎都在一个分组内,没有分批分别执行进攻和防守任务。

于是我们看到了人类玩家对抗 AI 的典型方法:逼迫后者陷入循环执行某种任务的怪圈,使其浪费巨额时间和资源,无法形成有效的局势判断

就这样,MaNa 消耗到了自己的兵力成型,然后一波压制直接瓦解了 AlphaStar 的纯追猎部队。后者还尝试利用包夹的战术阻挡 MaNa,但这一次 MaNa 的兵力充足,不朽对追猎的克制十分明显,没有留给 AlphaStar 一丝操作的机会,全歼对手,获得了宝贵的胜利。

图 | MaNa 获得表演赛胜利,露出了迷之微笑(图源:Youtube)

虽然 TLO 和 MaNa 的录像以全败告终,宣告了 DeepMind AlphaStar 的实力已经不可同日而语,但这场表演赛充分暴露了 AlphaStar 目前的不足。

我们不难看出,尽管其神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套,而且从 5 个小叮当抱团,到纯追猎部队,都显示出它对游戏兵种的理解尚不到位,如果最后一局它可以像人类一样直接派出凤凰防守棱镜,或许它将继续凭借超强的微操一波推平 MaNa。

比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar,DeepMind 科学家 Oriol Vinyals、David Silver 表示,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 AlphaStar 成型的第一步。

图 | DeepMind 科学家 Oriol Vinyals(图源:Youtube)

图 | DeepMind 科学家 David Silver(图源:Youtube)

之后,团队会使用一个称为“Alpha League”的方法。在这个方法中,Alpha League 的第一个竞争对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代,产生新的 agent 和分支,用以壮大“Alpha League”。

图 | Alpha League 示意图(图源:Youtube)

然后,这些 agent 通过强化学习过程与“Alpha League”中的其他竞争对手进行比赛,以便尽可能有效地击败所有这些不同的策略,此外,还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进,比如说旨在获得特定的奖励。

最后,团队在“Alpha League”中选择了最不容易被利用的 agent,称之为“the nash of League”,这就是 TLO 所对战的5个。

为什么是"星际争霸 2"?

比赛前期,DeepMind 与暴雪就联合发布了关于此次比赛的重磅预告:将在北京时间周五凌晨 2 点展示 Deepmind 研发的 AI 在即时战略游戏星际争霸 2 上的最新进展。如今,这个进展终于揭开神秘面纱。

而 DeepMind 开发星际争霸 2 AI,最早可以追溯到 2016 年。当时,DeepMind 研究科学家 Oriol Vinyals 在暴雪嘉年华现场透露 Deepmind 与星际争霸 2 紧密合作的最新进展及未来的计划。在 AlphaGo 在 2017 年围棋大获全胜之后,DeepMind 开始对外宣布,团队正在着手让人工智能征服星际争霸 2,这款游戏对人工智能在处理复杂任务上的成功提出了"重大挑战"。

在 2018 年 1 月的 EmTech 大会上,谷歌 DeepMind 科学家 Oriol Vinyals 曾对 DT 君表示,第一版的 AlphaGo 击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。团队是从零开始,一点点积累积数据训练,最后战胜了专业棋手。而除了棋类游戏以外,DeepMind 比较感兴趣的,就是游戏星际争霸 2。

继围棋之后,DeepMind 为什么要选择星际争霸 2 这款游戏为下一个目标呢?

星际争霸 2 是由美国着名游戏公司暴雪娱乐(Blizzard Entertainment)推出的一款以星际战争为题材的即时战略游戏。星际争霸 2 具备策略性、竞争性的特性,在全球都非常火爆,并且每年都会举办大量的比赛,因此也有着海量的玩家基础。

图丨谷歌 DeepMind 科学家 Oriol Vinyals(来源:DeepTech)

据 Oriol Vinyals 当时透露,星际争霸 2 是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。除此之外,还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。

而且,和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在星际争霸 2 中我们通常无法看到整个地图,需要派小兵出去侦查。另外,游戏是不间断进行的。整个游戏甚至会有超过 5000 步的操作。对于增强学习这种方法来说,除了上下左右这些普通的移动,用鼠标点击界面控制不同物体的移动以及不同的行为也是非常难的。

星际争霸 2 的这些特质,恰恰是人工智能在创新之路上需要挑战的——面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。

(来源:DeepMind)

星际争霸 2 作为"即时战略"游戏,其"即时"和"战略"的特性无疑是锻炼 AI 的最佳途径之一。就拿"即时"来说,或许对于人类,星际 2 的那 300 多个基础操作的"操作空间"(Action Space)并不庞大。但是对于机器,星际 2 的分级操作,外加"升科技"所带来指令的变化,再加上地图的体积,其操作空间是无穷大的。比如"农民建房子"这个简单的行动就有 6 个不同的步骤:点击滑动鼠标选择单位,B 选择建造,S 选择供给站,滑动鼠标选择位置,点击建造。仅在一个 84x84 的屏幕上,机器的操作空间有大约 1 亿个可能的操作。

AlphaGo Zero 创造者:"这个比围棋难多了"

在 DeepMind 与暴雪长期以来的合作中,有几个重要节点:

2017 月 8 月,星际争霸 2 开发团队发布人工智能研究环境 SC2LE(StarCraft II Learning Environment),它包括一个能让研究人员和开发人员与游戏挂钩的机器学习 API,开放了 65000 场比赛的数据缓存,以及 50 万次匿名游戏回放和其他研究成果。其中一些数据对于训练和辅助序列预测和长期记忆研究非常有用,当时团队也希望通过这些工具,帮助研究人员加快星际争霸 2 AI 的开发速度。

图丨 Julian Schrittwieser(来源:麻省理工科技评论)

SC2LE 发布不久以后,AlphaGo Zero 创造者之一、《麻省理工科技评论》TR 35 获得者 Julian Schrittwieser 在在一场网络互动中表示:星际争霸 2 的 AI 尚处早期,研发难度比围棋人工智能更大,在 AlphaGo Zero 诞生之后,团队希望能以此为契机,在 AI 研究上再次实现突破。

团队与星际争霸 2 相关的第一篇公开论文,则出现在 2018 年 6 月。当时,DeepMind 在 arXIv 发布其最新研究成果:用关系性深度强化学习在星际 2 六个模拟小游戏(移动、采矿、建造等)中达到了当前最优水平,其中四个超过人族天梯大师组玩家。

之后,直到 2018 年 11 月,在暴雪的一场展会上,我们才再次得知这个项目的进展——DeepMind 团队曾展示了能够执行基本的集中策略以及防御策略的人工智能进展:在掌握游戏的基本规则后,它就会开始表现出有趣的行为,比如立即冲向对手攻击,研究团队还公布其 AI 在对抗"疯狂"电脑时也有 50% 的胜率。

对比 3 个月后的今天,从 DeepMind AI 在比赛中的表现,不得不说其进步之快。

接下来另一场值得期待的"大战",将发生在 2 月 15 日:在星际争霸 2 AI 直播预告公布后,芬兰电竞战队 ENCE 也发布通告,称 WCS 星际争霸 2 全球总冠军芬兰选手 Serral 将在与星际 2 人工智能上演一场人机大战。届时 AI 与人类顶尖选手的对战,或许还将会再次创造新的历史事件。

图 | ENCE通告(图源:Twitter)

今年的"人机大战"看什么?打造通用性 AI 依然"道阻且长"

近几年,除了 DeepMind 以外,已经有越来越多的人工智能公司或者研究机构投身到开发游戏类AI的浪潮中,例如 OpenAI 和腾讯的 AI lab 等等。

归根结底,这些团队对游戏AI的热情,恐怕都源于打造通用型人工智能的这一终极目标:游戏AI的研发将会进一步拓宽人类对于AI能力的认知,这样的研究最终将探索的问题 AI 能否能够通过游戏规则进行自主学习,达到更高层次的智能乃至通用型人工智能。例如,在游戏AI的设计中,增强学习算法的改进将至关重要。增强学习是一种能够提高 AI 能力的核心算法,它让 AI 能够解决具有不确定性动态的决策问题(比如游戏 AI,智能投资,自动驾驶,个性化医疗),这些问题往往也更加复杂。

而 DeepMind 团队的成果已经为此带来了一丝曙光——AlphaGo Zero在短时间内精通围棋、象棋、国际象棋三种棋类游戏,已有棋类通用AI雏形。棋类游戏之后,最值得期待的进展,就是各家开发的AI在即时战略类 RTS 游戏或多人在线竞技类 MOBA 游戏上的表现了。此前,腾讯 AI Lab 负责人之一姚星就介绍过,在游戏AI的研究上,腾讯 AI Lab 已从围棋 AI “绝艺”等单个 AI 的完全信息博弈类游戏,转移到规则不明确、任务多样化、情况复杂的游戏类型,如星际争霸和 Dota2 等复杂的即时战略类 RTS 游戏或多人在线竞技类 MOBA 游戏。

图丨OpenAI 宣布他们所打造的一个 AI 机器人已经在电子竞技游戏 Dota 2 中击败了一个名为 Dendi 的人类职业玩家(来源:OpenAI)

在刚刚过去的2018年,OpenAI 开发出的 AI OpenAI Five 就是针对 Dota2 开发的AI,但是它与人类 PK 的过程可谓充满戏剧性。2018 年 8 月初,OpenAI Five 战胜一支人类玩家高水平业余队伍(天梯 4000 分左右),然而,到了 8 月底 OpenAI Five 被两支专业队伍打败, AI 提前结束了其在本届 DOTA 2 国际顶尖赛事 TI 8 的旅程。回顾那次失败的过程,其实OpenAI 的系统仍然无法全面理解 DOTA 复杂的游戏系统和规则。

现在,DeepMind 的星际争霸2 AI 已经以其超强实力打响游戏 AI 2019 年第一战,接下来还有哪些游戏AI将横空出世呢?各大游戏AI又将如何迈向通用人工智能,让我们拭目以待。

相关文章
评论
新版评论功能开发中
头条推荐
最新资讯