DeepMind 被質(zhì)疑,干翻星際2人類選手全靠手速?
鈦媒體注:本文來源于微信公眾號量子位(ID:QbitAI),乾明、銅靈編譯整理,鈦媒體經(jīng)授權(quán)轉(zhuǎn)載。
幾天前,DeepMind開發(fā)的AlphaStar以10-1的戰(zhàn)績打敗星際2職業(yè)高手,引發(fā)了極大的關(guān)注。
DeepMind表示,自己能夠贏,全靠策略。
但這個說法,遭到了大量的質(zhì)疑,無論是的Reddit和Twitter上,還是知乎和微博上,大多人都持有的觀點(diǎn)是:
AlphaStar能贏,全靠手速。
比賽中的一些時間段,AlphaStar的APM能夠達(dá)到1000+,而最頂級的人類選手不過500+。更何況,AlphaStar的有效操作也幾乎是炸裂的。
雖然這種情況沒有持續(xù)多久,但手速快慢以及精確度,對于星際2太重要了。
在這些質(zhì)疑中,有一篇文章引發(fā)了很多人的關(guān)注,Medium上的鼓掌超過了1.3K,Reddit上的Vote也已經(jīng)逼近700。
這篇文章的作者是一名來自芬蘭的小哥,名為Aleksi Pietikäinen,目前在芬蘭最大的金融公司OP Financial Group工作,自稱是星際2粉絲,對開發(fā)AI也有研究。
他在文章中以充分的論據(jù)指出,在比賽中,AlphaStar在操作速度和精準(zhǔn)度上遠(yuǎn)遠(yuǎn)超過了人類,這在很大程度上影響了戰(zhàn)局。DeepMind聲稱已經(jīng)限制AI執(zhí)行超越人類能力的行為,但他們沒有成功做到這一點(diǎn)。
AlphaStar的超人手速
通常情況下,APM是反映玩家水平的一個重要標(biāo)準(zhǔn)。
目前,星際2中公認(rèn)的頂尖人類高手是芬蘭的職業(yè)選手Serral,在2018年WCS上,9場重要比賽贏得了7場,一舉奪冠,創(chuàng)造了歷史記錄。
他的手速很快。很多人都認(rèn)為他應(yīng)該是世界上最快的。有多快呢?看下面的動圖:
但即便如此,Serral也不能夠長時間將APM維持在500以上。雖然有個800+的爆發(fā),但也只是持續(xù)了幾分之一秒,也很可能是垃圾操作。
AlphaStar呢?爆發(fā)后APM能夠達(dá)到1500+,有時候能夠在APM達(dá)到1000+的時候維持5秒鐘,而且大部分是有效操作。
一分鐘1500個操作,就相當(dāng)于一秒鐘25個操作。這對于人類來說,是不可能做到的。
而且,5秒鐘的時間在星際2中,也是一段非常長的時間。尤其是在重要的場景中,5秒的高效快速操作,將會為后期贏得勝利奠定關(guān)鍵的基礎(chǔ)。
下面的動圖,是第三場比賽中,AlphaStar對Mana的一場交戰(zhàn)場景,AlphaStar的APM達(dá)到了1000+,并維持了5秒。
在第四場比賽中,APM達(dá)到了1500+:
雖然不乏有人說,AlphaStar的平均APM只有277,仍然是可以接受的。但無論如何,它持續(xù)的爆發(fā),是人類遠(yuǎn)遠(yuǎn)做不到的。
AlphaStar的超人精確度
如果把有效操作和垃圾操作考慮在內(nèi),AlphaStar就更逆天了。
人類玩家的APM中,有很多都是無效操作,這些操作并不會游戲產(chǎn)生有效影響。
考慮了這些因素之后,衡量一個玩家手速與精確度時,就有了一個新指標(biāo):EPM。
剔除掉無效操作之后,Serral的EPM能夠達(dá)到344,每秒鐘有5-6次有效操作。這幾乎是聞所未聞的,以至于很多人都不敢相信這是真的。
如果,AlphaStar能在沒有垃圾操作的情況下進(jìn)行游戲的,這就意味著它的峰值A(chǔ)PM就等于它的EPM了。速度能達(dá)到最頂尖的人類選手的4倍!
雖然AlphaStar團(tuán)隊(duì)表示,這些APM并不全是有效操作。但無論如何,人類都是沒辦法復(fù)制AlphaStar這些操作的。
在敗給AlphaStar之后,MaNa談到了比賽的感受。他說,AI最好的一面是單位控制,在我們情況差不多的時候,AlphaStar能輕松獲勝。
但最糟糕的一面也是如此,AI非常確信自己能夠通過單位控制獲勝,以至于沒有做其他任何事情,導(dǎo)致最后一場失利,比賽中沒有多少關(guān)鍵的時刻,它能贏在于機(jī)制。
這也不是DeepMind想要看到的情形。
AlphaStar團(tuán)隊(duì)也致力于開發(fā)不超越人類操作能力的智能體。聯(lián)合負(fù)責(zé)人David Silver反復(fù)表示,AlphaStar不會超過人類選手的表現(xiàn)。
首席設(shè)計師也說,讓系統(tǒng)能夠“像人一樣”訓(xùn)練是可取的,如果只是通過很高的APM來將游戲推向極限,聽起來可能很酷,但這并不能用來評估智能體的真實(shí)能力。
“對人類不公平”
如上所述,AlphaStar的研發(fā)團(tuán)隊(duì)對AI系統(tǒng)的APM進(jìn)行了限制的。Aleksi Pietikäinen推測,可能會限制以下方面:
1、整個游戲中的平均APM。
2、短時間內(nèi)的爆發(fā)APM。將APM限制在每秒4-6次是一個合理值。Serral有效操作每秒鐘還不到6次。
但與Mana對戰(zhàn)的AlphaStar最高每秒操作25次左右,這比人類選手最快情況還要高,因此Aleksi Pietikäinen認(rèn)為出現(xiàn)這種情況是不合理的。
3、點(diǎn)擊間隔。即使AI的點(diǎn)擊速度被限制了,它仍然可以在瞬間執(zhí)行完動作,不用去考慮人類面臨的鼠標(biāo)點(diǎn)擊間隔問題。
三個原則確定后,接下來需要去訓(xùn)練模型了。DeepMind的方法是,下載了上萬條人類高級玩家打游戲的視頻,開始模仿學(xué)習(xí)。
在這個階段,AI會試圖模仿人類在游戲中所做的一切,包括無效操作。因?yàn)樵谳斎虢o模型的視頻中,人類確實(shí)進(jìn)行了很多無效操作,AI也會學(xué)到。
AlphaStar的最大爆發(fā)APM,最初與人類在同一起跑線。上面也說到過,因?yàn)榇藭rAlphaStar執(zhí)行的大多數(shù)操作都是無效的,因此在對戰(zhàn)中沒有有效的APM支撐,并不占優(yōu)勢。
但無效操作太多會一直拖慢訓(xùn)練進(jìn)度,為了加速開發(fā),DeepMind團(tuán)隊(duì)改變了對APM的限制,允許出現(xiàn)高爆發(fā),Oriol Vinyals在Reddit的AMA中也提到了這一點(diǎn):
5秒的時間段內(nèi)APM最大為600,15秒內(nèi)APM為400,30秒時間內(nèi)為320,60秒內(nèi)為300。如果AI在此期間內(nèi)執(zhí)行了更多操作,系統(tǒng)會選擇刪除/忽略操作。
乍一看DeepMind對星際2的AI的設(shè)置合情合理,但如果細(xì)想前面討論過的人類的爆發(fā)速度及操作精確度與點(diǎn)擊間隔時間,又不是那么回事。
舉個人類無效操作的最典型例子:想指揮單位移動、攻擊,就要用鼠標(biāo)點(diǎn)擊地圖上某個位置,這時候,人類的點(diǎn)擊速度會盡可能最快,這些點(diǎn)擊中也就有很多是無效的。
AI也會跟著學(xué)到這些無效操作。
而人類的點(diǎn)擊速度是有限的,所以AI一開始學(xué)到的操作速度也會受到同樣的限制。而它后來表現(xiàn)出的超人手速和這個人類速度相比,之間差了很多額外的“自由”APM。AI可以在這些自由APM上隨意實(shí)驗(yàn)。
在交戰(zhàn)的時候,AI就會拿這些自由APM來實(shí)驗(yàn),從中學(xué)會能得到更好成績的新行為模式,舍棄原本的無效操作。
這對人類來說,似乎是非常不公平的事情。
既然AI學(xué)會了更有效的操作,為什么DeepMind沒有重新啟用推出SC2LE環(huán)境時的180 APM嚴(yán)格限制呢?
這可能是因?yàn)?,AI偶爾還是會有無效操作出現(xiàn),這會明顯吃掉它的APM資源,在交戰(zhàn)時傷害到它的表現(xiàn)。
在DeepMind給出的官方資料中還有一些疑點(diǎn)。
在APM統(tǒng)計中看出,雖然Mana的APM平均值更高,但AlphaStar的“長尾”遠(yuǎn)遠(yuǎn)高于人類,在這些情況下AI用人類無法企及的精確度完成任何操作足矣。
可以看到,TLO的APM甚至到了2000,這個數(shù)值高得似乎有些離譜,這種情況可能是通過加速鍵盤實(shí)現(xiàn)的,這也會帶來無效操作。
但DeepMind并沒有解釋TLO的APM是怎么來的,但這樣會讓人誤以為AlphaStar的操作是合理的。
最后需要說明的一點(diǎn)是,這篇文章只是Aleksi Pietikäinen的觀點(diǎn)。
也有一些人認(rèn)為,就算AlphaStar的APM爆發(fā)突破了人類范疇,但它帶來的突破性進(jìn)展及其背后的意義,也是毋庸置疑的。
更多精彩內(nèi)容,關(guān)注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App