DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

鈦媒體 ? 6年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點(diǎn)擊進(jìn)來看看。

鈦媒體注：本文來源于微信公眾號量子位（ID:QbitAI）,乾明、銅靈編譯整理，鈦媒體經(jīng)授權(quán)轉(zhuǎn)載。

幾天前，DeepMind開發(fā)的AlphaStar以10-1的戰(zhàn)績打敗星際2職業(yè)高手，引發(fā)了極大的關(guān)注。

DeepMind表示，自己能夠贏，全靠策略。

但這個說法，遭到了大量的質(zhì)疑，無論是的Reddit和Twitter上，還是知乎和微博上，大多人都持有的觀點(diǎn)是：

AlphaStar能贏，全靠手速。

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

比賽中的一些時間段，AlphaStar的APM能夠達(dá)到1000+，而最頂級的人類選手不過500+。更何況，AlphaStar的有效操作也幾乎是炸裂的。

雖然這種情況沒有持續(xù)多久，但手速快慢以及精確度，對于星際2太重要了。

在這些質(zhì)疑中，有一篇文章引發(fā)了很多人的關(guān)注，Medium上的鼓掌超過了1.3K，Reddit上的Vote也已經(jīng)逼近700。

這篇文章的作者是一名來自芬蘭的小哥，名為Aleksi Pietikäinen，目前在芬蘭最大的金融公司OP Financial Group工作，自稱是星際2粉絲，對開發(fā)AI也有研究。

他在文章中以充分的論據(jù)指出，在比賽中，AlphaStar在操作速度和精準(zhǔn)度上遠(yuǎn)遠(yuǎn)超過了人類，這在很大程度上影響了戰(zhàn)局。DeepMind聲稱已經(jīng)限制AI執(zhí)行超越人類能力的行為，但他們沒有成功做到這一點(diǎn)。

AlphaStar的超人手速

通常情況下，APM是反映玩家水平的一個重要標(biāo)準(zhǔn)。

目前，星際2中公認(rèn)的頂尖人類高手是芬蘭的職業(yè)選手Serral，在2018年WCS上，9場重要比賽贏得了7場，一舉奪冠，創(chuàng)造了歷史記錄。

他的手速很快。很多人都認(rèn)為他應(yīng)該是世界上最快的。有多快呢？看下面的動圖：

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

但即便如此，Serral也不能夠長時間將APM維持在500以上。雖然有個800+的爆發(fā)，但也只是持續(xù)了幾分之一秒，也很可能是垃圾操作。

AlphaStar呢？爆發(fā)后APM能夠達(dá)到1500+，有時候能夠在APM達(dá)到1000+的時候維持5秒鐘，而且大部分是有效操作。

一分鐘1500個操作，就相當(dāng)于一秒鐘25個操作。這對于人類來說，是不可能做到的。

而且，5秒鐘的時間在星際2中，也是一段非常長的時間。尤其是在重要的場景中，5秒的高效快速操作，將會為后期贏得勝利奠定關(guān)鍵的基礎(chǔ)。

下面的動圖，是第三場比賽中，AlphaStar對Mana的一場交戰(zhàn)場景，AlphaStar的APM達(dá)到了1000+，并維持了5秒。

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

在第四場比賽中，APM達(dá)到了1500+：

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

雖然不乏有人說，AlphaStar的平均APM只有277，仍然是可以接受的。但無論如何，它持續(xù)的爆發(fā)，是人類遠(yuǎn)遠(yuǎn)做不到的。

AlphaStar的超人精確度

如果把有效操作和垃圾操作考慮在內(nèi)，AlphaStar就更逆天了。

人類玩家的APM中，有很多都是無效操作，這些操作并不會游戲產(chǎn)生有效影響。

考慮了這些因素之后，衡量一個玩家手速與精確度時，就有了一個新指標(biāo)：EPM。

剔除掉無效操作之后，Serral的EPM能夠達(dá)到344，每秒鐘有5-6次有效操作。這幾乎是聞所未聞的，以至于很多人都不敢相信這是真的。

如果，AlphaStar能在沒有垃圾操作的情況下進(jìn)行游戲的，這就意味著它的峰值A(chǔ)PM就等于它的EPM了。速度能達(dá)到最頂尖的人類選手的4倍！

雖然AlphaStar團(tuán)隊(duì)表示，這些APM并不全是有效操作。但無論如何，人類都是沒辦法復(fù)制AlphaStar這些操作的。

在敗給AlphaStar之后，MaNa談到了比賽的感受。他說，AI最好的一面是單位控制，在我們情況差不多的時候，AlphaStar能輕松獲勝。

但最糟糕的一面也是如此，AI非常確信自己能夠通過單位控制獲勝，以至于沒有做其他任何事情，導(dǎo)致最后一場失利，比賽中沒有多少關(guān)鍵的時刻，它能贏在于機(jī)制。

這也不是DeepMind想要看到的情形。

AlphaStar團(tuán)隊(duì)也致力于開發(fā)不超越人類操作能力的智能體。聯(lián)合負(fù)責(zé)人David Silver反復(fù)表示，AlphaStar不會超過人類選手的表現(xiàn)。

首席設(shè)計師也說，讓系統(tǒng)能夠“像人一樣”訓(xùn)練是可取的，如果只是通過很高的APM來將游戲推向極限，聽起來可能很酷，但這并不能用來評估智能體的真實(shí)能力。

“對人類不公平”

如上所述，AlphaStar的研發(fā)團(tuán)隊(duì)對AI系統(tǒng)的APM進(jìn)行了限制的。Aleksi Pietikäinen推測，可能會限制以下方面：

1、整個游戲中的平均APM。

2、短時間內(nèi)的爆發(fā)APM。將APM限制在每秒4-6次是一個合理值。Serral有效操作每秒鐘還不到6次。

但與Mana對戰(zhàn)的AlphaStar最高每秒操作25次左右，這比人類選手最快情況還要高，因此Aleksi Pietikäinen認(rèn)為出現(xiàn)這種情況是不合理的。

3、點(diǎn)擊間隔。即使AI的點(diǎn)擊速度被限制了，它仍然可以在瞬間執(zhí)行完動作，不用去考慮人類面臨的鼠標(biāo)點(diǎn)擊間隔問題。

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

三個原則確定后，接下來需要去訓(xùn)練模型了。DeepMind的方法是，下載了上萬條人類高級玩家打游戲的視頻，開始模仿學(xué)習(xí)。

在這個階段，AI會試圖模仿人類在游戲中所做的一切，包括無效操作。因?yàn)樵谳斎虢o模型的視頻中，人類確實(shí)進(jìn)行了很多無效操作，AI也會學(xué)到。

AlphaStar的最大爆發(fā)APM，最初與人類在同一起跑線。上面也說到過，因?yàn)榇藭rAlphaStar執(zhí)行的大多數(shù)操作都是無效的，因此在對戰(zhàn)中沒有有效的APM支撐，并不占優(yōu)勢。

但無效操作太多會一直拖慢訓(xùn)練進(jìn)度，為了加速開發(fā)，DeepMind團(tuán)隊(duì)改變了對APM的限制，允許出現(xiàn)高爆發(fā)，Oriol Vinyals在Reddit的AMA中也提到了這一點(diǎn)：

5秒的時間段內(nèi)APM最大為600，15秒內(nèi)APM為400，30秒時間內(nèi)為320，60秒內(nèi)為300。如果AI在此期間內(nèi)執(zhí)行了更多操作，系統(tǒng)會選擇刪除/忽略操作。

乍一看DeepMind對星際2的AI的設(shè)置合情合理，但如果細(xì)想前面討論過的人類的爆發(fā)速度及操作精確度與點(diǎn)擊間隔時間，又不是那么回事。

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

舉個人類無效操作的最典型例子：想指揮單位移動、攻擊，就要用鼠標(biāo)點(diǎn)擊地圖上某個位置，這時候，人類的點(diǎn)擊速度會盡可能最快，這些點(diǎn)擊中也就有很多是無效的。

AI也會跟著學(xué)到這些無效操作。

而人類的點(diǎn)擊速度是有限的，所以AI一開始學(xué)到的操作速度也會受到同樣的限制。而它后來表現(xiàn)出的超人手速和這個人類速度相比，之間差了很多額外的“自由”APM。AI可以在這些自由APM上隨意實(shí)驗(yàn)。

在交戰(zhàn)的時候，AI就會拿這些自由APM來實(shí)驗(yàn)，從中學(xué)會能得到更好成績的新行為模式，舍棄原本的無效操作。

這對人類來說，似乎是非常不公平的事情。

既然AI學(xué)會了更有效的操作，為什么DeepMind沒有重新啟用推出SC2LE環(huán)境時的180 APM嚴(yán)格限制呢？

這可能是因?yàn)?，AI偶爾還是會有無效操作出現(xiàn)，這會明顯吃掉它的APM資源，在交戰(zhàn)時傷害到它的表現(xiàn)。

在DeepMind給出的官方資料中還有一些疑點(diǎn)。

在APM統(tǒng)計中看出，雖然Mana的APM平均值更高，但AlphaStar的“長尾”遠(yuǎn)遠(yuǎn)高于人類，在這些情況下AI用人類無法企及的精確度完成任何操作足矣。

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

可以看到，TLO的APM甚至到了2000，這個數(shù)值高得似乎有些離譜，這種情況可能是通過加速鍵盤實(shí)現(xiàn)的，這也會帶來無效操作。

但DeepMind并沒有解釋TLO的APM是怎么來的，但這樣會讓人誤以為AlphaStar的操作是合理的。

最后需要說明的一點(diǎn)是，這篇文章只是Aleksi Pietikäinen的觀點(diǎn)。

也有一些人認(rèn)為，就算AlphaStar的APM爆發(fā)突破了人類范疇，但它帶來的突破性進(jìn)展及其背后的意義，也是毋庸置疑的。

更多精彩內(nèi)容，關(guān)注鈦媒體微信號（ID：taimeiti），或者下載鈦媒體App

隨意打賞

deepmind alphago deepmind 星際爭霸2 deepmind 星際爭霸谷歌收購deepmind 谷歌deepmind deepmind星際 deepmind

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？

AlphaStar的超人手速

AlphaStar的超人精確度

“對人類不公平”

DeepMind 被質(zhì)疑，干翻星際2人類選手全靠手速？