雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

雷鋒網(wǎng) ? 6年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

雷鋒網(wǎng) AI 科技評論按：各位讀者想必今天一睜眼就被「OpenAI 的人工智能在 DOTA 5v5 比賽中也打敗了人類選手」的新聞刷屏了。 OpenAI?開發(fā)的?DOTA?AI?去年在 1v1?solo?中打敗頂級職業(yè)選手 Dendi?和?Sumail 之后，緊接著就放出豪言還要在 5v5?的?DOTA 比賽中擊敗人類，這一天仿佛這么快就到來了。

5v5?AI，一個(gè)新的臺(tái)階，不過這個(gè)?AI?其實(shí)還比較初級

DOTA（以及 DOTA2）是目前最火熱的電子競技游戲之一，也是當(dāng)之無愧的職業(yè)比賽規(guī)模最大、獎(jiǎng)金最高的游戲。DOTA?游戲有很高的難度，對人類玩家來說都需要很長的學(xué)習(xí)時(shí)間，因?yàn)?DOTA?中有上百種英雄、上百種物品、多種游戲策略、不同英雄有不同的玩法、不同的英雄組合之間也有獨(dú)特的技能和裝備配合；除此之外玩家還需要審時(shí)度勢，同一個(gè)英雄在不同局面中也有不同的玩法。DOTA?的職業(yè)比賽也因此而變得激動(dòng)人心，選手的局部小操作和整個(gè)團(tuán)隊(duì)改變戰(zhàn)局的戰(zhàn)略執(zhí)行都會(huì)被玩家們津津樂道。

復(fù)雜的英雄、物品、配合、長短期策略結(jié)合等方面正是我們長期認(rèn)為?DOTA?這樣的游戲?qū)ΜF(xiàn)階段的?AI?來說過于困難的原因。而且除了這些人類眼中的認(rèn)知難題之外，DOTA?游戲的行動(dòng)空間還非常龐大。相比于圍棋中每一步操作只需要在棋盤上剩余的空位中選一個(gè)落子，DOTA?中的行動(dòng)是非常密集的（每分鐘操作在 100?次數(shù)量級）、考慮時(shí)間長短的（比如持續(xù)施法技能）、數(shù)值連續(xù)的（比如走位）、復(fù)雜多值化的（比如購買裝備）、信息是部分可觀察的（地圖上有大量的無視野區(qū)域），反饋也可以認(rèn)為是稀疏的（勝負(fù)最為重要），所以主流觀點(diǎn)一度認(rèn)為類似?DeepMind?開發(fā)?AlphaGo?時(shí)那樣的純粹強(qiáng)化學(xué)習(xí)自我對弈是無法學(xué)會(huì)玩?DOTA （以及星際等即時(shí)戰(zhàn)略游戲）的，過大的行為空間會(huì)讓訓(xùn)練過程長期停留在沒有有效反饋的區(qū)域從而無法收斂。層級強(qiáng)化學(xué)習(xí) 被認(rèn)為是一種有希望幫助訓(xùn)練過程快速走出低效探索的方法，但發(fā)展仍不成熟。

OpenAI?對于?DOTA?AI?的最終目標(biāo)是開發(fā)出能夠打敗人類職業(yè)選手的?AI。顯然這樣的目標(biāo)是無法一蹴而就的，所以他們的指導(dǎo)思想是分步走，從英雄、物品、地圖范圍、策略都有高度限制的 1v1?比賽開始，然后逐步減少限制，同時(shí)逐步改善模型，一步步接近最終目標(biāo)；去年?TI（國際邀請賽）中 1v1?打敗 Dendi，以及在測試比賽中打敗 Sumail 的?DOTA?AI?就是其中的第一步。對于這樣的結(jié)果，初看有些意外，但細(xì)想之下還是比較合理的。畢竟玩?Atari?游戲我們都已經(jīng)司空見慣了。

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

對于接下來的 5v5?AI（名為?OpenAI?Five），自然也保留了諸多限制，游戲環(huán)境和各位玩家熟悉的樣子有諸多不同。OpenAI?Five 在這個(gè)環(huán)境里做了多次迭代更新，4?月 23?日版本首次打敗了?OpenAI?自己編寫的基于腳本的基準(zhǔn)模型，5?月 15?日的版本與?OpenAI?員工隊(duì)伍（天梯分段 2500，高于 46%?的玩家）打了一勝一負(fù)；而 6?月 6?日的版本則在與業(yè)余戰(zhàn)隊(duì)（天梯分段 4200，高于 93%?的玩家）和半職業(yè)戰(zhàn)隊(duì)（天梯分段 5500，高于 99%?的玩家）的比賽中都贏得了三局中的前兩局。

OpenAI?Five?目前設(shè)定的游戲中的限制有以下這些方面：

比賽雙方都使用固定的瘟疫法師、冥界亞龍、矮人火槍手、水晶室女、巫妖 5?個(gè)英雄，而不是在超過 110?個(gè)英雄中任意選擇（顯然我們也可以推測出?OpenAI?就是以這組固定的英雄進(jìn)行訓(xùn)練的）
禁止使用守衛(wèi)，禁止使用隱身物品（消耗品及裝備）
禁止使用幻象和分身
禁止打肉山
禁止購買圣劍、魔瓶、壓制之刃、遠(yuǎn)行鞋、知識(shí)之書、眼淚
禁止使用掃描
OpenAI?Five?方有五個(gè)無敵的信使，不過也禁止使用這些信使看視野以及承受傷害

顯然各位 DOTA?玩家一看就知道，僅英雄選擇的限制這一項(xiàng)就極大降低了游戲的復(fù)雜度；隱身、肉山之類的禁用也縮小了戰(zhàn)略戰(zhàn)術(shù)的選擇空間；至于 5?個(gè)無敵的信使就更像是對 5?個(gè)?AI?之間（也許并不理想的）協(xié)作能力的妥協(xié)了。

不過，能打敗業(yè)余和半職業(yè)戰(zhàn)隊(duì)的表現(xiàn)畢竟還是有一些特色的，能在三局中贏得前兩局也說明了?AI?的策略選擇與執(zhí)行的效果。在幾場比賽中?OpenAI?Five?的玩法體現(xiàn)出了這些特點(diǎn)：

采取的策略總是放空自己的優(yōu)勢路，攻擊對方的優(yōu)勢路（以及到中路的這小半場），以求造成壓力、形成優(yōu)勢。（所以人類職業(yè)選手到了第三局也就能夠反制這樣的固定策略了）

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI?Five?五個(gè)英雄都集結(jié)在對方優(yōu)勢路到中塔之間的區(qū)域

快速主動(dòng)地組織?gank?并推搭

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

比賽開始 2?分鐘，AI?的 2?級冰女和 2?級毒龍 gank?中路

比賽前期給輔助英雄讓錢讓經(jīng)驗(yàn)，這讓輔助英雄更快地達(dá)到最高輸出，同時(shí)也更快地結(jié)束比賽

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

人類方進(jìn)攻高地，AI?冰女?BKB?跳大，配合隊(duì)友擊殺對方四人

復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)比預(yù)想的要簡單？

即便游戲中有一些限制，但還是有足夠的復(fù)雜度，而且我們也看到了?AI?在游戲中的精彩表現(xiàn)。從技術(shù)角度來說，這也給了我們新的啟發(fā)。

正如前文提到的，DOTA?中復(fù)雜的行動(dòng)空間以及對長短期策略結(jié)合的需求的讓領(lǐng)域內(nèi)的研究者，甚至包括?OpenAI?的人自己都認(rèn)為?DOTA?需要層次化強(qiáng)化學(xué)習(xí)這樣的全新的深度學(xué)習(xí)技術(shù)，但其實(shí)只通過雷鋒網(wǎng) (公眾號(hào)：雷鋒網(wǎng)) AI 科技評論也曾介紹過的近端策略優(yōu)化?PPO ?就已經(jīng)達(dá)到如此的水平 ——?至少是在用足夠大的規(guī)模做訓(xùn)練，以及選用了合適的超參數(shù)平衡了探索行為的程度的時(shí)候。

OpenAI?使用了256?個(gè)?V100 GPU?和 128000?個(gè)?CPU 訓(xùn)練模型，不使用人類數(shù)據(jù)，80%?的時(shí)間自我對弈，20%?的時(shí)間和過去的版本對弈。訓(xùn)練中每天進(jìn)行的游戲數(shù)量時(shí)長相當(dāng)于大約 180?年。根據(jù)?DOTA?解說 Blitz?評價(jià)，OpenAI?Five?的補(bǔ)刀只是普通玩家水平，但整場游戲的長期策略執(zhí)行已經(jīng)有了職業(yè)選手水準(zhǔn)。用現(xiàn)有的方法就能達(dá)到短期策略和長期策略之間的均衡，算是一項(xiàng)驚喜的發(fā)現(xiàn)。

另一方面，OpenAI?Five?中使用的模型架構(gòu)也出人意料地簡單。每一個(gè)英雄由一個(gè)單獨(dú)的?LSTM?模型控制，而它只是一個(gè)單層的、含有 1024?個(gè)單元的 LSTM?網(wǎng)絡(luò)。網(wǎng)絡(luò)從?Value （DOTA2?制作公司）提供的?BOT?API?獲取數(shù)據(jù)，然后通過多個(gè)不同的動(dòng)作輸出接口進(jìn)行控制。

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI?Five?的網(wǎng)絡(luò)架構(gòu)圖

OpenAI?對于反饋的設(shè)計(jì)也別有用心。除了輸贏之外也選用了人類選手常用的指標(biāo)：總財(cái)產(chǎn)、擊殺數(shù)、死亡數(shù)、助攻數(shù)、補(bǔ)刀數(shù)等等。但是為了避免?AI?過于關(guān)注這些偏向于短期策略的數(shù)據(jù)，他們的反饋設(shè)計(jì)只鼓勵(lì)?AI?在這些方面做到人類玩家的平均水平。

還有一個(gè)項(xiàng)目是 AI 之間的合作。OpenAI 并沒有為 AI 之間設(shè)計(jì)顯式的溝通頻道，目前他們設(shè)計(jì)了一個(gè)名為「團(tuán)隊(duì)精神」的超參數(shù)，這個(gè) 0 到 1 之間的值會(huì)反應(yīng)每個(gè)英雄關(guān)注自己單獨(dú)的反饋和整個(gè)團(tuán)隊(duì)的反饋之間的比例。在訓(xùn)練中 OpenAI 通過退火來優(yōu)化這個(gè)值的具體大小。

總結(jié)

雖然我們說到目前的 5v5?OpenAI?Five?的實(shí)際表現(xiàn)不過如此，但以現(xiàn)有的資源和方法就達(dá)到了超出預(yù)期的效果，這也值得我們反思以往的強(qiáng)化學(xué)習(xí)研究中，方法與實(shí)現(xiàn)是否有諸多做的不完善的地方才導(dǎo)致容易遇到訓(xùn)練困難、表現(xiàn)瓶頸、表現(xiàn)不穩(wěn)定性等問題；另一方面，在現(xiàn)有方法的威力完全得到發(fā)揮的地方，我們也更容易清晰地看到繼續(xù)提升表現(xiàn)還需要哪些創(chuàng)新。

OpenAI?還會(huì)在 7?月 28?日組織頂尖人類職業(yè)玩家再與?OpenAI Five?進(jìn)行比賽，這之前系統(tǒng)還會(huì)進(jìn)行調(diào)試更新。我們期待 OpenAI Five?近期能有更新、更強(qiáng)的表現(xiàn)，也期待它早日在無限制的完全展現(xiàn)了?DOTA?復(fù)雜程度的環(huán)境中再展風(fēng)姿，更與?OpenAI?全體一起期待這些用于?DOTA?AI?的技術(shù)能為更多真實(shí)世界問題帶來幫助。

雷鋒網(wǎng) AI 科技評論報(bào)道。

。

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

隨意打賞

openai universe openai dota2 dota ai openai

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

雖又擊敗了人類選手，但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

5v5?AI，一個(gè)新的臺(tái)階，不過這個(gè)?AI?其實(shí)還比較初級

OpenAI?Five?五個(gè)英雄都集結(jié)在對方優(yōu)勢路到中塔之間的區(qū)域

比賽開始 2?分鐘，AI?的 2?級冰女和 2?級毒龍 gank?中路

人類方進(jìn)攻高地，AI?冰女?BKB?跳大，配合隊(duì)友擊殺對方四人

復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)比預(yù)想的要簡單？

OpenAI?Five?的網(wǎng)絡(luò)架構(gòu)圖

總結(jié)