欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

雷鋒網(wǎng) AI 科技評論按:各位讀者想必今天一睜眼就被「OpenAI 的人工智能在 DOTA 5v5 比賽中也打敗了人類選手」的新聞刷屏了。 OpenAI?開發(fā)的?DOTA?AI?去年在 1v1?solo?中打敗頂級職業(yè)選手 Dendi?和?Sumail 之后,緊接著就放出豪言還要在 5v5?的?DOTA 比賽中擊敗人類,這一天仿佛這么快就到來了。

5v5?AI,一個(gè)新的臺(tái)階,不過這個(gè)?AI?其實(shí)還比較初級

DOTA(以及 DOTA2)是目前最火熱的電子競技游戲之一,也是當(dāng)之無愧的職業(yè)比賽規(guī)模最大、獎(jiǎng)金最高的游戲。DOTA?游戲有很高的難度,對人類玩家來說都需要很長的學(xué)習(xí)時(shí)間,因?yàn)?DOTA?中有上百種英雄、上百種物品、多種游戲策略、不同英雄有不同的玩法、不同的英雄組合之間也有獨(dú)特的技能和裝備配合;除此之外玩家還需要審時(shí)度勢,同一個(gè)英雄在不同局面中也有不同的玩法。DOTA?的職業(yè)比賽也因此而變得激動(dòng)人心,選手的局部小操作和整個(gè)團(tuán)隊(duì)改變戰(zhàn)局的戰(zhàn)略執(zhí)行都會(huì)被玩家們津津樂道。

復(fù)雜的英雄、物品、配合、長短期策略結(jié)合等方面正是我們長期認(rèn)為?DOTA?這樣的游戲?qū)ΜF(xiàn)階段的?AI?來說過于困難的原因。而且除了這些人類眼中的認(rèn)知難題之外,DOTA?游戲的行動(dòng)空間還非常龐大。相比于圍棋中每一步操作只需要在棋盤上剩余的空位中選一個(gè)落子,DOTA?中的行動(dòng)是非常密集的(每分鐘操作在 100?次數(shù)量級)、考慮時(shí)間長短的(比如持續(xù)施法技能)、數(shù)值連續(xù)的(比如走位)、復(fù)雜多值化的(比如購買裝備)、信息是部分可觀察的(地圖上有大量的無視野區(qū)域),反饋也可以認(rèn)為是稀疏的(勝負(fù)最為重要),所以主流觀點(diǎn)一度認(rèn)為類似?DeepMind?開發(fā)?AlphaGo?時(shí)那樣的純粹強(qiáng)化學(xué)習(xí)自我對弈是無法學(xué)會(huì)玩?DOTA (以及星際等即時(shí)戰(zhàn)略游戲)的,過大的行為空間會(huì)讓訓(xùn)練過程長期停留在沒有有效反饋的區(qū)域從而無法收斂。 層級強(qiáng)化學(xué)習(xí) 被認(rèn)為是一種有希望幫助訓(xùn)練過程快速走出低效探索的方法,但發(fā)展仍不成熟。

OpenAI?對于?DOTA?AI?的最終目標(biāo)是開發(fā)出能夠打敗人類職業(yè)選手的?AI。顯然這樣的目標(biāo)是無法一蹴而就的,所以他們的指導(dǎo)思想是分步走,從英雄、物品、地圖范圍、策略都有高度限制的 1v1?比賽開始,然后逐步減少限制,同時(shí)逐步改善模型,一步步接近最終目標(biāo);去年?TI(國際邀請賽)中 1v1?打敗 Dendi,以及在測試比賽中打敗 Sumail 的?DOTA?AI?就是其中的第一步。對于這樣的結(jié)果,初看有些意外,但細(xì)想之下還是比較合理的。畢竟玩?Atari?游戲我們都已經(jīng)司空見慣了。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

對于接下來的 5v5?AI(名為?OpenAI?Five),自然也保留了諸多限制,游戲環(huán)境和各位玩家熟悉的樣子有諸多不同。OpenAI?Five 在這個(gè)環(huán)境里做了多次迭代更新,4?月 23?日版本首次打敗了?OpenAI?自己編寫的基于腳本的基準(zhǔn)模型,5?月 15?日的版本與?OpenAI?員工隊(duì)伍(天梯分段 2500,高于 46%?的玩家)打了一勝一負(fù);而 6?月 6?日的版本則在與業(yè)余戰(zhàn)隊(duì)(天梯分段 4200,高于 93%?的玩家)和半職業(yè)戰(zhàn)隊(duì)(天梯分段 5500,高于 99%?的玩家)的比賽中都贏得了三局中的前兩局。

OpenAI?Five?目前設(shè)定的游戲中的限制有以下這些方面:

  • 比賽雙方都使用固定的瘟疫法師、冥界亞龍、矮人火槍手、水晶室女、巫妖 5?個(gè)英雄,而不是在超過 110?個(gè)英雄中任意選擇(顯然我們也可以推測出?OpenAI?就是以這組固定的英雄進(jìn)行訓(xùn)練的)

  • 禁止使用守衛(wèi),禁止使用隱身物品(消耗品及裝備)

  • 禁止使用幻象和分身

  • 禁止打肉山

  • 禁止購買圣劍、魔瓶、壓制之刃、遠(yuǎn)行鞋、知識(shí)之書、眼淚

  • 禁止使用掃描

  • OpenAI?Five?方有五個(gè)無敵的信使,不過也禁止使用這些信使看視野以及承受傷害

顯然各位 DOTA?玩家一看就知道,僅英雄選擇的限制這一項(xiàng)就極大降低了游戲的復(fù)雜度;隱身、肉山之類的禁用也縮小了戰(zhàn)略戰(zhàn)術(shù)的選擇空間;至于 5?個(gè)無敵的信使就更像是對 5?個(gè)?AI?之間(也許并不理想的)協(xié)作能力的妥協(xié)了。

不過,能打敗業(yè)余和半職業(yè)戰(zhàn)隊(duì)的表現(xiàn)畢竟還是有一些特色的,能在三局中贏得前兩局也說明了?AI?的策略選擇與執(zhí)行的效果。在幾場比賽中?OpenAI?Five?的玩法體現(xiàn)出了這些特點(diǎn):

  • 采取的策略總是放空自己的優(yōu)勢路,攻擊對方的優(yōu)勢路(以及到中路的這小半場),以求造成壓力、形成優(yōu)勢。(所以人類職業(yè)選手到了第三局也就能夠反制這樣的固定策略了)

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI?Five?五個(gè)英雄都集結(jié)在對方優(yōu)勢路到中塔之間的區(qū)域
  • 快速主動(dòng)地組織?gank?并推搭

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

比賽開始 2?分鐘,AI?的 2?級冰女和 2?級毒龍 gank?中路
  • 比賽前期給輔助英雄讓錢讓經(jīng)驗(yàn),這讓輔助英雄更快地達(dá)到最高輸出,同時(shí)也更快地結(jié)束比賽

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

人類方進(jìn)攻高地,AI?冰女?BKB?跳大,配合隊(duì)友擊殺對方四人

復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)比預(yù)想的要簡單?

即便游戲中有一些限制,但還是有足夠的復(fù)雜度,而且我們也看到了?AI?在游戲中的精彩表現(xiàn)。從技術(shù)角度來說,這也給了我們新的啟發(fā)。

正如前文提到的,DOTA?中復(fù)雜的行動(dòng)空間以及對長短期策略結(jié)合的需求的讓領(lǐng)域內(nèi)的研究者,甚至包括?OpenAI?的人自己都認(rèn)為?DOTA?需要層次化強(qiáng)化學(xué)習(xí)這樣的全新的深度學(xué)習(xí)技術(shù),但其實(shí)只通過雷鋒網(wǎng) (公眾號(hào):雷鋒網(wǎng)) AI 科技評論也曾介紹過的 近端策略優(yōu)化?PPO ?就已經(jīng)達(dá)到如此的水平 ——?至少是在用足夠大的規(guī)模做訓(xùn)練,以及選用了合適的超參數(shù)平衡了探索行為的程度的時(shí)候。

OpenAI?使用了256?個(gè)?V100 GPU?和 128000?個(gè)?CPU 訓(xùn)練模型,不使用人類數(shù)據(jù),80%?的時(shí)間自我對弈,20%?的時(shí)間和過去的版本對弈。訓(xùn)練中每天進(jìn)行的游戲數(shù)量時(shí)長相當(dāng)于大約 180?年。根據(jù)?DOTA?解說 Blitz?評價(jià),OpenAI?Five?的補(bǔ)刀只是普通玩家水平,但整場游戲的長期策略執(zhí)行已經(jīng)有了職業(yè)選手水準(zhǔn)。用現(xiàn)有的方法就能達(dá)到短期策略和長期策略之間的均衡,算是一項(xiàng)驚喜的發(fā)現(xiàn)。

另一方面,OpenAI?Five?中使用的模型架構(gòu)也出人意料地簡單。每一個(gè)英雄由一個(gè)單獨(dú)的?LSTM?模型控制,而它只是一個(gè)單層的、含有 1024?個(gè)單元的 LSTM?網(wǎng)絡(luò)。網(wǎng)絡(luò)從?Value (DOTA2?制作公司)提供的?BOT?API?獲取數(shù)據(jù),然后通過多個(gè)不同的動(dòng)作輸出接口進(jìn)行控制。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

OpenAI?Five?的網(wǎng)絡(luò)架構(gòu)圖

OpenAI?對于反饋的設(shè)計(jì)也別有用心。除了輸贏之外也選用了人類選手常用的指標(biāo):總財(cái)產(chǎn)、擊殺數(shù)、死亡數(shù)、助攻數(shù)、補(bǔ)刀數(shù)等等。但是為了避免?AI?過于關(guān)注這些偏向于短期策略的數(shù)據(jù),他們的反饋設(shè)計(jì)只鼓勵(lì)?AI?在這些方面做到人類玩家的平均水平。

還有一個(gè)項(xiàng)目是 AI 之間的合作。OpenAI 并沒有為 AI 之間設(shè)計(jì)顯式的溝通頻道,目前他們設(shè)計(jì)了一個(gè)名為「團(tuán)隊(duì)精神」的超參數(shù),這個(gè) 0 到 1 之間的值會(huì)反應(yīng)每個(gè)英雄關(guān)注自己單獨(dú)的反饋和整個(gè)團(tuán)隊(duì)的反饋之間的比例。在訓(xùn)練中 OpenAI 通過退火來優(yōu)化這個(gè)值的具體大小。

總結(jié)

雖然我們說到目前的 5v5?OpenAI?Five?的實(shí)際表現(xiàn)不過如此,但以現(xiàn)有的資源和方法就達(dá)到了超出預(yù)期的效果,這也值得我們反思以往的強(qiáng)化學(xué)習(xí)研究中,方法與實(shí)現(xiàn)是否有諸多做的不完善的地方才導(dǎo)致容易遇到訓(xùn)練困難、表現(xiàn)瓶頸、表現(xiàn)不穩(wěn)定性等問題;另一方面,在現(xiàn)有方法的威力完全得到發(fā)揮的地方,我們也更容易清晰地看到繼續(xù)提升表現(xiàn)還需要哪些創(chuàng)新。

OpenAI?還會(huì)在 7?月 28?日組織頂尖人類職業(yè)玩家再與?OpenAI Five?進(jìn)行比賽,這之前系統(tǒng)還會(huì)進(jìn)行調(diào)試更新。我們期待 OpenAI Five?近期能有更新、更強(qiáng)的表現(xiàn),也期待它早日在無限制的完全展現(xiàn)了?DOTA?復(fù)雜程度的環(huán)境中再展風(fēng)姿,更與?OpenAI?全體一起期待這些用于?DOTA?AI?的技術(shù)能為更多真實(shí)世界問題帶來幫助。

雷鋒網(wǎng) AI 科技評論報(bào)道。

雖又擊敗了人類選手,但我們認(rèn)為 OpenAI 的 5v5 DOTA AI 不過如此

隨意打賞

openai universeopenai dota2dota aiopenai
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 四虎影视库国产精品一区 | 99热久久这里只有精品6 | 国产一区二区精品久久91 | 伊人成年综合网 | 欧美91精品久久久久网免费 | 免费看欧美一级特黄a毛片 免费看欧美一级特黄α大片 | 久9热精品视频在线观看 | 深夜福利网站在线观看 | 国产精品乱码在线观看 | 四虎官网 | 99久久综合国产精品免费 | 九九九国产| 四虎影视最新网站在线播放 | 国产成人高清视频免费播放 | 亚洲一区二区精品 | 久久天堂成人影院 | 欧美性猛交xxxxbbbb | 99国产小视频| 久久久久久综合对白国产 | 亚洲精品中文字幕不卡在线 | 天天做天天爱夜夜大爽完整 | 天天在线综合网 | 日韩欧一级毛片在线播无遮挡 | 婷婷视频在线观看 | 四虎成人www国产精品 | 亚洲国产精品67194成人 | 四虎影音先锋 | 国产97色在线 | 亚洲 | 成人网18免费网站 | 一区二区三区久久 | 青青草一区二区免费精品 | 97玖玖| 久久国产精品亚洲一区二区 | 福利姬视频在线观看 | 婷婷色中文字幕 | 婷婷综合久久中文字幕一本 | 国内精品视频一区二区八戒 | 天堂福利视频 | 卡通动漫精选国产欧美 | 午夜骚| 成人免费午间影院在线观看 |