DOTA2頂級玩家剛被擊倒,DeepMind又開始向《星際爭霸》下手了
想知道人類和AI系統(tǒng)如何能完美共存,我們可能需要殺死大波蟲族。
Alphabet旗下的AI部門DeepMind,聯(lián)手游戲公司暴雪公司,正發(fā)布一組工具,可以讓程序員在太空主題游戲《星際爭霸》中釋放各種AI算法。
到目前為止,這款游戲比大多數(shù)AI程序接觸過的游戲更具挑戰(zhàn)性。星際爭霸不僅極為復雜,而且需要長遠規(guī)劃,并嘗試事后猜測你的對手下一步計劃是什么。這就意味著開發(fā)能匹及人類的AI程序可以幫助研究員利用機器探索人類智能的信方面。據(jù)介紹,其他的一些潛在好處將是探索人類與AI程序合作的方式。
“星際爭霸從許多方面來說都十分有趣,”主持該項研究項目的DeepMind研究員Oriol Vinyals說道。比如,玩家通常會時不時地一瞥對手活動,這意味著算法就需要開發(fā)更好的信息存儲方式。“記憶至關(guān)重要,”Vinyals說,“你現(xiàn)在看到的并不是你剛才看到的,并且就在剛剛那一瞬間,也許會有特殊事件發(fā)生并影響你的下一步行動。”
DeepMind一向以開發(fā)各種精通不同類型游戲的AI程序而聞名。該公司以征服各類雅達利游戲為起點,最近又進軍極為復雜和抽象的棋盤游戲Go。
為了掌握這些游戲,DeepMind的研究人員使用了一種被稱為強化學習的機器學習技術(shù)。機器學習,是指讓計算機知道如何在沒有明確指示的情況下為自己謀劃。強化學習,則是受動物的學習方式之啟發(fā),通過積極反饋實驗來進行學習。但是,Vinyals說,將強化學習應用到《星際爭霸》中將會更加困難,因為展開每場游戲都需要很長時間。
在星際爭霸中,玩家可以選擇三大族類之一加入游戲:與人類相似的Terrans族,機器人Protoss族,或者類昆蟲Zerg族。戰(zhàn)斗系統(tǒng)涉及復雜的戰(zhàn)略行動,比如采礦資源和建造基地,以及曠日持久的戰(zhàn)斗序列。《星際爭霸》同時也是最受歡迎的觀賞性電子競技游戲,尤其是在韓國,錦標賽通常在大型體育場館內(nèi)進行并在電視上直播。優(yōu)勝玩家將有機會與AI程序進行競技,但是DeepMind暫未透露具體比賽時間。
由DeepMind和暴雪公司開發(fā)的工具將使得AI研究人員更加容易地在《星際爭霸》游戲內(nèi)部署和測試機器學習算法。這些工具將為AI程序提供與玩家所見相同的游戲和界面視圖。它們還可以限制程序執(zhí)行行動的速度。這可以確保程序不得不依賴于人類相當?shù)闹橇ぞ摺?/p>
《星際爭霸》被用作研究平臺已有一段時日,但相對來說難度較大。Vinyals本身是一名資深《星際爭霸》玩家,還是加州大學伯克利分校的學生時,他已參與了為星際爭霸開發(fā)聊天機器人的工作。Facebook和中國企業(yè)阿里巴巴的團隊也各自發(fā)表了相關(guān)的《星際爭霸》研究。DeepMind將在本周的主要機器學習會議上發(fā)布論文,演示現(xiàn)有算法在游戲中的表現(xiàn)。
然而,掌握類似《星際爭霸》這樣的游戲或許需要完全不同的方法。其他一些研究人員已經(jīng)采用從游戲理論中獲取的方法,成功在其他“不完善信息”的游戲中取得不小進展。今年早些時候,卡耐基梅隆大學教授托馬斯·桑德霍姆和他的一個學生諾姆·布朗建立了一個名為Libratus的程序,該程序擊敗了數(shù)名職業(yè)選手。Libratus采用了極為復雜的算法來計算整個游戲中的最佳策略。且巧合的是,布朗今夏一直在DeepMind實習。
暴雪公司的原理工程師雅各布·瑞普表示,他的公司十分好奇復雜AI程序是否能夠使得游戲變得更加有意思,無論是與人類對抗或與人類合作。在游戲中創(chuàng)建可跟隨腳本指令進行行動的程序已經(jīng)成為可能。瑞普說,讓這些程序使用機器學習達到某一程度也十分令人期待。并且,他還說,公司正在探索更多的此類想法。“我們發(fā)現(xiàn)這些工具對游戲制作和功能設計都十分有幫助。”