誰才是星際爭霸真正的王者?Facebook游戲機器人CherryPi不敵業余程序員
在遙遠的銀河系克魯普星區,Facebook的異化蟲大軍正焦躁不安地徘徊在敵方大本營外。指揮官不明智地打開大本營大門后,Facebook的外星人部隊一股腦沖進敵方陣營,大殺特殺。以上為人工智能研究中的游戲戰斗場面。
上述血腥場面乃是剛剛于周日結束的年度《星際爭霸》游戲比賽,參賽主體當然不是人類,而是AI軟件機器人。Facebook悄悄地開發了一款名為CherryPi的機器人,由其AI研究實驗室附屬機構的八名研究員開發設計。
這場悄然無息的“太空戰爭”表明,Facebook正認真考慮與谷歌等人在人工智能領域的競爭。位于倫敦的谷歌AI研究部門DeepMind在去年名聲大噪,其開發的AlphaGo軟件在圍棋比賽中擊敗了世界冠軍。八月份,DeepMind宣布,公司下一個目標是《星際爭霸2》。
Facebook參加的比賽,和大多數該領域的AI研究一樣,使用的仍然是老版的星際爭霸游戲。業內普遍認為,這個游戲相對于軟件來說,比較難以掌握。Facebook的AI研究小組,根據網站所示,一共有80名研究員。該研究小組由紐約大學教授Yann LeCun領導,目前已經發布多篇研究論文,但卻并未取得能與谷歌AlphaGo比肩的成就。Facebook曾發布過三篇與《星際爭霸》游戲有關的研究論文,但在贏得游戲比賽方面從未宣布任何進展。
周日發布的最終結果表明:Facebook仍需努力。整個比賽一共有28位參賽者,CherryPi的最終排名為第六。前三名獲勝機器人均由獨立的業余編程愛好者開發。
Facebook的研究科學家Gabriel Synnaeve將CherryPi描述為在星際爭霸這款游戲構建未來研究的“基準”。他說:“我們想知道CherryPi跟現有的機器人相比,表現如何,特別是測試它是否存在需要糾正的缺陷。”CherryPi已經完成了一項長期比賽。該比賽是在娛樂領域應用AI的學術會議AIIDE的一部分。Facebook同時也贊助了今年的比賽,出資購買了運行上千個機器人對決游戲所需的硬件。
自上世紀50年代,AI技術開始發展以來,井字游戲、西洋跳棋、象棋和圍棋已然成為該領域測試新理念的首選。近來,這些游戲,除了測試新理念,還摻雜了一個嚴肅的商業目的——越來越多的公司開始使用AI來打磨他們的產品和服務。Facebook、谷歌等技術公司,無不使用AI來改善他們的廣告定位和個性化系統,并支持諸如虛擬助手和增強現實等新產品。
《星際爭霸》對AI研究員的吸引力不僅在于指揮戰斗的樂趣,比如建造與建筑物等大的等離子炮。雖然電子游戲可能看上去比圍棋或象棋更吸引人,但由于玩家的策略和動作并不受嚴格的棋盤限制,且需要密切關注對手行動,電子游戲也更加復雜。圍棋棋盤上的有效位置數為1后面170個零。但是,研究人員估計,再加上100多個零或許能夠勉強掌握《星際爭霸》的復雜性。
今年比賽的冠軍是一個名為ZZZKBot的機器人,開發者為來自澳大利亞珀斯的軟件開發員Chris Coxe。Coxe之前曾在納斯達克工作。開發工作皆由Coxe一人完成,為了省下更多時間用于開發研究ZZZKBot他還請了一段時間假。在最終結果公布的前一天,Coxe謙虛地說起自己的作品:“它不過是一個概念證明,源代碼還不夠完美。”
跟目前為止的所有《星際爭霸》機器人玩家一樣,在與中等水平的人類玩家對戰中,ZZZBot還是稍遜一籌,并不能堅持多久。預測和指揮外星軍隊所需要的規劃和記憶專長,遠超當今軟件的能力。
不過隨著兩大巨頭科技公司都對游戲機器人表現出極大興趣,業余程序員開發出最佳星際爭霸游戲機器人的日子大概要逐漸遠去了。紐芬蘭紀念大學教授,也是AIIDE比賽的組織人,David Churchill預言,未來幾年,星際爭霸的機器人玩家領域將出現巨大變革。
Facebook和谷歌均表示,他們研究《星際爭霸》的方式都跟大多數個人程序員不同。領先的機器人背后主要基于其設計者指定的規則和策略。Coxe認為,他的機器人的一個最佳功能是簡單的學習,即該功能會針對每個機器人的玩法嘗試預編程策略,并記下哪種策略效果好,然后在下一場比賽中預先準備。科技巨頭們打算更加倚重機器學習,計劃讓機器人通過學習過往游戲的比賽數據或者重復試驗,來培養他們自己的戰略。Facebook并沒有將論文中發布的理念構建到CherryPi中。而機器學習也正是使得谷歌的AlphaGo立于不敗之地的關鍵。
或許,Facebook的機器人沒能贏得《星際爭霸》的冠軍。但是大賽第二名機器人——PurpleWave的開發者Dan Gant,看出了CherryPi的潛力。大多數機器人,會根據對手的相對數量,來選擇正面進攻或撤退。但是在最終結果公布前發布的視頻中,Gant說,CherryPi仿佛知道什么時候可以快速行進,潛入敵方基地發起進攻。
不過,獨立的機器人開發人員當然也不會一夜之間就消失——就像《星際爭霸》也不會很快就被AI征服。“問題依然難以解決,”Churchill解釋說,“接下來幾年里,我認為,業余程序員開發的基于規則的機器人,仍將表現不俗。”他認為,機器人打敗人類專業選手,至少還要等五年。但是,他也坦誠,可能用不了那么久。
Gant是來自紐約的一名軟件開發人員。他為了開發PurpleWave專門請假了好幾個月。他說,科技巨頭的加入為比賽增加了另一重吸引力,帶來了獨特的學習機會。“你可以是Facebook,或者DeepMind,或者剛剛學習編程的小孩子,你在競爭環境中與之競爭,”他說,“你自己的努力,和自學的能力,限制了你自己的成就。”
開發《星際爭霸》超級玩家給科技巨頭們帶來的不僅是滿足感。谷歌表示,DeepMind的機器學習已經幫助公司的數據中心減少不少制冷費用。微軟的一份機器學習研究報告說,預測用戶什么時候會點擊廣告的準確率,只要提高0.1%就可以帶來數億美元的額外收入。而能夠帶領外星人粉碎人類指揮的軍隊的機器人,勢必大有用處。