機器人陪你打《星際爭霸》，背后是一場AI的猜心游戲

砍柴網 ? 6年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

不久前，在北大承辦ACM-ICPC（國際大學生程序設計競賽）全球總決賽期間，上演了一場人機協作及人機對抗的《星際爭霸》賽。

這是來自智能決策公司啟元世界的一款基于《星際爭霸Ⅱ》的AI測試。游戲規則很簡單，截取了《星際爭霸》中搶奪水晶礦的場景：一個人類玩家和一個AI隊友搭檔，同對面的兩個AI對手PK，哪一方能在規定時間內更快地采集到更多的的水晶礦，就算勝出。

這個小游戲背后是一整套機器理解人類意圖的復雜流程，以及在競合博弈中的實時分析能力。

“比如我往左邊采礦，我的機器人可能就會去采集其他方向上的水晶礦，或者去阻攔和干擾對手，為我爭取時間。它會實時觀察我的操作，以及對手的操作特征和策略，然后選擇配套的策略去采集。”啟元世界CEO袁泉表示，這和去年AlphaGo在烏鎮和古力的人際配對賽頗為相似，不再單純強調人機對抗。通過下圍棋、打星際訓練AI，是為了讓機器未來輔助人類完成更復雜的任務。

機器人陪你打《星際爭霸》，背后是一場AI的猜心游戲

說到這里不得不提及2016年憑借AlphaGo引發AI學術界和業界軒然大波的DeepMind，繼圍棋之后，這家公司的研究目標就轉向了《星際爭霸Ⅱ》，甚至將人工智能研究環境向研究者和業務愛好者及玩家開放。

在DeepMind的號召下，過去一年，美國有一批AI公司和開發者，饒有興趣地研究在《星際爭霸》場景中的人機對戰和人機協作。

1998年出品了初代版本的《星際爭霸》在游戲史上地位長盛不衰，但為什么AI研究者都把目光投向它？顯然不是為了娛樂，或者提升游戲性能那么簡單。

“《星際爭霸》是所有即時戰略、奪財游戲的始祖。一方面需要玩家的微操能力，同時又強調宏觀決策能力，玩家在資源有限的情況下如何平衡發展？是花資源發展高科技，還是出兵種對抗？碰到非常聰明手速又很快的對手攻過來，還考驗你如何運隊。”

袁泉覺得，《星際爭霸》正好涵蓋了人工智能的幾個核心問題：如何在有限的視野和不完全的信息下做決策？如何平衡短中長期的發展策略？如何處理多智能體之間的合作和博弈……

相對于圍棋棋盤19乘19限定場景，《星際爭霸》的場景更加開放、復雜，也因此更貼近人類在現實生活中做決策的環境，更具挑戰。

這意味著，用AI人機協作打《星際爭霸》，能幫助人工智能開發創造基準，推進關于決策智能的研究。

那么《星際爭霸》環境中的AI是如何訓練的呢？

剛進入游戲環境的AI就像新生的嬰兒，和人類觀察世界的方式相似，它會首先注意到環境中的物體，觀察自己的人類隊友和對手如何運動、協作，找到信息量最大、能幫助自己達到目標的對象去學習。

“我們會給機器設定目標和激勵措施，比如最短時間內采集最多礦產就會得到更多的分數，然后機器就會通過學習，來決定自己的最優走位和策略，”讓袁泉感到的意外的是，機器在沒有看到示范的情況下，自發使用了阻擋對手的策略。

不過跟人類不同，機器的決策智能是基于理性判斷和計算力的。打一場《星際爭霸》或者Dota，AI的背后是成百上千臺機器的算力支持。因此機器在搜索信息上的速度和廣度會遠超人類。而人類的決策過程，除了依據理性分析的一面，還包含感性層面的本能和經驗。

“目前這個階段，決策智能能做的就是立足于機器的長處，一步步消化和吸收腦認知科學和決策科學理論的新的成果，把人擅長的宏觀層面的規劃推理與創造力，和機器擅長的理性分析推演的能力結合，一步步往前走。”袁泉說道。

AI的理性決策也能給人類啟發，就比如2017年柯潔在烏鎮與AlphaGo大戰時，曾使用過三·3的開局手法來迅速搶占角部實地。這是AlphaGo的棋路，以往卻少有人類棋手使用。

當然，人們最關心的還是下圍棋、打《星際爭霸》之后，AI的決策智能究竟能為人類做些什么？

你可能會意外，其實早在2011年之前，機器就已經在一些企業級的應用場景輔助人們做決策了。

舉例來說，銀行信用卡中心會用大數據和機器學習的技術做精準營銷。通過分析信用卡客戶過去幾個月的消費記錄，譬如你經常活動在哪些區域，喜歡去哪些餐館消費，機器會預測兩周后的某天當你再次出現時應該給你推薦哪些附近的商場、店鋪。只不過當時這種基于機器的個性化推薦還沒引起太大關注，一方面因為O2O還沒有如今這么火，另一方面，跟美國的用戶習慣不同，中國用戶似乎對來自電子郵件的廣告并不大感興趣。

從2006年至2012年，袁泉一直在IBM中國研究院做這類企業級落地場景的研究，直至2012年進入阿里后，他創建了淘寶推薦算法團隊，那一年手機淘寶的累計用戶量是1億，成為了早期訓練決策智能的大數據樣本。

當時電商行業恰好開始推崇“千人千面”的用戶分析和營銷手法。每天，淘寶后臺的算法會根據用戶的點擊、購買、時長，成交等等行為數據，來猜測你喜歡什么，到底要買什么。每個用戶的畫像，都包含著幾萬個標簽。在機器的眼中，你可能迷戀韓版連衣裙，也可能是個豹紋控。

當機器把依據這些數據預測的推薦商品推到離你最近的首頁，就完成了一次輔助決策。

繼銀行之后，電商、游戲、廣告等很多行業都開始出現機器輔助決策的案例。

根據場景的重要性差異，機器既可以為人類做輔助決策，也可以做替代決策。譬如在L4、L5無人駕駛中AI可以協助人類做輔助決策，在王者榮耀、吃雞這類游戲場景，機器也可以直接替代決策，作為人機對戰的角色出現。

“使用游戲幫助人工智能程序學習如何采取最佳行動是非常明智的，這可以模擬變量眾多的復雜環境。游戲領域之外的很多技術問題都非常相似，通過改進算法，（人工智能）程序一旦達到某種突破就可以將這些工具應用于現實。”DeepMind研究員奧里奧爾·溫亞爾斯此前對外表示。

DeepMind在2016年底曾公布過一個成果：用AI技術輔助決策，幫助一家數據中心的電費降低了40%。

啟元世界在北大的AI人機協作挑戰賽結束時，公布了結果：209局賽事中，人機協作的A隊獲勝102場，勝率48.8%。兩個AI協作的B隊，獲勝83場，勝率39.7%。平局24場，概率11.5%。

“用新一代強化學習技術做出的AI，相對于傳統的機器學習技術已經有了不小的改進，原來那種用游戲中內置AI打微操比賽，碰上黃金段位選手是九死一生；而啟元世界的新一代AI，和黃金選手的微操對戰中是勝負各半”，袁泉說。

在這場賽事結束后，CMU Teper商學院教授張凱夫提出了一個有趣的問題——當人工智能在部分場景中個體能力上超越人類后，AI能否進一步增強人的能力，AI是否會比人類更有合作精神和協同意愿？更能顧全大局甚至自我犧牲？

未來可期。

（來源：36氪）

隨意打賞

星際爭霸機器人一場游戲一場夢

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

機器人陪你打《星際爭霸》，背后是一場AI的猜心游戲