2017年機器學習發展十大趨勢預測,悲觀還是現實?

“分析時代”目前仍處于起步階段,它為我們帶來眾多值得期待且為之興奮的構想與承諾。在今天的文章中,BigML公司副總裁Atakan Cetinsoy將披露 2017年中他眼中的 機器學習 技術及相關生態系統發展趨勢。
每一年結束時,技術專家們總會著眼于新的十二個月,思考其熟知的技術方案將在下一階段迎來怎樣的變化趨勢。在BigML公司,我們結合2016年中機器學習技術的發展與演變,嘗試解析其在新一年內的未來前景。
首先需要強調的是,企業需要吹散圍繞在機器學習概念周遭的炒作迷霧,探索將其切實引入自身業務體系的有效途徑。更具體地講,企業需要通過嚴謹決策立足內部環境選定平臺,并逐步建立規模較小且易于實現的機器學習項目,從而嘗試利用自有數據集。隨著時間推移,此類增量型項目將帶來積極的反饋,并最終實現決策自動化,甚至幫助敏捷性機器學習團隊徹底改變其所在行業的運營常態。
按照慣例,我們首先回顧機器學習技術在實際應用層面的發展歷程:
機器學習已經形成一種不可逆轉的歷史性趨勢,我們需要立足于此考量如何進行跨部門日常事務處理并將自身業務與市場整體經濟狀況加以結合。
在36年的發展歷程中,眾多企業一直在努力消化、采用并從機器學習技術的發展進步與相關最佳實踐中獲益。然而,鮮有企業能夠真正將其轉化為自身業務優勢。
出現了一大批所謂“新晉專家”,他們只讀過幾本相關書籍或者參加了幾堂網絡課程,就開始堂而皇之地借助廉價資本“改變”世界。與此同時,眾多頂級科技企業則在盡可能“招募”真正了解機器學習技能的人才,希望借此為蓬勃發展的AI經濟儲備能量。
另外,相當一部分立足機器學習領域誕生的初創企業則胸懷“獨角獸”雄心踏上征程,然而必須承認,他們自認為能夠利用神奇的新型機器學習算法實現的通用型、低成本、可擴展解決方案往往只是種一廂情愿。
2017年,在經歷了此前的一系列本可避免的挫折之后,我們預計機器學習生態系統將最終開始向正確的方向推進。
在開始討論具體預測之前,還需要強調點:2016年是極為重要的一年,因為在這一年中全球最具價值的五家企業史無前例地全部由科技企業充當。這五家公司皆擁有幾項共通性特征,其中包括大規模網絡效應、以數據為中心的企業文化以及建立在尖端分析模式之上的新型增值服務經濟思路。
更重要的是,這些企業一直在宣傳其理念與意圖,并將機器學習視為其未來進化的重要支點。隨著優步及Airbnb等獨角獸企業的加入,科技行業在世界經濟中的主導地位很可能在未來幾年中繼續保持,而這也將受到世界經濟大規模數字化轉型浪潮的強勢推動。
不過,這又提出了一個可能決定數萬億美元走向的新問題:傳統企業(例如掌握著大量數據的非技術企業以及由大型企業部分解散并轉化而成的小型技術廠商)該如何適應并成為這一新興價值鏈中的組成部分?它們又該如何在生存之余,在新的時代下茁壯成長?
就目前來看,相當一部分企業都堅持以僵化且經驗指導性思路理解商業智能系統、繼續采用陳舊的工作站類傳統基礎、利用簡單的回歸模式統計系統運行狀態,這意味著其無法捕捉到現實生活中反映出的具體趨勢,更遑論準確預測用例的復雜性。
與此同時,這些企業面對著大量專有數據得不到充分利用的困境。根據麥肯錫全球研究院發布的《分析時代:數據驅動型世界下的競爭》報告所言,其曾在2011年報告中提到的現代分析技術至今僅實現了不足30%,這還不算過去五年來涌現的各種新型技術方案。
更糟糕的是,各行業間的數據技術發展態勢呈現出嚴重的失衡現象(著眼于美國,醫療衛生行業的數字化技術采納度低至10%,而智能手機領域則高達60%),這意味著已經出現了前所未有的分析能力與競爭水平分化態勢。
盡管實際情況還達不到各大供應商及研究企業的宣傳水平(例如‘認知計算’、‘機器智能’甚至是‘智能機器’等炒作性概念),但機器學習已經真正成為商業詞匯中的重要組成部分,并為眾多企業帶來了廣泛且可觀的潛在發展空間。這種巨大的機遇意味著將有更多傳統及初創企業在2017年開始自己的機器學習探索之旅。睿智的企業會努力從失敗案例中汲取經驗教訓,并利用新型技術成果擴大自身競爭優勢。然而考慮到人類在面對新興事物時表現出的一貫愚蠢與保守態度,我們將以較為悲觀的態度探討以下十項發展趨勢:
預測一:機器學習將成為實現“ 大數據 ”的重要途徑
大數據運動中的種種教訓還將反復重演,而技術專家們也將從中意識到只有將多種具備實用性的“大數據”解決方案加以結合方能實際其既定目標。
總體而言,“大數據”代表的是能夠昭示未來的數據,就這么簡單。Gartner公司最近已經在其炒作周期報告中將“大數據”條目剔除,這意味著其已經正式步入實施階段。這一切都將高度強調分析能力的重要意義,特別是機器學習在引導客戶利用智能化應用涉及數據技術相關項目中扮演的重要角色。另外,以往飽受詬病的樣本分析方案將成為一類重要工具,幫助企業探索出此類應用場景下的新型預測性用例。
預測二: 風險投資 公司仍將積極為基于算法的初創企業提供資助
風險投資公司仍將繼續處于摸索與學習狀態,且整個學習過程相緩慢而艱難。風投將繼續為具備亮相學術沉淀的算法類初創企業提供資助,而無視由其帶來的種種誤導性甚至幻想性言論。例如將機器學習作為深度學習的代名詞,而完全無視機器學習算法與機器學習模型乃至模型訓練與已訓練模型預測結果之間的巨大差別。對于相關學科的深入理解將作為一項歷史性難題存在,且整體投資行業對此的重視程度依然不夠。不過值得肯定的是,已經有一小部分風投類企業開始意識到機器學習發展所將帶來的巨大發展平臺。
預測三:機器學習人才仍將成為炙手可熱的稀缺資源
媒體對于AI及機器學習技術的鼓吹與渲染,將使得相關技術人才繼續成為市場的寵兒,而相關投資將被大量集中在年輕學者手中。不過殘酷的現實告訴我們,絕大多數算法并不具備廣泛適用性,而且其中相當一部分僅僅是在原有基礎上做出了少許改進。作為直接結果,大多數機器學習算法都將僅被視為噱頭以及瘋狂招募相關技術人才的理由。在部分最糟糕的場景下,買方甚至不具備明確的分析技術發展思路,而僅僅是像追隨任何一種時代潮流那樣關注AI/機器學習技術。
預測四:大多數機器學習相關項目僅停留在PPT演示階段,而無法帶來理想結果
傳統企業的高管層將積極雇用咨詢公司以幫助自身建立起自上而下的分析戰略以及/或者制定復雜的“大數據”技術組件構成方案,然而他們對于洞察結論的可行性以及確切的投資回報水平并沒有正確的認識。其中部分原因在于實施數據分析技術的正確數據結構及靈活的計算基礎設施當下并不難獲取,而且經過36年的持續積累,如今機器學習在廉價計算資源的支持下已經不再是高不可攀的實驗室產物。
預測五:深度學習在商業領域的成功范例將寥寥可數
深度學習的各類知名研究成果,例如AlphaGo將繼續吸引媒體關注。然而,以語音識別與圖像認知為代表的實際應用方案才是真正的發展驅動力,其將幫助這一技術在企業環境下機器學習場景中發揮切實作用。難于解釋、高水平技術專家稀缺、高度依賴大規模訓練數據集以及極高的計算資源配置需求都將制約深度學習在2017年年內的發展態勢。
就目前的情況看,機器學習技術與馬球運動頗有幾分相似,其能夠為您帶來與富豪及名人交流的機會,亦能夠讓您的企業瞬間逼格爆棚,但隨之而來的還有昂貴的馬術訓練服務、保養成本、設備購置開銷以及昂貴的俱樂部會費。因此相較于缺少顯著研究突破上與獨特優勢的深度學習,企業通常能夠通過關注增強學習及機器學習技術獲得更快且更具現實意義的結果。
預測六:基于不確定性的原因與規劃性探索將推動機器學習走向新高度
機器學習本身只是AI的一小部分。相當一部分初創企業開始立足不確定性為相關原因與規劃性探索工作提供研究應用,而這將切實幫助我們在模式認知之外找到新的技術拓展空間。Facebook公司的Mark Zuckerberg就在損害一年的AI/機器學習研究工作之后,拿出了他自己的個人智能化助手“Jarvis”——其基本特性與《鋼鐵俠》電影中的虛構智能管家大體類似。
預測七:盡管機器學習的部署范圍持續擴大,但人類仍將在決策工作中扮演核心角色
部分企業將初步部署速度更快且采取循證性決策方式的機器學習方案,但人類仍將在決策工作中扮演核心角色。智能化應用的早期落伍將集中在特定行業內,但差異化監管框架的存在以及嚴格失衡的分析能力狀況將在經濟層面給創新性管理方法、競爭壓力、復雜性客戶需求、高質量體驗及其它一些價值鏈因素帶來相互矛盾的指引意見。
盡管如今機器學習乃至 人工智能 改變未來的言論甚囂塵上,但冷靜的技術領導者非常清楚,真正的智能系統還需要很長時間才會真正出現。與此同時,企業將慢慢學會信任自己的模型及其預測結論,并意識到此類方案確實能夠在多種任務領域帶來超越人類的表現。
預測八:敏捷性機器學習將悄然成為AI營銷中的主力軍
更具現實意義且更為敏捷的機器學習采用方式將悄然在新的一年中占據主導地位。實施團隊樂于親自動手并充分利用豐富的企業數據儲備,同時亦能夠完全繞過“大數據”相關炒作宣傳。他們更為務實,希望利用最具針對性與適用性的預測性手段通過成熟的算法配合小規模采樣數據解決問題。
在這一過程中,他們將逐步建立對自身分析能力的信心,在實際產品中部署相關方案,同時添加更多可行用例。由于不再受到數據訪問問題與部署工具復雜性的制約,他們能夠真正利用數據技術提升核心業務,同時積極嘗試風險與回報更高的實驗性手段,考慮以預測性用例作為全新品牌營收來源的實現途徑。
預測九:MLaaS平臺將成為傳統企業中機器學習采用工作的“AI主干”
MLaaS平臺將在加速敏捷性機器學習實踐領域成為“AI主干”。以此為基礎,以MLaaS基礎設施為根基的新一波應用浪潮將令商業性機器學習方案的實現成本進一步降低,特別是通過以下幾種方式實現機器學習“民主化”:
通過消除供應商合約復雜性或者前期投入額度顯著降低成本。
提供囊括大量高效算法的預配置框架。
以抽象化方式幫助最終用戶擺脫由基礎設施設置及管理帶來的復雜性因素。
通過REST API及捆綁包提供輕松易行的集成、工作流自動化與部署選項。
預測十:無論是否擁有充足的數據科學家,開發者都將不斷向所在企業引入更多機器學習因素
在新的一年中,開發者們將積極投向至機器學習陣營當中——無論企業是否已經具備充足的數據科學家及其他相關人才儲備。開發者們將立足于MLaaS平臺快速構建并擴展此類應用,并借此對高難度細節問題進行抽象及剝離(例如集群配置與管理、任務隊列以及監控與分發等)。“即服務”類方案的普及將允許開發者僅通過精心設計與良好記錄的API即可實現機器學習技術應用,而不再需要了解LR(1)解析器以編譯并執行其Java代碼,或者掌握信息增益或威爾遜評級機制以實現基于決策樹的預測性用例。
目前,我們仍處于“分析時代”的早期發展階段,因此大家應當對光明的未來保持振奮的心態,而非被過去的一些小挫折所打倒。雖然我們在本篇文章中提出了不少相當悲觀的預測觀點,但這純粹是為了幫助被興奮沖昏頭腦的朋友們冷靜下來,意識到業務成功、數學奧秘、軟件與管理最佳實踐以及數據科學實現能力之間尚待跨越的鴻溝。