欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

吳軍:大數據和機器智能對未來社會的影響

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  
吳軍:大數據和機器智能對未來社會的影響

吳軍 博士在《電信科學》上發表的一篇更詳細地講述 機器智能 前世今生與未來影響的綜述論文《 大數據 和機器智能對未來社會的影響》,讀者可進一步對包括自動駕駛汽車在內整個機器智能行業有一個框架性的理解。全文雖然長達11600多字,但是幾乎都是大白話,無需基礎知識,且前后邏輯連接順暢,值得反復回味。

其中有許多非常重要的觀點,筆者都做出了加粗標記,比如:

「機器智能=大數據+計算能力(由摩爾定律保證)+數學模型」;

「過去50年,全球經濟本質上是由摩爾定律來推動的」;

「摩爾定律催生PC產業的發展→→PC產業的發展引發對數據傳輸的需求,從而導致互聯網的發展→→互聯網的迅速發展帶來大量的數據,而大量的數據使得機器智能成為可能」。

引言

過去50年,人類GDP增長根本的動力是摩爾定律。20世紀60年代中期,大規模集成電路(后來是超大規模集成電路)的出現,不僅帶動了整個IT行業的技術革命,而且導致了全球的自動化和信息化,這是在過去的半個世紀里拉動世界經濟增長的根本動力(雖然在中國還有房地產和基本建設,但是在世界范圍內,這個市場是在萎縮的)。

吳軍:大數據和機器智能對未來社會的影響

圖1微處理器中晶體管數量變化與摩爾定律

吳軍:大數據和機器智能對未來社會的影響

圖2各種數據量的增長趨勢

(數據來源于美國Gartner公司)

圖1為1971~2011年微處理器中晶體管數量的變化,圖中的點是不同時期具有代表性的處理器。摩爾定律帶來的一個結果就是互聯網的興起以及產業的數字化,而這也帶來了一個沒有預想到的結果,就是各種數據量的急劇增長(如圖2所示),最終導致了大數據的應用。摩爾定律和大數據共同帶來的另一個結果就是:「機器智能」將成為可能。

在未來的20年(甚至更長時間)里,大數據和機器智能的結合不僅將引領IT發展,而且將徹底改變人類的生活方式以及社會結構和社會形態,如今正處在這樣一個變革的關鍵時期。為了說明這一點,本文先從機器智能談起,然后談到大數據的作用,最后分析它們對今后社會的影響。

機器智能及其早期發展

自從1946年第一臺電子計算機誕生,人類就開始思考是否有一天計算機能夠在智力上超過人類。早在1950年,計算機科學的先驅圖靈博士就提出了一種衡量機器(包括計算機)是否有類似于人類智能的方法:讓一臺機器和一個人坐在幕后,與一個人展開對話(回答人的問題),而這個人無法辨別和他講話的是另一個人還是一臺機器,那么稱這臺機器具有和人等同的智能。這種方法被稱為「圖靈測試」,如圖3所示。

吳軍:大數據和機器智能對未來社會的影響

圖3圖靈測試

圖靈當時只是給出了一個測試機器是否有智能的方法,但是并沒有指出機器是否有可能獲得類似于人類的智能,如果有這種可能,應該怎么做才能實現?

計算機科學家們在20世紀50年代和60年代一直在考慮這個問題,他們最初的思路是讓計算機仿造人的做法,并且提出了 人工智能 的概念。簡單地講,就是讓計算機能夠學習人的思維方式,掌握邏輯推理,以期望最終能像人一樣根據已知條件,應用推理規則推出新的知識。這種設想符合人的直覺,因此在機器智能的發展初期它成為了主流的方法。后來在學術界,把這樣的方法論稱作「鳥飛派」,意思是看鳥是怎樣飛的就能模仿鳥造出飛機,而不需要了解空氣動力學。事實上,懷特兄弟發明飛機靠的是空氣動力學,而不是仿生學。雖然當時計算機科學和認知科學對機器智能的認識并不深刻,但是整個學術界還是充滿了樂觀情緒,在后來的10年里,美國在經費上對人工智能的研究也是非常支持的。

從20世紀50年代到60年代,機器智能按照傳統人工智能的路線走得非常不順利,幾乎沒有拿得出手的成果。而與此同時,計算機科學的其他分支都發展得非常迅速。因此,美國計算機學界開始反思,機器智能是否走錯了路?

1968年,著名計算機科學家明斯基在SemanticInformationProcess一書中分析了所謂人工智能的局限性,他引用了Bar-Hillel使用過的一個非常簡單的例子:Thepenwasinthebox,這句話很好理解,如果讓計算機理解它,做一個簡單的語法分析即可。但是,另一句語法相同的話:Theboxwasinthepen,就讓人頗為費解。在英語中,pen還有另外一個不太常用的意思,即小孩玩耍的圍欄,在這里理解成這個意思整個句子就通順了。但是,如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據這兩句話本身是無法判定pen在哪一句話中應該作為圍欄,哪一句話應該是鋼筆的意思。

事實上,人對這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識或者說「關于世界的知識」(worldknowledge),這個問題是傳統的人工智能方法解決不了的。因此,明斯基給出了結論:「目前」(即當時)的方法無法讓計算機真正有類似人的智能。由于明斯基在計算機科學界具有崇高的聲望,他的這篇論文導致美國政府削減了幾乎全部人工智能研究的經費。

從人工智能到數據驅動的時代

在機器智能的發展史上,賈里尼克是一個劃時代的人物。1972年,康奈爾大學教授賈里尼克來到IBM沃森實驗室進行學術休假,并且承擔IBM研制智能計算機的工作。當時,計算機專家們認為如果計算機實現了下面幾件事情中的一件,就可以認為它有圖靈所說的「智能」:

語音識別;

機器翻譯;

自動回答問題。

賈里尼克挑選了一個他認為最有可能突破的課題,即語音識別。

賈里尼克不是真正的計算機科學家,他的專長是信息論和通信,因此他看待語音識別問題完全不同于人工智能的專家們,在他看來這是一個通信問題:

人的大腦是一個信息源,從思考到找到合適的語句,再通過發音說出來,是一個編碼的過程;

經過媒介(空氣或者電話線)傳播到聽眾耳朵(即信宿)里,是經過了一個長長的信道的信息傳播問題;

聽話人把它聽懂,是一個解碼的過程。

既然是一個典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個馬爾可夫模型分別描述信源和信道。為了訓練和使用這兩個馬爾可夫模型,需要使用大量的數據。采用馬爾可夫模型,IBM將當時的語音識別率從70%左右提高到90%以上,同時語音識別的規模從幾百詞上升到兩萬多詞。這樣,語音識別就能夠從實驗室走向實際應用。賈里尼克和他的同事在無意中開創了一種采用統計的方法解決智能問題的途徑,因為這種方法需要使用大量的數據,因此又被稱為「數據驅動」的方法。

賈里尼克的同事彼得·布朗在20世紀80年代,將這種數據驅動的方法應用于機器翻譯。由于缺乏數據,最初的翻譯結果并不令人滿意,雖然一些學者認可這種方法,但是其他學者尤其是早期從事這項工作的學者認為,解決機器翻譯這樣智能的問題只靠基于數據的統計是不夠的。因此,當時SYSTRAN等公司依然在組織大量的人力,寫機器翻譯使用的語法規則。

如果說在20世紀80年代還看不清楚布朗的方法和傳統人工智能的方法哪一個更適合計算機解決機器智能問題,那么在20世紀90年代以后,數據的優勢就凸顯出來了。從20世紀90年代中期之后的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自于方法的改進,而80%則來自于數據量的提升,這背后的一個原因是互聯網的普及使可使用的數據量呈指數增長。

最能夠說明數據對解決機器翻譯等智能問題有幫助的是2005年NIST對全世界各家機器翻譯系統評測的結果。之前沒有做過機器翻譯的Google不僅一舉奪得了各項評比的第一名,而且將其它單位的系統遠遠拋在了后面。例如在阿拉伯語到英語翻譯的封閉集測試中,Google系統的BLEU評分為51.31%,領先第二名將近5%,而提高這5個百分點在過去需要研究7~10年;在開放集的測試中,Google以51.37%的得分比第二名領先了17%,可以說整整領先了一代人的水平。

大家能想到的原因是它請到了世界著名的機器翻譯專家弗朗茲·奧科(FranzOch),但是參加評測的南加州大學系統和德國亞琛工學院系統也是奧科寫的姊妹系統。從奧科在Google開始工作到提交評比結果,中間只有半年多的時間,奧科在方法上沒有做任何改進。Google系統和之前的兩個系統唯一的不同之處在于,前者使用了后者近萬倍的數據量。

吳軍:大數據和機器智能對未來社會的影響

表12005年NIST從阿拉伯語到英語的翻譯(封閉集)評比結果

表1是2005年NIST評比的結果。值得一提的是,SYSTRAN公司的系統是唯一采用傳統語法規則進行機器翻譯的。它和那些采用數據驅動的系統相比,差距之大已經不在一個時代了。

2000年之后,雖然還有一些舊式的學者死守著傳統人工智能的方法不放,但是無論是學術界還是工業界,機器智能的主流方法是「基于統計」或者說「數據驅動」的方法。與此同時,機器學習和數據挖掘開始熱門起來。

從大量的數據到大數據

數據驅動的方法需要大量的數據。從理論上講,切比雪夫不等式保證了在具有大量代表性的數據后,統計模型的準確性。從應用上講,Google等公司的成功也驗證了這一點。既然數據是非常有用的,如果具有更多、更完備、全方位的數據,就可能從中挖掘出很多預想不到的驚喜。「大數據」這個概念就在這樣的背景下應運而生。什么是大數據?現在很多人都愛講這個時髦的詞,但是大多數人對它的理解不僅有很大的局限性,有些甚至完全是錯誤的。

人們對大數據的第一個誤解就是將大數據和大量的數據混為一談,大數據的數據量確實非常大,但只是量大還不是大數據。一個人的DNA的原始數據,單純從量上來講也是非常大的,但是做不了什么事情,因為不具備統計意義。類似地,歐洲核子研究中心(CERN)每一個對撞實驗的數據量都很大(一年產生的數據量和整個互聯網的數據量在同一個數量級),但是這些數據都被限制在特定的維度,雖然能夠驗證很多理論(如證實了希格斯玻色子的存在),但是它們只是圍繞特定的問題,而不會對其他領域產生影響。

大數據不同于大量數據的第一個關鍵點是數據的多維度性質。2013年9月,百度發布了一個頗有意思的統計結果——中國十大吃貨省市排行榜。百度沒有做任何的民意調查和各地飲食習慣的研究,只是從百度知道的7700萬條和吃有關的問題里挖掘出來一些結論,而這些結論看上去比任何學術研究的結論更能反映中國不同地區的飲食習慣。百度給出的結論:在關于「什么能吃嗎?」的問題中,福建、浙江、廣東、四川等地的網友最經常問的是「什么蟲能吃?」;江蘇、上海、北京等地的網友最經常問「什么的皮能不能吃?」;內蒙古、新疆、西藏的網友則是最關心「蘑菇能吃嗎?」;而寧夏網友最關心的竟然是「螃蟹能吃嗎?」。寧夏網友關心的事情一定讓福建網友大跌眼鏡,反過來也一樣,寧夏網友會驚訝于有人居然要吃蟲子。

百度做的這件小事就是大數據的一個典型應用,它有幾個特點:首先,數據本身非常「大」,7700萬個問題和回答不是一個小數字;第二,數據維度非常多,涉及食物的做法、吃法、成份、營養價值、價格、問題來源的地域和時間等,而且這些維度也不是明確給出的(這與傳統的數據庫不一樣)。在外面人看來,這些原始的數據「相當雜亂」,但是恰恰是這些看上去雜亂無章的數據將原來看似無關的維度(時間、地域、食品、做法和成份等)聯系起來。經過對這些信息的挖掘、加工和整理,得到了有意義的統計規律,例如不同地域的人的飲食習慣。

百度只公布了一些大家感興趣的結果,只要它愿意,還可以從這些數據中得到更多有價值的統計結果。例如,它很容易得到不同年齡人、性別和文化背景的飲食習慣(假如百度知道用戶的注冊信息是可靠的,即使不可靠也可以通過其他方式獲取可靠的年齡信息),不同生活習慣的人(例如正常作息的人、夜貓子們、經常出差的人或者不愛運動的人等)的飲食習慣。如果百度的數據收集時間跨度足夠長,還可以看出不同地區人的飲食習慣的變化,尤其是在不同經濟發展階段飲食習慣的改變。而這些看似很簡單的問題(如飲食習慣的變化)沒有百度知道的大數據將很難得到。

上面這些統計似乎并不復雜,按照傳統的統計方法應該也可以獲得,但是采用傳統方法的難度比一般人想象得大。如果在過去想要獲得這些統計結果必須做的事情:首先,需要先設計一個非常好的問卷,然后要從不同地區尋找具有代表性的人群進行調查(這就是蓋洛普一直在做的事情),最后要半人工地處理和整理數據。這樣不僅成本高,而且如同蓋洛普民調一樣,很難在采樣時對各種因素考慮周全。如果在后來統計時發現調查問卷中還應該再增加一項,而補上這一項的成本幾乎要翻倍。

傳統方法難度大的另一個原因是填寫的問卷未必反映被調查人真實的想法。大家在百度知道上提問和回答是沒有壓力也沒有功利的,有什么問題就提什么問題,知道什么答案就回答什么,但是在填寫調查問卷時就不同了。大部分人都不想讓自己表現得「非常怪」,因此不會在答卷上寫下自己有「愛吃臭豆腐」的習慣或者「喜歡吃蟲子」的嗜好。據著名媒體人羅振宇介紹,中央電視臺過去在調查收視率時就遇到這樣的情況,他們發現通過用戶填寫的收視卡片調查得出的收視率和自動收視統計盒子得到結果完全不同。從收視卡得到的統計結果中,那些大牌主持人和所謂高品位的節目收視率明顯地被夸大了,因為用戶本能地要填一些讓自己顯得有面子的節目。筆者也做過類似的實驗,從社交網絡的數據得到的對奧巴馬醫療改革的支持率(大約只有24%)比蓋洛普的結果(41%)要低得多。

大數據的好處遠不止是成本和準確性的問題,還有它的多維度(或者說全方位)。過去計算機能夠存儲和處理的數據有限,因此只收集與問題相關的數據,這些數據只有很少的幾個維度,而看似無關的維度都被省略掉了。這種限制也決定了特定的數據使用方式,即通常是先有假設或者結論,然后再用數據來驗證。如今 云計算 的出現可以存儲和處理大量的、關系很復雜的甚至是原本看上去沒有用途的數據,工作的方法因此而改變。除了使用數據驗證已有的結論之外,還可以從這些數據本身出發,不帶任何固有的想法,看看數據本身能夠給出什么新的結論,這樣就發現了很多新規律。例如,百度百科中的數據乍一看是雜亂無章的,其實數據之間有很多內在聯系。在對這些大數據進行分析之前,產品經理們的頭腦里并沒有預先的假設,也不知道能得出什么樣的結論。但是,通過對這些數據的分析發現了很多新的規律。

大數據和大量數據的另一個不同之處在于它的完備性。在1936年的美國總統大選前夕,當時著名的民意調查機構“文學文摘”(theliterarydigest)預測共和黨候選人蘭登會贏。此前,文學文摘已經連續4次成功地預測了總統大選的結果,這一次它收回來240萬份問卷,比前幾次多得多,統計量應該是足夠了,因此民眾們相信他們的預測結果。而當時一位名不見經傳的新聞學教授(也是統計學家)蓋洛普卻對大選結果提出了相反的看法,他通過對5萬人意見的統計,得到了民主黨候選人羅斯福會連任的結論。

大選的結果出來后,采用了少量樣本的蓋洛普預測對了,面對迷惑的民眾蓋洛普解釋了其中的原因:文學文摘統計的樣本數雖然多,但是卻不具有代表性,它的調查員們是根據電話本上的地址發送問卷的,而當年美國只有一半的家庭安裝了電話,這些家庭的收入相對偏高,他們大多支持共和黨。而蓋洛普自己在設計統計樣本時,考慮到了美國選民種族、性別、年齡和收入等各種因素,因此雖然只有5萬個樣本,卻更有代表性。這個例子說明統計樣本代表性的重要性。

1936年的大選預測還催生出一個現在最權威的民調公司——蓋洛普公司,在這之后該公司又成功地預測了1940年和1944年兩次大選。在1948年底美國大選的前夕,蓋洛普公布了一個自認為頗為準確的結論:共和黨候選人杜威將在大選中以比較大的優勢擊敗當時的總統,即民主黨候選人杜魯門。由于蓋洛普公司前3次的成功,在大選前很多人都相信這個結論。但是,大選的結果是杜魯門以比較大的優勢獲勝,這讓大家對蓋洛普公司的民調方法產生了質疑。雖然蓋洛普公司考慮了選民的收入、性別、種族和年齡的因素,但是還有非常多的其他因素以及上述因素的組合他們沒有考慮。

在隨后的幾十年,蓋洛普公司不斷地改進采樣方法,力求統計準確,但是它對美國大選結果的預測是大局(全國)尚準確,但是細節(每一個州)常常出錯,因為再好的采樣方法也有考慮不周全之處。

吳軍:大數據和機器智能對未來社會的影響

圖4NerdSilver對2012年美國大選的預測和實際結果的對比

(深灰色表示共和黨獲勝,淺灰色表示民主黨獲勝)

2012年總統選舉時,這種「永遠預測不準」的情況得到了改變。一位統計學家NerdSilver通過對互聯網上能夠取得的各種數據(包括社交網絡上用戶發表的信息、新聞信息和其他網絡信息)進行大數據分析,準確地預測了全部50個州的選舉結果(如圖4所示),而蓋洛普從來沒有做到這一點。這個結果是否是蒙的?這個可能性或許存在,但是概率只有0.0000000000015%,因此可以認為這是大數據分析的結果。Silver并沒有好的采樣方法,只是收集的數據很完備。大數據的完備性不僅有用,甚至有點可怕。

大數據的第三個特征體現在它的英文提法BigData上,這里使用的是BigData,而不是LargeData。Big更強調抽象意義上的大,而Large是強調數量(或者尺寸)大。BigData的提法不僅表示大的數據量,更重要地是強調思維方式的不同。這種以數據為主的新做法,在某種程度上顛覆了長期以來在科學和工程上的方法論。過去強調做一件事情的因果關系,通過前提和假設推導出結果。本文以Google和微軟在網頁搜索上的工作為例來說明這個方法論的變化。

大多數人認為Google的搜索比微軟的Bing(在質量上)做得略好一點的原因是Google的算法好,這種看法2010年以前是對的,因為那時Bing搜索在技術和工程方面確實明顯落后于Google。但是如今這兩家公司在技術上已經相差無幾,Google還能稍稍占優,除了產品設計略微好一些之外,主要是數據的力量。

在2006年以前,Google改進產品的思路是先找到產品的不足再研究改進的方法,同時進行大量的實驗,最后在工程上實現。但是,從2004年開始Google發現,在歷史上無意間收集到的大量關于用戶使用互聯網習慣的數據對產品質量的提升有意想不到的好處。由于大數據的完備性,通過分析數據可以先得到正確的結論,即使它背后的原因一時還考慮不清楚。這樣,公司就面臨一個選擇———是否相信這些無法解釋的結論。起初,很多人還試圖在找到合理的解釋后才使用通過數據得到的結論,但是當商業上的競爭不斷加劇時,2006年之后大家的工作方式不自覺地轉到了先相信結論,再搞清楚原因這樣一種新思路上。久而久之,Google在工作中對數據產生了嚴重的依賴。

如今它的產品比微軟和雅虎等競爭對手做得稍好一些,主要的原因是它不僅擁有更多的數據,而且比其他公司更早地具有了大數據的思維方式,即不再刻意追求假設條件、推理過程和結論之間的因果關系,而是直接得到問題的解答。

綜上所述,大數據不僅僅是大量的數據,也不僅僅是一些公司為了推銷產品而強調的異構數據或者非結構化數據,而是具有了以往數據中難以具備的多維度和完備性等特點,更重要的是它是一種新的思維方式、一種新的方法論。

大數據和機器智能

現在大數據炙手可熱的原因不僅是各行各業都可以通過對數據的分析極大地提升自身的業務,更重要的是它將帶來機器智能的全面革命,并且最終改變世界的產業格局和社會生活。

從數據驅動的時代開始,計算機領域的科學家和工程師已經意識到,讓機器具有所謂的智能需要走一條和人的認知方法完全不同的道路,這就是發揮計算機在計算和存儲方面的特長,利用大數據的完備性,發現人難以發現的規律,得到傳統方式無法得到的結果,從而在某些方面超越人的智力。概括起來,如今從學術界到工業界都意識到,實現機器智能需要3個支柱——摩爾定律、大數據、數學模型:

摩爾定律的作用是保證計算機的計算能力和存儲能力能夠適應解決復雜智能問題的需求;

大數據的多維度和完備性特點是保證智能性問題能夠找到答案的關鍵;

數學模型則是將現實生活中的問題轉化成計算的橋梁。

本文的重點是闡述大數據扮演的角色,下面通過Google的兩個例子來說明。

第一個例子是關于計算機自動回答人的問題。根據圖靈的觀點,當機器可以回答人的問題而提問者無法判定回答問題的是機器還是人時,機器就有了和人同等的智能。這要求計算機不僅能夠識別人的語音,還能回答人的提問,而后面一件事在半個多世紀里都做得不是很好。雖然可以通過模式匹配找到一些簡單問題的答案,但是直到2012年,機器自動回答復雜問題(如「為什么」和「怎么辦」)在學術界依然被認為是一個尚未解決的難題。

吳軍:大數據和機器智能對未來社會的影響

圖5Google自動問答

(問題為「天為什么是藍色的」,問題下面是計算機產生的答案)

2012年,在Google內筆者領導的研究小組開始著手解決這個問題,直到2014年年初,Google的搜索引擎已經能夠回答30%的復雜問題了,這遠遠超過了學術界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是Google將這個過去認為是自然語言理解的問題變成了一個大數據的問題。

首先,Google發現對于用戶在互聯網上問的各種復雜問題,有70%~80%可以在前10條自然搜索結果(去掉廣告、圖片和視頻等結果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結果的摘要里。因此,Google將機器自動問答這樣一個難題轉換成了在大數據中尋找答案的摘要問題。這里有3個前提:

首先,答案存在,這就是大數據的完備性;

其次,計算能力足夠,Google回答這樣一個問題的時間小于10ms,但是需要上萬臺服務器同時工作;

最后,要用到非常多的自然語言處理算法,包括對全部的搜索內容進行語法分析和語義分析,能夠從文字的片段合成符合語法而且讀起來通順的自然語言等。

第一個前提只有Google等少數大公司具備,而學術界不具備,因此決定了Google而非學術界最早解決圖靈留下的這個難題。圖5為Google自動問答的實例。

第二個例子是關于Google 無人駕駛 汽車。無人駕駛汽車可以算是一個 機器人 ,因為它需要像人一樣對各種隨機突發性事件快速地做出判斷。2004年,經濟學家們依然認為開車這件事是計算機難以取代人的幾件事之一,他們在得出這個結論時,除了分析技術上和心理上的難度外,還參考了當年DARPA組織的自動駕駛汽車拉力賽的結果:當時排名第一的汽車花了幾個小時才開出8英里,然后就拋錨了。但是僅僅過了6年,2010年Google的自動駕駛汽車不僅被研制出來,而且已經在高速公路和繁華的市區行駛了14萬英里,沒有出一次事故。

為什么Google能在不到6年的時間里研制出自動駕駛汽車?最根本的原因是它把這個機器人問題變成了一個大數據問題:

首先,自動駕駛汽車項目是Google街景項目的延伸,Google自動駕駛汽車能去的地方都是它掃過街的地方,這個汽車在行駛到任何地方時,對周圍的環境是非常了解的,不像過去那些研究所里研制的自動駕駛汽車每到一處要臨時識別目標。

其次,Google的自動駕駛汽車上面裝了十幾個傳感器,每秒鐘幾十次的各種掃描,這不僅超過了人所謂的「眼觀六路、耳聽八方」,而且積攢下來的大量數據對各地的路況以及不同交通狀況下車輛行駛模式有準確的了解,計算機學習這些經驗的速度遠遠比人快得多。

這兩點是過去學術界所不具備的條件,因此Google才能在非常短的時間里實現汽車的自動駕駛。

無論是計算機自動回答問題還是智能汽車的自動駕駛,都涉及大量的預先完成的離線計算。為了實現計算機的自動問答,需要事先對全部網頁的內容進行語法和語義分析;為了實現自動駕駛,要事先識別出各個街道上的所有目標,這些都需要海量的計算。因此,世界上最強大的機器人其實不是那些做成人形、能夠活動的機器,而是在數據中心里面幾萬、幾十萬甚至上百萬的服務器。

最后,回顧一下Bar-Hillel和明斯基用的那個關于pen含義的實例。明斯基指出,傳統人工智能的方法無法讓機器獲得世界的知識,這是機器產生智能的障礙。現在有了大數據的完備性,從某種角度上講,解決了「關于世界的知識」的障礙,因此使機器具有智能成為可能。

大數據和機器智能的關鍵技術

實現大數據的應用和機器智能涉及很多關鍵技術,涵蓋了計算機科學、電機工程、通信、應用數學和認知科學等許多方面,本文重點介紹其中最主要的幾項。

數據的收集

大數據離不開數據,而數據的收集非常關鍵。與傳統的利用采樣收集數據不同,大數據需要全面地、在無意間收集各種可能有用的數據。強調「無意間」是因為有時可以收集的數據會變形,不具有統計意義,關于央視收視率調查的例子就說明了這個道理。

雖然收集大量的數據并不難,但是收集全面卻不容易。在Silver所做的美國大選預測的例子中,準確性來自于數據的全面性。下面用Google產品中另外一個例子來說明收集完備的數據和大量的數據在難度上的區別。

統計語言模型是語音識別、機器翻譯甚至輸入法的基礎,而訓練一個好的統計語言模型需要大量的數據。過去為了保證訓練數據具有代表性,通常是從各種來源的文本數據中抽樣,湊足即可。這樣得到的模型是針對所有人的,當然對于用詞非常怪異的人(小概率事件)來講,通用的模型就未必合適。在大數據時代,有可能為每一個用戶量身定做一個語言模型,這就要收集每一個用戶完備的輸入數據,要做到這一點而不涉及用戶的隱私就有相當大的難度了。

在大數據時代,擁有數據就等于擁有了財富。2014年初,Google以32億美元的天價收購幾乎沒有什么收入的智能空調控制器公司Nest,這不是為了給家庭省一點電,而是通過Nest的產品收集人們在家活動的數據,而這些數據采用傳統的數據采集方法是得不到的。

數據的存儲

摩爾定律使存儲成本成倍下降,但是當大數據出現后,數據量增長的速度可能超過摩爾定律增長的速度(如圖2所示)。例如,Google眼鏡可能將人一輩子看到的事情全部記錄下來,如果這件事做成了,會徹底改變人們對世界,甚至對自己人生的了解。但是,將這些視頻(包括音頻)數據都存下來不是一件容易的事情。

對于擁有和使用大數據的公司,存儲數據的數據中心就成了未來業務的關鍵點。如果這個點出了故障,如何保證業務的正常運行就是一個挑戰。另外,在很多時候數據的存儲不僅僅是成本問題。處于保護隱私的考慮,很多與用戶相關的數據還不能集中存儲,而是需要存在每一個人的智能終端上,這也給數據的存儲和使用帶來了挑戰。

數據的表示、檢索和隨機訪問

對于互聯網的網頁數據、公司運營的日志數據、用戶使用互聯網習慣的數據,雖然其數據量大,但是顆粒度都很小(一個字段一般只有幾個字節到幾十個字節),因此它們的表示(描述)、檢索和隨機訪問并不是大問題。但是,對于富媒體數據(如視頻),要想隨機訪問其中一個畫面就不是一件容易的事情。還有很多比網絡富媒體顆粒度大得多的數據,例如很多和醫療相關的數據,一個基本單元就幾百兆甚至更多。目前,檢索一個詞組是件容易的事情,但是檢索一段基因就不容易。除了醫療,很多行業(如半導體設計、飛機設計制造)的數據量都很大。

在過去,各個領域甚至各個公司會有自己的數據格式,它們只在自己的領域使用自己的數據。但是,到了大數據時代,希望通過數據之間的相關性尤其是大數據多維度的特性,找到各種事務之間的關聯。例如第4節的百度知道的例子,如果能夠將每一個用戶的飲食習慣收集起來,通過可穿戴式設備了解他們的生活習慣,然后再與他們的醫療數據甚至是基因數據聯系起來,就能研究出不同人、不同生活習慣下各種疾病的發病可能性,并且可以建議他們改進飲食習慣,預防疾病。這個前景看起來很美好,但是要實現它就必須先解決數據的表示、檢索和隨機訪問等問題。顯然,對于世界上各種各樣的大數據,無法用一個統一的格式來描述,但是需要一些標準的格式,以便于相互交換數據和使用數據。

數據表示的另一個挑戰來自于數據保密和對隱私的訴求。很多時候,希望處理/使用大數據的人,既能得到想要的統計規律,又無法看到數據的內容。

數據的使用和挖掘

使用大數據,相當于在一堆沙子中淘金,不經過處理的原始數據給不出新知識,大數據能產生的效益在很大程度上取決于使用和挖掘數據的水平。在Google,至少有四成的工程師每天在處理數據。大數據不同于過去為了某個特定目的獲取或者產生的數據,在結構和格式上比較規范,大數據的原始數據常常是雜亂無章的,因此「從沙子里淘金」的本領是使用大數據的必要條件。在第5節的機器自動問答的例子中,雖然問題的答案存在于網頁之中,但是答案的內容通常是零碎地分布在不同網頁里,對網頁的結構、內容進行分析就成為了使用大數據的先決條件。而對于文本大數據來說,自然語言理解技術是使用它們的前提。

從紛雜的數據中獲取有用的信息,通常只是使用大數據實現機器智能的第一步,而接下來關鍵的一步就是機器學習。對于同樣的數據、同樣的算法,采用不同深度的機器學習方法得到的結果不同。Google的JeffDean等人采用大規模并行的人工神經網絡,對語音識別的參數重新訓練,將識別的錯誤率降低了15%(相對值)。對于機器翻譯,效果同樣顯著。這說明機器學習的重要性。

安全性和隱私性的維護

大數據由于數據量大而且完備,一旦丟失,損失將是巨大的,而一旦被盜取,后果更是不可想象。因此,大數據的安全性是IT領域新的挑戰。

大數據的完備性可以帶來很多好處,例如很多原本針對一個群體的產品和服務可以做到針對每一個人,但是同時也會帶來隱私的憂患。對隱私的保護不是僅在法律層面,而是指如何通過技術手段,使得在使用大數據時既能夠發揮它的功效,還能夠維護個人的隱私。

數學模型和智能算法

目前,機器智能做得最好的領域都有一個共同的特點,就是找到了把實際問題變成計算的數學模型和智能算法。為了讓計算機發揮更大的作用,變得更加智能,需要在數學模型研究上進行更大的投入,而這需要一個漫長的技術積累,很難在一夜之間有突破,因此除了長期堅持研究,別無他法。

機器智能和未來社會

機器智能可以幫助改善人類的生活,但是人們在歡呼機器智能到來的同時,是否準備好了它對未來社會帶來的沖擊?2011年德國提出工業4.0的概念,即通過數字化和智能化提升制造業的水平。其核心是通過智能機器、大數據分析來幫助工人甚至取代工人,實現制造業的全面智能化。這在提高設計、制造和供應銷售效率的同時,也會大大減少產業工人的數量。在中國,全球最大的OEM制造商富士康,一直在研制取代生產線上工人的工業機器人。未來將有上百萬的機器人取代裝配線上的工人,這使得工人們不再需要到生產線上從事繁重而重復的工作,也使工廠里的工人數量大幅度地減少。

很多人會說,自從大機器出現后工人的數量就在減少,勞動力會被分配到其他行業。但是,如同在2004年經濟學家低估了機器可以取代駕駛員的可能性一樣,如今可能在低估機器智能對未來社會的沖擊。這一次由機器智能引發的技術革命不僅替代那些簡單的勞動,而且將在各個行業取代原有的從業人員,因為這將是人類歷史上第一次機器在智能方面超越人類。

在美國,專科醫生(如放射科醫生)是社會地位和收入最高的群體,也是需要專業知識最多、智力水平最高的群體,他們需要在大學和醫院學習和訓練13年才能獲得行醫的執照,過去認為這樣的工作是不可能被機器取代的。但是,現在智能的模式識別軟件通過醫學影像的識別和分析,可以比有經驗的放射科醫生更好地診斷病情,而這個成本只是人工的1%。

律師也被認為是最「高大上」的職業,但是他們的工作受到了自然語言處理軟件的威脅。如今打一場像蘋果和三星這樣的官司,要分析和處理上百萬份法律文件(因為美國是判例型法律),律師費高得驚人。但是,位于硅谷PaloAlto的BlackstoneDiscovery公司發明了一種處理法律文件的自然語言處理軟件,使得律師的效率可以提高500倍,而打官司的成本可以下降99%。這意味著未來將有相當多的律師可能失去工作。事實上,這件事情在美國已經發生,新畢業的法學院學生找到正式工作的時間比以前長了很多。

面對勢不可擋的機器智能大潮,人類在未來需要重新考慮工作和生活的方式,尤其是勞動力的出路問題。從100多年前開始的農業革命使得發達國家2%~5%(根據美國勞工部的統計,美國農業工人與勞動力人口的比例不到2%)的人提供了全部人口所需的食品,隨著機器智能的發展,或許只需要5%以下的勞動力就能提供人類所需的所有工業品和大部分的服務工作。當然,會有一小部分人參與智能機器的研發和制造,但是這只會占勞動力的很小一部分。現在必須考慮未來勞動力的出路,這是一個在機器智能發展過程中無法回避的問題。

結束語

機器智能曾經是無數代人的夢想。在1946年人類制造出第一臺電子計算機以后,這個夢想似乎離人們非常近了,但是直到上個世紀末,機器的智能水平還比較低。主要有兩個原因:

一是很多技術條件還不具備,機器智能的發展在整體上還處于早期階段;

二是人們習慣于按照人的思維方式去要求機器,并且讓機器模擬人,導致走了很多彎路。

但是,人類最終認識到計算機實現智能和人采用的方法是完全不同的。經過半個多世紀的摸索,人類找到了采用適合機器特長(計算快、容量大、知識復制容易等)的發展機器智能的方式。

由于人類的智能水平在過去的幾千年里沒有太大的變化,但是機器的智能水平卻可以隨著摩爾定律呈指數增長,因此在某個時間點,一定會出現機器在智能上超過人類的可能性,如今人們可能就處在這個轉折點,而這一切在很大程度上是因為有了大數據。

作者簡介

吳軍博士,畢業于清華大學和約翰霍普金斯大學,豐元創投創始合伙人,計算機科學家,暢銷書作家。前Google高級資深研究員,前騰訊副總裁,Google中日韓搜索算法的作者,Google自動問答系統和許多創新產品的負責人,工業和信息化部顧問,約翰霍普金斯大學工學院董事。《浪潮之巔》、《數學之美》、《文明之光》、《大學之路》、《硅谷之謎》、《智能時代》等暢銷書的作者。

整理編輯:厚勢分析師

轉載請注明來自厚勢和厚勢公號:iHoushi


億歐智庫與阿里巴巴研究院合作,正在進行中國人工智能投資相關研究,我們邀請關注和投資AI的投資人參與到本次研究當中。下方是研究中關于投資人的調查問卷,歡迎您進行填答。也歡迎您通過郵件與我們聯系,交流AI投資的經驗與觀點:zk@iyiou.com。

問卷鏈接: 億歐智庫2017中國人工智能投資人調查問卷


隨意打賞

大數據與人工智能大數據時代的影響云計算與大數據大數據的特征吳軍 大數據未來機器人
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 大色综合色综合网站 | 天天尻 | 欧美激情毛片 | 欧美久久超级碰碰碰二区三区 | 国产理论精品 | 亚洲国产成人久久77 | 国产羞羞视频在线播放 | 欧美一区二区影院 | 激情五月色播 | 一级毛片真人不卡免费播 | 久久99久久99精品免费看动漫 | 久久伊人免费 | 99热这里只有精品久久免费 | 精品国产一级毛片大全 | 日本亚洲成高清一区二区三区 | 九九九热 | 亚洲欧美一区二区三区 | 欧美一欧美一区二三区性 | 97视频在线观看免费 | 国产亚洲女在线精品 | 九九国产精品九九 | 国产精品四虎视频一区 | 亚洲欧美日韩国产vr在线观 | 极品粉嫩粉嫩福利视频在线 | 操干干| 麻豆成人久久精品二区三 | 亚洲四虎永久在线播放 | 99久久99这里只有免费的精品 | 国产日日操 | 天天色天天射天天操 | 99热久久国产这里是精品 | 久久久久久久99精品免费观看 | 午夜欧美性视频在线播放 | 99在线精品免费视频九九视 | 国产精品欧美亚洲韩国日本不卡 | 伊人蕉| 韩国女主播一区二区三区视频 | 97视频在线观看免费播放 | 国产亚洲精品中文带字幕21页 | 精品综合久久久久久97超人该 | 国产香蕉在线观看 |