【更正】微軟人工智能首席科學家鄧力:深度學習十年簡史和人工智能未來展望(33PDF下載)
1 新智元原創
整理:聞菲
【更正說明】 本文最初發布時內容有所遺漏,現經鄧力博士審定后再次發出。此次更改的主要內容包括:更換文中提及的《財富》一文超鏈接;補充原文發布時遺漏的一張展示深度學習局限的圖片(見?文注釋);在提到深度學習從加拿大和美國進入中國時,補充了百度在語音方面的進展;更換了文末最后一張展示鄧力博士最新思想和工作的圖片。給讀者帶來不便,十分抱歉。特此聲明。(2016.10.26)
【新智元導讀】 微軟人工智能首席科學家鄧力18日在自動化學會與新智元攜手舉辦的首屆 AI WORLD 2016 世界人工智能大會 發表主旨演講《深度學習十年簡史和人工智能未來展望》。鄧力博士回顧了他與 Hinton 的合作及其產業影響,重點講述語音識別如何隨深度學習發展進入商用階段,還介紹了微軟近兩年的人工智能進展,并對深度學習技術、應用和產業進行展望。演講最后,鄧力分享了他最新的思想和工作――將符號式邏輯推理和數值張量式神經網絡結合到一起,有望解決深度學習黑箱問題,常識嵌入與充實問題,以及邏輯推理規則的自動學習問題。本文后附新智元9月對鄧力博士的專訪。 【 回復“1024”下載 PPT 全文(PDF格式); 點擊閱讀原文觀看視頻回顧】
AI WORLD 2016 世界人工智能大會開場視頻(完整版)
鄧力: 感謝大家! 貴賓們好,朋友們好。 我今天首先要感謝組委會給我這個機會,在這里向大家介紹微軟的一些深度學習和人工智能的研究,也感謝組委會專門給我這個題目,叫我講一下十年深度學習的歷史。正像你們剛才聽到 Yoshua Bengio 教授講的一樣,微軟在深度學習的開始階段就做了很大的投入。今天我會向大家介紹這之后我們很多的進展,最后分享對未來的展望。
深度學習十年簡史:深度信念網絡(DBN)開啟 DL 時代
組委會告訴我 ,今天的觀眾有相當多是從業界來的投資人士以及技術人士。所以我向大家推薦兩禮拜前 《財富》雜志的一篇文章 ,講了深度學習一部分的歷史。趁此機會也向大家介紹這篇雜志文章里面給的深度學習的定義。從技術的角度、也從科學的角度,我想再補充一些材料,使得大家對深度學習跟人工智能有一些更深入的了解。
這些是《財富》雜志所講的定義,這個定義基本是準確的。比如說人工智能,它含有一大串的技術,包括邏輯推理技術,包括機器學習技術,在機器學習的技術里又包括深度學習的技術。其中,主要的一塊是機器學習。機器學習所解決的問題,是要用數據跟統計的方法或者神經網絡的方法來解決現實生活中的任務(tasks)。在機器學習里面最新型和最重要的一塊――深度學習,也包括一大串的技術加上應用。雖然在這篇文章里面只提到了語音應用和圖像應用,實際上還有自然語言處理等其他一大串的應用。在這個演講里面,我會著重把這些新的應用和新的技術向大家介紹一下。
剛才 《財富》雜志的文章 講的深度學習還是從商業的方面來講,大家能夠看得懂。要是看Wikipedia,它講的深度學習的定義比剛才的文章更深入一點。我現在向大家介紹一下 Wikipedia 的定義,深度學習有三個要點 (來源于我 2014 年寫的一本書,今年五月份翻譯成中文)。第一,這是一般的定義――多層次的非線性變換,不單單是神經網絡,它包括各種各樣的其他方法,深度學習的精髓是好幾個不同層次的非線性變換。第二, 因為有好多層次,就衍生出來了一個非常重要的問題――怎么樣來優化這個多層次的系統。在淺層學習的模型里面,這個優化問題不是那么嚴重,因為比較容易優化。但是一旦有深層之后,這個優化就成為一個非常難的問題。這也是在上世紀 80 年代、90 年代深度神經網絡并沒有能夠產生影響的其中一個很大的原因。當時數據不夠,計算能力也不夠,而且當時算法也不夠。差不多十年之前,端到端的優化學習問題開始得到了解決――并不是說理論上得到解決,我只是說在實際算法上得到了解決。 第三,這點更重要,尤其在語音識別和圖像識別之外的、更重要的認知領域的應用。在這種更高層次的認知領域的應用情況下,因為深度學習有不同層次的表達,它就能夠把抽象的概念進行層次化的表征。 在我下面講的應用中,我想特別是把第三個要點向大家描述得更深刻一點。頭兩個特性一般是大家在目前深度學習上看得比較清楚的,而且文獻講得比較多。第三點的抽象性確實是深度學習最重要的精華。
關于深度學習十年的歷史, 我從 《財富》雜志的文章 里面抽取出來一張表。理論上開創性的工作――剛才 王飛躍老師講到神經網絡可以追溯到好幾十年前 。這里我只講講近代的歷史。上世紀80到90年代第二次人工智能浪潮,主要也是由神經網絡突破引起的,當時的突破主要是在概念上的突破,神經網絡的一些算法(比如 BP 算法)成為非常主流的算法,一直延伸到現在。但是,工業應用上的大規模突破只是到最近――就像 Yoshua Bengio 教授講的――五到六年之前才開始。
這是一篇對我來說非常重要的文章, 加拿大安大略省的 多倫多大學差不多20年前發表的文章提出“Wake Sleep”算法――怎么讓神經網絡做非監督的學習。 上世紀 90年代期間第二次神經網絡熱潮往下降,一直做不起來。大家往深層次的模式來想,那時候這種方法也沒有成功,但是對我有非常大的啟發。 我當時也在加拿大安大略省任教,做時程上的深層次的神經網絡研究,在 1994 年同我的博士生一起做神經網絡的研究,寫了這篇文章。
我當時做語音識別做了相當長的時間,神經網絡一直比不上統計概率的模型。我跟研究生寫的這篇文章,對神經時間序列預測模型做了非常細致的數學分析,跟 Yoshua Bengio 一篇文章有點類似。當然,網絡層次很深以后,學習的難度就變得非常大。當時用到語音識別上沒成功。但是給我們很大的啟發――到底要往哪個方向走?這是 20 年前的事情。在這篇文章之后,大家都認識到神經網絡用到語音識別成功的機會不是很大,更重要的原因是當時統計的模型發展得非??欤硗膺€有 SVM 機器學習的模型在那時候實際應用的效果遠遠超過神經網絡。所以那時神經網絡就慢慢像剛才 Yoshua Bengio 教授講那樣削弱了。
之后不久我從大學跳到微軟公司,當時我的一個團隊做了深層的動態 Bayesian 網絡,相對比較容易解釋并嵌入語音生成的知識與其科學原理。 但是還有一大串的問題。這些十年前深度 Bayesian 網絡的問題,現在已慢慢得到解決 (用神經網絡幫助 variational inference)。
深層次模型最早的一個突破還得歸功于 Geoffrey Hinton 的一篇文章 《A Fast Learning Algorithm for Deep Belief Nets》 ,這篇文章確實成為一個開啟深度學習熱潮的因素 。 現在大部分的深度學習模型是一層一層網絡不斷從下往上把原始數據變換成它的類別。這篇文章正好相反,不是往上,更注重從上到下生成數據。這有點像“做夢”,你做夢的時候可以產生一些想法,做的“夢”產生一些數據。你在醒的時候就可以把你所看到的真實的感知數據抽象出來、總結出來,成為你感知的對象。經過反復的上下信息傳遞的過程,就可以打造一種非常巧妙但并不直觀的生成式模型,而且對這種模型來說,這篇文章介紹了一個巧妙的學習方法。我看到這個方法以后,就開始思考這和我以前做的也是生成式的深度 Bayesian 語音識別模型會有什么關系。當時沒看很懂,想探索怎么把這種模型跟我們的深度 Bayesian 語音識別模型結合起來。所以,當時我就請 Hinton 到我們的西雅圖共事一段時間。
與 Hinton 合著論文成為經典,推動語音識別產業成功
2009 年底搞了一個 NIPS 講習會,將深度學習各種不同的方法在語音識別上的應用總結一下,那時候已經有初步的結果出來,但是結果不是特別好。當時所有的深度學習在語音識別上面都是聚集在非常小的數量上面――大概只有100萬幀左右的的數據量,非常有限。
當時大規模的神經網絡威力還沒顯示出來。這之后我們在微軟花了大概一年多的時間,發明了一些很有效的方法,使得深度信念網絡(DBN)、深度神經網絡(DNN),加上隱馬爾可夫模型(HMM),這三個不同的技術整合到一起就成為以上這組架構。把神經網絡跟其他的機器學習、人工智能方法聯合在一起,很快讓深度神經網絡在工業界上面的語音識別產生巨大的影響。 這有點像 AlphaGo,也有三種不同的方法聯合在一起。 所以, 怎么樣把不同的人工智能和機器學習方法同深度學習方法整合到一起是非常重要的 。
當時 Hinton 和我們在學術界(我所在的微軟研究院,也算學術界工業界的一個混合單位)合寫了一篇文章,三年多前發表的,成為深度學習在語音識別方面的經典工作。 大部分的內容和方法在這個文章當中寫到的,現在工業界還一直在用。文章講了深度神經網絡對語音識別產生的影響,怎么把不同的機器學習方法,包括深度神經網絡的方法整合起來,使得大規模的語音識別得到進展。
當我們微軟公司把深度學習用到語音識別并取得大規模成功的時候,微軟大老板 Rick Rashid 2012 年在天津舉行的一次會議上當場演示,第一次向世界宣布深度神經網絡是一個非常強大的技術。他用深度學習做語音識別演示,幾乎沒什么錯誤,因為他非常配合,幫我們采集了很多他自己的 speaker-dependent 的數據。大規模的場合演示語音識別和翻譯幾乎沒任何錯誤。另外,用機器翻譯的方法,把識別出的英文文字翻譯成中文,再用語音合成的方法產生中文語音。他用英文講,他的中文聲音就出來了,而且中文合成的聲音跟他自己的聲色非常相像,當時產生很大的影響。
演示之后,《紐約時報》的記者 John Markoff 到微軟采訪了我,也采訪了 Hinton,我們講了一些我們合作的事情,在《紐約時報》報道。最重要的寫的一條,我們不約而同跟這個記者說,這么好的一個技術能夠在演示上這么成功,幾乎沒有任何專利的保護。記者就把它寫到了報紙上,這個可能跟整個工業界對深度學習引起興趣有很大關系。
我們也寫了論文,2010 年到 2012年寫了不少微軟同多倫多大學合作的論文,之后 IBM、谷歌、科大訊飛、百度也用類似的方法??拼笥嶏w確實跟進我們做得比較早,我這里沒時間展開講太多。 識別自然語音的錯誤率在 1993 年幾乎每個字都會錯掉。 美國的 DARPA 第一次做這方面的研究時,數據沒采集多,1993 年之后,DARPA 每次投資語音識別的研究基本有1/4左右的資源是用來采集有標注的數據的。所以之后語音的大數據有了。這也是為什么深度學習在語音識別上是第一個成功的例子。
感謝胡郁總裁寄給了我當時在科大(我的母校)訪問的照片,那時候我在 2010年到 2012年之間接受侯建國校長的邀請訪問了科大和科大訊飛、也多次到微軟亞洲研究院、臺灣中央研究院和中國其他地方,講深度學習的方法并進行學術討論。這三年內我到中國各地走了十多次,開始于科大??梢赃@么說,科大訊飛的深度學習技術確實在中國是非常早就已經開始應用,只稍稍滯后于微軟,跟這些學術討論有很大的關系。深度學習從加拿大和美國到中國有很有趣的歷史,具體的過程劉慶峰總裁跟胡郁總裁他們有更多的材料。 近兩年來在吳恩達的帶領下百度語音的深度學習技術也有巨大的進展?!敬颂帪樾略鰞热荨?/span>
2012年到 2014年,微軟、谷歌出現一大串的產品,還有亞馬遜的 Echo,以及訊飛和百度的產品,也包括 Dragon 和 Siri 和 XBOX 產品一整套。全部用深度學習的網絡取代以前一大串淺層機器學習的語音識別技術。
這兩年(2012-2014),微軟花了很多的精力,特別是我們在美國的同事和北京研究院的同事合作,把在天津我們老板演示的用深度學習實現的演示完全產品化,大家用 Skype 就可以直接用不同語言做語音對話。兩個月前,楊瀾帶了一個采訪團隊到我們公司來拍攝人工智能電影的時候,專門試了我們的 Skype Translator,是五個小時人工智能的紀錄片的一部分。 她用唐詩來試我們的系統,結果很有意思,每個字都翻譯得很對,但是整個句子翻起來詩意就沒了。語音識別字對字詞對詞是好的,但是它不能夠真正達到人的智慧,還沒到有詩意的那個程度。
深度學習最近兩年發展:語音圖像識別和其他大數據應用全面進入商用階段
下面再講一下最近兩年之內深度學習的進展,首先語音識別的錯誤率繼續下降,包括訊飛、IBM、百度、谷歌, 包括我們的公司的工作 。最近幾年的進展更使得去年圖像識別的錯誤率降到低于人類的水平,這是微軟亞洲研究院去年做的,今年國內的幾個團隊做的比這個錯誤率低的更多。還有看圖說話也有很大的進展。
最近一兩年的 AlphaGo――文章是在 2016 年發表,工作大部分是在 2015 年做的,最后產生最大的影響是在 AlphaGo 今年 3 月份打敗世界圍棋冠軍,這里面很大的一個因素就是把神經網絡 Deep Neural Nets 和增強學習結合起來,用來加速 Monte Carlo Tree Search ,三者結合得到非常顯著的成果 。
人工智能對話機器人也取得成果。這一段話是我從 《財富》雜志文章 中截取出來的?,F在很多公司都在發展客服機器人,而且還有很多其他的應用。這種應用在 20 年前年前大家已經開始做了。我在大學當教授的時候就有很多類似的項目。 AT&T當時幫助客戶怎么付帳,那是唯一很成功的例子,其他的影響并不是很大。今年到去年差不多兩年之內,大家看到 AlphaGo 的成功,而且看到深度學習在語音識別和圖像識別上面的成功都感覺到時間已經到了,這個重要的應用時代已經到了。
大家看這篇 文章 可以看到更多的近年深度學習應用例子。這種應用在學術界跟企業界還不是講得特別多,但是,微軟領導在這篇 文章 中講了一段話, 這段話確實包含了我們微軟兩年之內的大量工作 。我的一個團隊做了相當多的工作。
還有一個很大的應用,Deep Learning 最近兩三年內有很多公司――主要是我們公司和IBM――大家看 這篇文章 后就可以感覺到,深度學習現在從原來感知上面的人工智能 (語音識別和圖像識別)已經大步進入到其他與大數據相連的真正商業應用的領域里面。
從研究的角度來講,深度學習用于自然語言處理尤其是機器翻譯在過去一兩年之內得到特別飛速的進展(盡管 2012 年就已經開始出現深度學習用于機器翻譯的學術論文)。我昨天早上剛從煙臺“中國計算語言學大會”回來,機器翻譯領域目前已經完全采用深度學習的方法,它的性能、精確度大大超過 20 多年來發展起來的基于統計的學習方法。IBM 20 多年前第一次把統計學習的方法用到機器翻譯。當深度學習在語音識別成功之后, 2012 年左右,深度學習就開始用到機器翻譯上面。現在整個機器翻譯的領域已經完全轉向深度學習,這一點在中國自然語言處理方面比美國更顯著。深度學習在閱讀理解、問答等等應用上的復雜性,要比其他那些應用到語音識別和機器翻譯的深度學習方法大,主要因為模型不一樣,所解決的問題也不一樣。這是下一步深度學習要解決的大問題。
前兩天煙臺的“中國計算語言學大會”上有一大串的演講,每個題目都是跟深度學習相關的:深度學習跟機器翻譯、深度學習跟問答、深度學習跟語法分析、深度學習跟情感分析,等等。我對中國的人工智能的希望是非常之大的。現在有哪些新的技術?有序列到序列的學習、有注意力模型, 一個禮拜之前谷歌 DeepMind 在《Nature》上面發表了 DNC 方法,它有局限性,還是基于 Von Neumann 算存分離的架構 。 做研究的話可以往這邊看。我下面會介紹更符合人腦認知和思維的 算存一體的 方法和思路。
深度學習未來展望:整合符號邏輯和深度學習,有望解決黑箱、常識嵌入,以及邏輯推理規則的自動學習問題
最后談談未來展望。關于應用,昨天的新智元百人會 AI 領袖閉門峰會聽大家講了很多,我補充一些研究和技術的內容。關于人工智能應用,在四天前 美國白宮出了個報告 ,在座的Thomas Dietterich 教授告訴我,他也參與了這個報告的一些寫作。 美國白宮政府發出來這個報告, 做應用的一定要好好看一看,它的最終結論對投資界影響非常大,跟中國推廣的人工智能方向是相符的。 Deep Learning 作為一個非常大的標題列出來。今天早上跟 Thomas Dietterich 教授談了一下,他承認對于很多做傳統的人工智能的專家來講 Deep Learning 的巨大成功確實是一個 Surprise。
Automated Science。把所有的物理科學材料數據用機器看一遍,能不能得出牛頓定律?像以前伽利略用望遠鏡看到星星的運動,經過科學的研究,總結出來一些星球運行的定理,牛頓根據這些材料總結出牛頓定理。 這些能不能用人工智能做出來?這是很多人想的問題。金融方面,人工智能和深度學習最近剛火起來,在美國做金融的極高端的專家找過我,我不便講太多,這個領域做金融的都在看。
從研究和技術方面來講,為了讓大家看到將來的趨勢,或者將來有影響的研究和技術,我們要先看現在的深度學習和AI的方法有些什么樣的局限性。 把局限性看懂以后,就可以知道用什么方法來克服它們。現在機器學習很大的一個局限性是,幾乎所有成功的方法都需要有非常大量的DATA,這種數據一定要輸入輸出全部匹配好(至少在全序列的水平上); 不匹配好的話,目前沒有任何方法能夠做得非常成功。這是非監督學習, 沒時間講了。下面還有一大串的其他局限,比如 Black box, 現在有很多研究在破這個黑箱,走出現有神經網絡的框架,要能夠把以前大家所做的深度 Bayes 的方法加上一大串其他的方法整合到一起,就有望解決黑箱的問題。 雖然有的研究人員覺得黑箱問題不是那么重要,但我認為黑箱問題很重要。同樣重要的一點:神經網絡現在非常難把知識自動擴大,就像小孩長大,他的知識和推理的能力一步步擴大,但是現在的人工智能這個能力幾乎還沒有。 我跟很多研究人員交流,怎么能夠把基于神經計算的深度學習跟符號邏輯連在一起,因為把邏輯關系搞清楚就能解釋知識的應用和推理的過程。 這就是真正的理解。現在所有我看到的 深度學習做的所謂的閱讀理解都不是我現在講的這個意義上的真正的理解。
【此圖片為新增內容】
下面用一張圖解釋最近的想法和工作,怎么樣能夠把基于符號的邏輯推理(上世紀70年代的人工智能主流方法)跟現在興起的深度學習、自動學習能力非常強的深度神經網絡結合到一起。 這是一個小例子。 現在這里有兩個結構,下面一個是輸入句子的句法樹狀結構。上面的樹狀結構是語義結構。用人工智能的傳統方法來做,要寫很多 rules,但是用神經網絡方法來做就可以學習結構變換。用于統一兩者的一個方法是建立一個等價關系(isomorphism)。樹狀圖狀結構都可以經過巧妙的編碼進入到神經網絡,學習完了之后反向回到新的樹狀圖狀結構,能夠把衍生出的經過推理后的樹狀結構(或者圖狀結構)無失真地(基于巧妙的編碼)解碼還原出來。這個過程中的 符號式的 推理邏輯就可以自動等價與在神經網絡上的實現。因為神經網絡善長學習, 邏輯推理的規則就有望能夠 通過等價關系自動學成。
【此圖片已更改】
謝謝大家,我就講到這里。
回復“1026”下載 PPT 全文(PDF格式)
在 9 月召開的中國人工智能大會(CCAI 2016)上,鄧力博士接受新智元專訪,談了他對深度學習最新突破及近來開源趨勢等問題的見解。鄧力同意 Hinton 等學者的看法,認為十年?機器能夠擁有常識,對研發通用人工智能(AGI)也表示樂觀,相信在他的“有生之年”應該能夠看見 AGI 實現。
當時,鄧力博士特別提到了他對 AI WORLD 2016 世界人工智能大會的期望:更深入了解人工智能在全球尤其是在中國的發展,同時分享他對人工智能和深度學習更多的思考。
新智元專訪:深度增強學習是了不起的進展,深度學習需要借鑒腦科學的知識
新智元:過去一年深度學習最大的突破是什么?
鄧力: 深度增強學習是一個很了不起的進展。AlphaGo 影響很大,也讓很多做深度學習的研究者意識到,深度學習應用不但可以在有大量直接標注的數據上成功(比如語音識別、圖像識別),還可以在其他更多的方面成功。這個成功不像以前那樣一定要把每項訓練數據都做一一標記,因為增強學習大部分數據都不是直接標注,而是要等到最后結果得出來,再指導前面的機器學習過程。深度學習和增強學習的概念以前都有,但谷歌 DeepMind 將深度學習和增強學習結合在一起,提出了深度增強學習,并且給出了應用場景,做了很多好的工程工作,向大家展示了它能夠解決以前深度學習解決不了的問題。就在前幾周,新聞報道谷歌 DeepMind 采用深度增強學習的方法,讓數據中心的能量消耗減少了 40%,這個影響是非常大的。省電不但有經濟效益,對環境的好處也是巨大的。以前一般人想不到可以將增強學習用在這個上面,我看了這項應用的報道后深受啟發。
新智元: LeCun 前不久表示,他非常看好對抗生成網絡模型 。
鄧力: 對抗生成網絡是很好的方法,它有助于無監督學習,如何把數據輸入輸出的關系弄清楚。
新智元:您最近主要在做無監督學習?
鄧力: 思考了這方面的很多問題。一是無監督學習不需要使用標注數據,二來也是更重要的一點,從思想模型上講,無監督學習更像人腦的學習。當然,直接的效應還是標注量――大 5 倍、10 倍可以,但大 100 倍、1000 倍、1 萬倍呢?現在不少人在做深度無監督學習,我也在這方面提出一些高層的解決方案。例如看圖說話,給定一幅圖像,讓機器用自然語言句子描述內容。微軟前年還專門標注了好幾十萬個這樣的數據給大家,整個深度學習領域的研究員都能應用,影響很大。但不可能標幾千萬甚至幾億的這種圖像,盡管大家都知道,這會進一步提高看圖說話的效果。其實我和團隊之所以要研究無監督學習,更重要的一點是, 我們目前的深度學習方法離真正的人腦學習差得太遠了 。深度學習需要借鑒腦科學的知識,雖然一兩年內暫時還用不上,但我相信不遠的將來,三到五年之內,大家都肯定會往這方面思考 。 我們現在也在往這方面想。我昨天講的深度學習,有一部分也是受腦科學的影響。只是我們更重視計算――腦科學計算不了也沒實用價值。但是,人工智能和腦科學將來都會慢慢結合。
新智元:Hinton 在之前接受采訪時表示,他認為十年內機器能夠擁有常識,您怎么看?
鄧力: 我同意他的看法。我們要是能夠把人腦關于常識的機制加到算法里面,人工智能會有新的大進展。關于常識的知識庫會越來越大,方法也會越來越強。計算能力、計算機硬件、數據……這些都在不斷發展擴大。到了一定階段,我想十年之內,差不多就會得到這樣一個好的解決方案吧。當然,到時候肯定不會像現在這樣采用監督學習的方式,而是整合了多種方法,監督學習、無監督學習、增強學習……而且現在發展速度這么快,工業界和學術界都大力投入人工智能和深度學習。十年算蠻長時間了。這么長時間,應該可以實現。
至于通用人工智能,應該會長一點,在十年以外。常識只是一部分,而通用人工智能,就是要用同一個人工智能解決很多的問題,這就需要在常識之外,還有很多其他的人類認知能力。把這些認知能力都考慮到一起,我想用的時間……至少在十年以外吧。但解決的機會是會有的,有生之年我也應該能看到,我還是比較樂觀的。
新智元:深度學習是最終的答案嗎?
鄧力: 最終的答案應該有很多方法整合在一起,深度學習是其中主要的一個。不過,深度學習本身范圍也很廣。 什么是深度學習呢?有些人說深度學習就是神經網絡,我認為這不全面。 深度學習的基本概念,一是多層次的,多層次不一定要神經網絡方法才能實現,可以用統計方法,也可以使用貝葉斯的方法。深度學習的另一個特點是端到端的學習,也不必局限于backprop??傊?,深度學習不一定限定在神經網絡,還要把常識――隨便舉個例子――結合進來,我是這樣認為的。
去年,我們團隊在 NIPS 發表了一篇論文探討了這樣的問題。你知道,現在使用神經網絡,大部分都很難解釋;我們的團隊就采用概率模型的方法,把比較淺層的概率推理方法加層,每一步的方法從果推到因,把每個步驟都當做一個迭代的過程,每個計算的步驟作為神經網絡的一個層次,然后把這個過程一層層循環上去,最后就形成了一個神經網絡,再來做反向傳播。學習完了以后,由于這個網絡也很深層,預測的結果就很準,但同時我們沒有把原來貝葉斯基本的架構破壞掉,所以用原先的模型就可以解釋最終的結果,這就是把神經網絡和其他方法結合起來的一個例子。
新智元:怎么看開源?
鄧力: 開源是好事。開源的結果是把整個業界的水平提高,給大家很多很多的選擇。我很高興見到很多公司開源,我認為開源的力度越大越好。舉一個例子,以前實習生來了,有一個很長適應的時期,才能把公司內部的應用軟件搞懂。開源以后,他們在入職之前就已經對相關的技術和產品比較熟悉了,來了之后馬上就可以上手。微軟已經開源了CNTK,今后也應該會開源更多。
新智元:微軟研究院在深度學習上的特點是什么?
鄧力: 微軟的優勢是深度學習開始比較早,儲備的人才和經驗很多。不過前幾年管理相對松散,做深度學習的人分散在很多不同的地方,但彼此之間都有合作。在深度學習和人工智能方面,我們會投資更多。
新智元:跟 Hinton 合作有什么印象比較深的地方嗎?
鄧力: 當時我們一起做語音識別,神經網絡和貝葉斯算法做了很多比較。發現貝葉斯算法不如神經網絡那么有效,主要是因為神經網絡能夠利用大型并標準的矩陣計算。當時我們試了各種各樣的方法,在2009年到2012年期間,Hinton 給了我很多實際的建議,比如早在2009年他就一直跟我說,“你一定要用好的 GPU”,用什么樣的 GPU 我還是聽他的,這個對我們影響很大。
新智元:神經網絡、層次化模型等思路在語音識別發展的歷史上早已被提出并無數次驗證,但都沒有成功?;仡櫳疃葘W習成功前的十年,那時能夠持續不斷地在“非主流”的方向上嘗試、改進、探索,是一件非常不易的事情,您是如何堅持過來的?
鄧力: 我在上世紀90年代也做神經網絡,但沒有成功――不過那時候大家都沒有成功(笑)。然后改做貝葉斯網絡模型和方法,在為語音生成(編注:語音生成指的是統計方法生成,不同于語音合成)建模的深度貝葉斯網絡做了很長時間。同樣,當時深度貝葉斯網絡學習的方法不成熟, 但現在兩三年內有了很多進展。這些新進展把統計、數學、概率和神經網絡的方法聯系在一起。將來要解決更像人腦的問題,單單依靠數據就不夠了。 現在大家開始注重非監督深度學習,過去積累的研究經驗和有計算價值的語音生成知識和模型也可以派上用場。
新智元:您去年都還在發論文,一直都工作在第一線。如何保持這樣長時間的高水平高產出?
鄧力: 這是責任,也是個人的興趣。公司給了我很多資源,現在團隊有了這么多人,人多了自然就好做事了。
新智元:10月份,中國自動化學會和新智元聯合主辦的 AI WORLD 2016 世界人工智能大會就要召開了。您對大會有什么期望?
鄧力: 我希望能在這個會議上學到更多的東西,更深入了解人工智能在全球的發展, 特別在中國的發展,同時也分享我對人工智能和深度學習更多的思考。
-----------------------
【更正說明】 本文最初發布時內容有所遺漏,現經鄧力博士審定后再次發出。 此次更改的主要內容包括 :更換文中提及的《財富》一文超鏈接;補充原文發布時遺漏的一張展示深度學習局限的圖片(見?文注釋);在提到深度學習從加拿大進入美國再進入中國時,補充了百度在語音方面的進展;更換了文末最后一張展示鄧力博士最新思想和工作的圖片。給讀者帶來不便,十分抱歉。特此聲明。(2016.10.26)
點擊閱讀原文,觀看2016世界人工智能大會主論壇全程回顧視頻。