專訪悉尼大學教授陶大程博士：弱人工智能時代，如何讓機器準確識別一個人？

36氪 ? 8年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

如果說你是這兩年才聞及人工智能一詞，那么只能證明你Out了。因為早在1956年，以麥卡賽、明斯基、羅切斯特和申農(nóng)等為首的一批年輕科學家，就已經(jīng)共同研究和探討用機器模擬智能的一系列問題，并首次提出了“人工智能”這一說法，也標志著“人工智能”這門新興學科的正式誕生。

但很遺憾，人工智能發(fā)展了這么多年，今天依然處于弱人工智能的階段。值得幸運的是，支撐人工智能的大數(shù)據(jù)，清晰的領(lǐng)域界限，頂尖的AI科學家和科技公司，都在推動著人工智能進程的快速發(fā)展。

近日，36氪就采訪到悉尼大學教授陶大程博士。作為人工智能和信息科學領(lǐng)域國際知名學者，陶博士已當選為歐洲科學院院士、電氣與電子工程師學會(IEEE)會士，并獲得澳洲國家科學最高榮譽尤里卡獎。他所研究的兩大領(lǐng)域是機器視覺與機器學習，研究的問題包括大規(guī)模圖像數(shù)據(jù)的檢索與分類、人臉識別與動畫、精細化分類、人體姿態(tài)估計、行為分析、事件檢測、多視角學習、多任務(wù)學習、標簽噪聲模型、矩陣分解、特征工程等。

不再需要設(shè)置密碼，指紋便可以解鎖手機；不必攜帶銀行卡，刷臉即可完成支付；無需鍵盤提交問題，說出來，答案就告訴你。人工智能的目的是為了更好地服務(wù)人類。其中最重要的一環(huán)便是，如何讓機器準確識別一個人。

“刷臉”時代還有多遠？

手機 “刷臉”支付、“刷臉”開機等各種“刷臉”服務(wù)，其核心技術(shù)便是計算機視覺領(lǐng)域頗為大熱的人臉識別。最早的人臉識別是以圖像里面人臉器官的尺寸作為特征進行匹配。后來出現(xiàn)了眾多基于表觀的特征，又引入了一些統(tǒng)計的方法，例如主成分分析、變形模板和后來的線性判別分析等。2007年左右發(fā)布的LFW數(shù)據(jù)庫包含有大量自然真實場景下的人臉圖像，傳統(tǒng)特征和分類器的方法不再奏效。但隨著深度學習技術(shù)和大數(shù)據(jù)的引入，LFW數(shù)據(jù)庫上的人臉識別準確率目前已經(jīng)可達到99%以上。

那么現(xiàn)有的人臉識別技術(shù)是否已經(jīng)攻克了所有核心問題呢？

陶博士簡析了近年來很多與人臉識別相關(guān)的國際比賽，包括測試人臉識別算法在監(jiān)控場景下性能的PaSC比賽，和測試人臉識別算法進行海量人臉檢索性能的Megaface比賽。比賽的結(jié)果表明現(xiàn)有的人臉識別算法在特定應(yīng)用上仍需要進一步提升，才能夠滿足實際需求。

但是這并未打擊我們對這一問題的研究信心。通過參加國際比賽，各科技公司和高校不斷地展示自己的技術(shù)實力，同時也對人臉識別的研究起到了非常大的導(dǎo)向作用。例如，比賽結(jié)果可以幫助很多研究團隊快速分析最新的研究問題和方法，及時調(diào)整研究方向和手段，使得這個領(lǐng)域可以以更快的速度發(fā)展。值得一提的是，陶博士的團隊在2016 年獲得了PaSC的冠軍，在另一國際比賽ActivityNet（大規(guī)模活動識別挑戰(zhàn)賽）中亦收獲冠軍。

人體姿態(tài)估計發(fā)展這么多年，為何依然普及難？

談及人體姿態(tài)估計，陶博士表示這是一個很傳統(tǒng)的話題，目前研究成果不是很樂觀，一方面技術(shù)成本高昂，對硬件設(shè)備高度依賴，導(dǎo)致難以得到推廣，另一方面達不到高精度的識別。

回顧人體姿態(tài)估計的發(fā)展史，目前工業(yè)界，尤其是電影制作行業(yè)，最常見的技術(shù)是Motion capture（動作捕捉），也就是通過穿戴多個關(guān)鍵點傳感器，并記錄其對應(yīng)三維空間坐標來實現(xiàn)捕捉人體的動作姿態(tài)。但是，目前使用Motion Capture系統(tǒng)的成本非常昂貴，而且需要穿戴特殊裝置才能使用，因此該技術(shù)難于得到推廣。

近些年來，通過獲取場景中的深度信息來估計人體姿態(tài)也有一定的進展，但該技術(shù)也依賴于硬件設(shè)備例如深度攝像機 Kinect或者雙目攝像機，而且深度信息的獲取易受環(huán)境因素影響（如光照等）；由于以上技術(shù)對硬件設(shè)備高度依賴，因此無法處理普通攝像機拍攝的視頻。例如當我們需要通過估計Michael Jackson視頻的姿態(tài)來輔助舞蹈訓練，由于這些視頻都是通過普通單目攝像機錄制的，因此無法直接使用上述的那些方法。

在陶博士看來，人體姿態(tài)估計最大的技術(shù)難點在于如何去捕捉這些關(guān)節(jié)點的局部外觀信息，以及如何通過學習他們之間的空間關(guān)系進行建模來實現(xiàn)精確定位。

因為就目前來看，人體姿態(tài)估計的方法主要是通過精確定位人體活動關(guān)節(jié)點的位置來估計人體的當前姿態(tài)，例如肩關(guān)節(jié)、髖關(guān)節(jié)。但是由于人的著裝會變化，身體形態(tài)也會變化，偶爾還有遮擋的情況，這些因素都帶來了極大的挑戰(zhàn)。

在今年的剛結(jié)束的與Imagenet聯(lián)合舉辦的COCO人體關(guān)鍵點定位比賽，Mean AP 在標準集的評估最高只有60.5%。值得一提的是，在這次比賽當中，陶博士的團隊提交了一個快速模型的結(jié)果并獲得第三的名次（僅次于CMU和谷歌）。賽后他們提交了正常模型的結(jié)果，在標準集的評估獲得了61.8%的Mean AP。

多視角學習，讓你不再重蹈“盲人摸象”

人體的很多特征都可以被用來進行個人身份的識別，包括指紋、虹膜、人臉以及步態(tài)等。然而哪種特征能夠最好地幫助機器準確識別一個人呢？

在陶博士帶領(lǐng)團隊研究的過程中，他發(fā)現(xiàn)描述一個物體、一個事情的時候，可能需要多個角度來描述，這個就類似于盲人摸象，不同的角度會得出不同的結(jié)論。如果所有盲人能夠進行有效的溝通，把所有的結(jié)論綜合到一起，就有可能得到一個大象的完整刻畫，這就是為什么要進行多視角學習。

“多視角學習的目的就是把這樣多種不同類型的信息融合在一起：既要避免融合后的信息缺失，又要去除不同類型信息中的冗余和噪聲，有效幫助機器更準確全面的去理解、處理我們的問題”，陶教授告訴36氪。

他同時表示，因為有不同類型的傳感器，不同類型的特征，每個傳統(tǒng)器或者每一個特征對于一個事件或者物體的刻畫，實際上都是局限的。

“如果能夠把這些信息有效的整合在一起，就能夠給出一個物體或者一個事件合理、有效的刻畫”，陶博士說。

陶博士的團隊用理論分析表明組合多個視角將為完好空間的學習帶來足夠的信息。同時，借用魯棒統(tǒng)計的知識，使得算法能夠增強對野點的魯棒性。“我們提出了一個新的多視角穩(wěn)定性的定義，并在多視角穩(wěn)定性和函數(shù)空間復(fù)雜度的基礎(chǔ)上分析了算法的泛化能力。我們發(fā)現(xiàn)多視角之間的互補性能夠有利于改善算法的穩(wěn)定性和泛化性”，陶博士這樣概括他們團隊取得的最新進展。

但是所獲取的、所采集到的數(shù)據(jù)可能會有噪聲或損壞情況，這將導(dǎo)致不同的視角信息是不完整的或者是受干擾的。

為了讓這種學術(shù)上的概念更容易理解，陶博士舉了這樣一個例子：

這就好像衛(wèi)星在天上繞著地球轉(zhuǎn)，掃描地球表面的信息，實際上衛(wèi)星的載荷由前視、下視和后視傳感器組成，每一個就是我們其中一個視角，某一個傳感器壞了之后我們不能把衛(wèi)星舍棄，但衛(wèi)星成像時獲取的視角信息就已經(jīng)是不完整的，是缺失的。

那么一旦遇到這種情況該如何解決？辦法倒是有，陶博士的團隊已經(jīng)在嘗試了。

陶博士表示，解決不完整視角學習問題的關(guān)鍵是挖掘多個視角之間的聯(lián)系，使得不完整的視角可以在其它完整視角的幫助下恢復(fù)出來。通過假設(shè)不同的視角可以由一個完備的空間生成，得以完成不完整視角下的多視角學習。

事實上，以上討論了這么多技術(shù)性的干貨，都逃離不了機器學習、計算機視覺的范疇。這些技術(shù)迄今為止落地能夠被我們感知的非機器人莫屬，中國的機器人創(chuàng)業(yè)更是此起彼伏。

陶博士則認為，每一種創(chuàng)業(yè)模式都是值得的，前提是你的創(chuàng)業(yè)方式能夠匹配你的創(chuàng)業(yè)目標，同時還應(yīng)該盡可能的滿足其他創(chuàng)業(yè)模式對外界的需求，軟件的發(fā)展需要硬件的支撐，平臺的發(fā)展更是需要軟硬件相結(jié)合。

“Android、Linux之類的開放平臺的成功告訴我們，機器人的發(fā)展是需要大眾的，而不只是某些高科技人員的小團體”，陶大程接著說道。

但問題是，在當下弱人工智能的時代，暫且不提怎樣能夠使得機器識別一個完整的人，就連一個幾千塊的機器人都很難有人買，更別提大規(guī)模普及。

陶博士給相關(guān)的創(chuàng)業(yè)者們提出了一些建議：

硬件方面，希望機器人能夠擁有較高的自由度，從而向用戶展現(xiàn)出最直接的視覺美感，更好的貼近人類生活會更容易讓人產(chǎn)生情感和信任；
軟件方面，智能機器人都會擁有自己的操作系統(tǒng)和平臺，我們需要考慮的就是如何讓更多的應(yīng)用嵌入到機器人平臺上，使機器人能夠不斷的更新自我；
在銷售機器人的時候，提倡一種在IT界廣為流傳的社區(qū)文化，將機器人平臺像iOS、Android那樣向用戶開放，吸引應(yīng)用開發(fā)者進來，推動機器人平臺的發(fā)展。

最后，談及中國與國外科技公司在人工層面的差異，在國外生活多年的陶博士表示，以往科技發(fā)展歷程中，中國的科技公司都是通過引進國外的科技才完成產(chǎn)品的研發(fā)，這樣的現(xiàn)象曾經(jīng)存在過，但是在當下的科技潮流下，中國公司在人工智能領(lǐng)域的研發(fā)能力已經(jīng)非常可觀。

“很多先進的技術(shù)現(xiàn)在也都被華人所了解和掌握，甚至突破，這可以從每年人工智能領(lǐng)域的頂級會議中看到”，陶博士補充道。

所以他認為，中國人是有能力研發(fā)出世界領(lǐng)先水平的先進的人工智能系統(tǒng)。中國公司想要在科技潮流下生存下來，重要的一點就是如何聚集到一批專業(yè)的人工智能研究人員，利用最先進的技術(shù)，來幫助公司產(chǎn)品的研發(fā)。