專訪悉尼大學教授陶大程博士:弱人工智能時代,如何讓機器準確識別一個人?

但很遺憾,人工智能發展了這么多年,今天依然處于弱人工智能的階段。值得幸運的是,支撐人工智能的大數據,清晰的領域界限,頂尖的AI科學家和科技公司,都在推動著人工智能進程的快速發展。
近日,36氪就采訪到悉尼大學教授 陶大程 博士。作為人工智能和信息科學領域國際知名學者,陶博士已當選為歐洲科學院院士、電氣與電子工程師學會(IEEE)會士,并獲得澳洲國家科學最高榮譽尤里卡獎。他所研究的兩大領域是 機器 視覺與 機器 學習,研究的問題包括大規模圖像數據的檢索與分類、人臉識別與動畫、精細化分類、人體姿態估計、行為分析、事件檢測、多視角學習、多任務學習、標簽噪聲模型、矩陣分解、特征工程等。
不再需要設置密碼,指紋便可以解鎖手機;不必攜帶銀行卡,刷臉即可完成支付;無需鍵盤提交問題,說出來,答案就告訴你。人工智能的目的是為了更好地服務人類。其中最重要的一環便是,如何讓機器準確識別一個人。
“刷臉”時代還有多遠?
手機 “刷臉”支付、“刷臉”開機等各種“刷臉”服務,其核心技術便是計算機視覺領域頗為大熱的人臉識別。最早的人臉識別是以圖像里面人臉器官的尺寸作為特征進行匹配。后來出現了眾多基于表觀的特征,又引入了一些統計的方法,例如主成分分析、變形模板和后來的線性判別分析等。2007年左右發布的LFW數據庫包含有大量自然真實場景下的人臉圖像,傳統特征和分類器的方法不再奏效。但隨著深度學習技術和大數據的引入,LFW數據庫上的人臉識別準確率目前已經可達到99%以上。
那么現有的人臉識別技術是否已經攻克了所有核心問題呢?
陶博士簡析了近年來很多與人臉識別相關的國際比賽,包括測試人臉識別算法在監控場景下性能的PaSC比賽,和測試人臉識別算法進行海量人臉檢索性能的Megaface比賽。比賽的結果表明現有的人臉識別算法在特定應用上仍需要進一步提升,才能夠滿足實際需求。
但是這并未打擊我們對這一問題的研究信心。通過參加國際比賽,各科技公司和高校不斷地展示自己的技術實力,同時也對人臉識別的研究起到了非常大的導向作用。例如,比賽結果可以幫助很多研究團隊快速分析最新的研究問題和方法,及時調整研究方向和手段,使得這個領域可以以更快的速度發展。值得一提的是,陶博士的團隊在2016 年獲得了PaSC的冠軍,在另一國際比賽ActivityNet(大規模活動識別挑戰賽)中亦收獲冠軍。
人體姿態估計發展這么多年,為何依然普及難?
談及人體姿態估計,陶博士表示這是一個很傳統的話題,目前研究成果不是很樂觀,一方面技術成本高昂,對硬件設備高度依賴,導致難以得到推廣,另一方面達不到高精度的識別。
回顧人體姿態估計的發展史,目前工業界,尤其是電影制作行業,最常見的技術是Motion capture(動作捕捉),也就是通過穿戴多個關鍵點傳感器,并記錄其對應三維空間坐標來實現捕捉人體的動作姿態。但是,目前使用Motion Capture系統的成本非常昂貴,而且需要穿戴特殊裝置才能使用,因此該技術難于得到推廣。
近些年來,通過獲取場景中的深度信息來估計人體姿態也有一定的進展,但該技術也依賴于硬件設備例如深度攝像機 Kinect或者雙目攝像機,而且深度信息的獲取易受環境因素影響(如光照等);由于以上技術對硬件設備高度依賴,因此無法處理普通攝像機拍攝的視頻。例如當我們需要通過估計Michael Jackson視頻的姿態來輔助舞蹈訓練,由于這些視頻都是通過普通單目攝像機錄制的,因此無法直接使用上述的那些方法。
在陶博士看來,人體姿態估計最大的技術難點在于如何去捕捉這些關節點的局部外觀信息,以及如何通過學習他們之間的空間關系進行建模來實現精確定位。
因為就目前來看,人體姿態估計的方法主要是通過精確定位人體活動關節點的位置來估計人體的當前姿態,例如肩關節、髖關節。但是由于人的著裝會變化,身體形態也會變化,偶爾還有遮擋的情況,這些因素都帶來了極大的挑戰。
在今年的剛結束的與Imagenet聯合舉辦的COCO人體關鍵點定位比賽,Mean AP 在標準集的評估最高只有60.5%。值得一提的是,在這次比賽當中,陶博士的團隊提交了一個快速模型的結果并獲得第三的名次(僅次于CMU和谷歌)。賽后他們提交了正常模型的結果,在標準集的評估獲得了61.8%的Mean AP。
多視角學習,讓你不再重蹈“盲人摸象”
人體的很多特征都可以被用來進行個人身份的識別,包括指紋、虹膜、人臉以及步態等。然而哪種特征能夠最好地幫助機器準確識別一個人呢?
在陶博士帶領團隊研究的過程中,他發現描述一個物體、一個事情的時候,可能需要多個角度來描述,這個就類似于盲人摸象,不同的角度會得出不同的結論。如果所有盲人能夠進行有效的溝通,把所有的結論綜合到一起,就有可能得到一個大象的完整刻畫,這就是為什么要進行多視角學習。
“多視角學習的目的就是把這樣多種不同類型的信息融合在一起:既要避免融合后的信息缺失,又要去除不同類型信息中的冗余和噪聲,有效幫助機器更準確全面的去理解、處理我們的問題”,陶教授告訴36氪。
他同時表示,因為有不同類型的傳感器,不同類型的特征,每個傳統器或者每一個特征對于一個事件或者物體的刻畫,實際上都是局限的。
“如果能夠把這些信息有效的整合在一起,就能夠給出一個物體或者一個事件合理、有效的刻畫”,陶博士說。
陶博士的團隊用理論分析表明組合多個視角將為完好空間的學習帶來足夠的信息。同時,借用魯棒統計的知識,使得算法能夠增強對野點的魯棒性。“我們提出了一個新的多視角穩定性的定義,并在多視角穩定性和函數空間復雜度的基礎上分析了算法的泛化能力。我們發現多視角之間的互補性能夠有利于改善算法的穩定性和泛化性”,陶博士這樣概括他們團隊取得的最新進展。
但是所獲取的、所采集到的數據可能會有噪聲或損壞情況,這將導致不同的視角信息是不完整的或者是受干擾的。
為了讓這種學術上的概念更容易理解,陶博士舉了這樣一個例子:
這就好像衛星在天上繞著地球轉,掃描地球表面的信息,實際上衛星的載荷由前視、下視和后視傳感器組成,每一個就是我們其中一個視角,某一個傳感器壞了之后我們不能把衛星舍棄,但衛星成像時獲取的視角信息就已經是不完整的,是缺失的。
那么一旦遇到這種情況該如何解決?辦法倒是有,陶博士的團隊已經在嘗試了。
陶博士表示,解決不完整視角學習問題的關鍵是挖掘多個視角之間的聯系,使得不完整的視角可以在其它完整視角的幫助下恢復出來。通過假設不同的視角可以由一個完備的空間生成,得以完成不完整視角下的多視角學習。
事實上,以上討論了這么多技術性的干貨,都逃離不了機器學習、計算機視覺的范疇。這些技術迄今為止落地能夠被我們感知的非機器人莫屬,中國的機器人創業更是此起彼伏。
陶博士則認為,每一種創業模式都是值得的,前提是你的創業方式能夠匹配你的創業目標,同時還應該盡可能的滿足其他創業模式對外界的需求,軟件的發展需要硬件的支撐,平臺的發展更是需要軟硬件相結合。
“Android、Linux之類的開放平臺的成功告訴我們,機器人的發展是需要大眾的,而不只是某些高科技人員的小團體”, 陶大程 接著說道。
但問題是,在當下弱人工智能的時代,暫且不提怎樣能夠使得機器識別一個完整的人,就連一個幾千塊的機器人都很難有人買,更別提大規模普及。
陶博士給相關的創業者們提出了一些建議:
- 硬件方面,希望機器人能夠擁有較高的自由度,從而向用戶展現出最直接的視覺美感,更好的貼近人類生活會更容易讓人產生情感和信任;
- 軟件方面,智能機器人都會擁有自己的操作系統和平臺,我們需要考慮的就是如何讓更多的應用嵌入到機器人平臺上,使機器人能夠不斷的更新自我;
- 在銷售機器人的時候,提倡一種在IT界廣為流傳的社區文化,將機器人平臺像iOS、Android那樣向用戶開放,吸引應用開發者進來,推動機器人平臺的發展。
最后,談及中國與國外科技公司在人工層面的差異,在國外生活多年的陶博士表示,以往科技發展歷程中,中國的科技公司都是通過引進國外的科技才完成產品的研發,這樣的現象曾經存在過,但是在當下的科技潮流下,中國公司在人工智能領域的研發能力已經非常可觀。
“很多先進的技術現在也都被華人所了解和掌握,甚至突破,這可以從每年人工智能領域的頂級會議中看到”,陶博士補充道。
所以他認為,中國人是有能力研發出世界領先水平的先進的人工智能系統。中國公司想要在科技潮流下生存下來,重要的一點就是如何聚集到一批專業的人工智能研究人員,利用最先進的技術,來幫助公司產品的研發。
? ?