IROS 2019 機(jī)器視覺全球挑戰(zhàn)賽:賦予 AI 終生學(xué)習(xí)能力(附冠軍算法模型)
雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) AI 開發(fā)者按: 近日,Lifelong Robotic Vision 挑戰(zhàn)賽在澳門 IROS 2019 大會上成功舉辦。本次競賽吸引到共 150 個參賽隊(duì),實(shí)際提交 40 個有效成績。
多位機(jī)器人領(lǐng)域大咖來到現(xiàn)場進(jìn)行特邀報告和圓桌討論,包括:意大利技術(shù)研究院科學(xué)主任 Giorgio Metta 教授、漢堡大學(xué)張建偉教授、浙江大學(xué)章國鋒教授等知名學(xué)者,演講主題從 Lifelong Learning 算法到 SLAM 均有涉獵;同時,決賽入圍團(tuán)隊(duì)——海康威視、新加坡南洋理工大學(xué)、香港中文大學(xué)等也在現(xiàn)場向大家分享了賽事算法報告,雷鋒網(wǎng) AI 開發(fā)者將賽事內(nèi)容及冠軍方案整理如下。
大賽背景
IEEE 智能機(jī)器人與系統(tǒng)國際會議(IROS)是智能機(jī)器人與自動化領(lǐng)域的兩個頂級國際會議之一,而 IROS 2019 則是 IROS 成功舉辦的第 32 屆會議,由全球最大的非營利性專業(yè)技術(shù)學(xué)會 IEEE、IEEE 機(jī)器人與自動化學(xué)會、IEEE 工業(yè)電子學(xué)會、日本機(jī)器人學(xué)會、儀器與控制工程師學(xué)會以及新技術(shù)基金會聯(lián)合贊助。
大會期間,約 4000 名來自世界各地的機(jī)器人、自動化系統(tǒng)及人工智能等領(lǐng)域的領(lǐng)軍人物、頂尖研究團(tuán)隊(duì)代表及企業(yè)界人士齊聚澳門,共同探索智能機(jī)器人與系統(tǒng)領(lǐng)域的前沿科技,并分享并討論相關(guān)領(lǐng)域的最新進(jìn)展。
IROS 2019 包括了主題演講、技術(shù)報告、研討會、競賽、論壇和展覽等多個部分。其中,終生機(jī)器視覺數(shù)據(jù)集全球挑戰(zhàn)賽則屬于 IROS 2019 競賽環(huán)節(jié),其中 Lifelong/Continual Learning for Object Recognition 是其中一個 Channel 的比賽。
解讀 Lifelong/Continual Learning
本次挑戰(zhàn)賽將目光聚焦于機(jī)器視覺前沿領(lǐng)域,旨在通過比賽探索,賦予 AI 終生學(xué)習(xí)能力。其中,終生學(xué)習(xí)能力于人類而言,則是持續(xù)從環(huán)境和經(jīng)驗(yàn)中學(xué)習(xí)知識和技能;于機(jī)器人而言,則是以適應(yīng)變化的環(huán)境和任務(wù)終生學(xué)習(xí)能力 ;而于計算機(jī)視覺,則需要從預(yù)先建好的數(shù)據(jù)集中一次性學(xué)習(xí)。三者關(guān)系如下圖所示:
一、機(jī)器人視覺面臨的挑戰(zhàn)
近年來,計算機(jī)視覺領(lǐng)域發(fā)展迅速,與此同時大規(guī)模數(shù)據(jù)集如 ImageNet、COCO 等的進(jìn)展使得基于深度學(xué)習(xí)的計算機(jī)視覺技術(shù)在精準(zhǔn)度和實(shí)用性能方面得到顯著提高。
目前基于大量數(shù)據(jù)集的物體檢測,分割和識別的計算機(jī)視覺應(yīng)用也在人臉識別、智能家居、輔助工業(yè)制造等領(lǐng)域做出了突出貢獻(xiàn)。然而機(jī)器人視覺對于視覺算法的開發(fā)和落地提出了新的挑戰(zhàn)。
通常情況下,基于深度學(xué)習(xí)的計算機(jī)視覺算法需要數(shù)據(jù)符合獨(dú)立同分布 (i.i.d) 的假設(shè),也意味著需要訓(xùn)練數(shù)據(jù)的任務(wù)單一化、樣本分布同質(zhì)化、難度統(tǒng)一化。
但是在機(jī)器人真實(shí)應(yīng)用場景中,隨著時間推移,通常呈現(xiàn)出任務(wù)多樣性、樣本分布差異大、難度多變性等特征。因此在機(jī)器人視覺應(yīng)用場景中,智能體需要采取連續(xù)/終生學(xué)習(xí) (continual/lifelong leanring) 的策略去使用環(huán)境等因素的改變。
二、終身學(xué)習(xí)突破關(guān)鍵
目前,終生學(xué)習(xí)主要面臨兩大挑戰(zhàn):
-
第一是 災(zāi)難性遺忘 (catastropic forgetting) ,由此誕生了著名的穩(wěn)定性-可塑性定理 (stability-plasticity dilemma)。該定理指出,一個完備穩(wěn)定的模型可以保證系統(tǒng)學(xué)習(xí)到的舊知識不被忘記,但無法學(xué)習(xí)新知識;而一個完全可塑的模型可以充分適應(yīng)新的知識領(lǐng)域,但是會忘卻舊的知識。
基于深度學(xué)習(xí)的 Lifelong/Continual Learning 算法對比
-
第二是 概念漂移 (concept drift) ,主要是智能體所接觸到數(shù)據(jù)類型不同于傳統(tǒng)的靜態(tài)數(shù)據(jù) (static data),而是一種體量大、實(shí)時性強(qiáng)的流數(shù)據(jù) (data stream)。常見的動態(tài)流數(shù)據(jù)則是不獨(dú)立同分布的,隨著時間的推移,智能體需要漸進(jìn)地適應(yīng)不同分布的流式數(shù)據(jù)。
不同類型的概念漂移( 圖片來源于 Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński)
-
第三則是 模型能夠自適應(yīng)地改變其復(fù)雜度 ,由于機(jī)器人獲取的數(shù)據(jù)在動態(tài)變化,無法提前獲取所有的外界數(shù)據(jù)信號 (例如機(jī)器人每天接觸感知的人、物體和周圍環(huán)境都在變化),所以最終運(yùn)用的模型必須具備復(fù)雜度自適應(yīng)可變的特點(diǎn)。加之概念漂移的問題,我們常常需要增加模型的復(fù)雜度來處理不同分布的數(shù)據(jù)。
數(shù)據(jù)集
一、數(shù)據(jù)集采集
OpenLORIS-Object 數(shù)據(jù)集由若干個地面機(jī)器人模擬人類視覺采集而成,采集地點(diǎn)為平時活動的辦公室和家庭環(huán)境,攝影部分由 Intel RealSense D435i 和 T265 組成。
在不同光照、遮擋、物體大小、相機(jī)-對象距離/角度、雜亂程度,以及不同的場景信息下,機(jī)器人主動記錄目標(biāo)對象的視頻。數(shù)據(jù)集記錄了機(jī)器人在拍攝過程中通常會面臨的不同環(huán)境挑戰(zhàn),比如:
-
光照 在實(shí)際應(yīng)用中,照明會隨時間變化很大,例如晝夜差異。我們的數(shù)據(jù)集主要是從正常的日光收集的,包括弱光,正常光和強(qiáng)光,每個占每個場景下物體的 10%。隨著燈光變?nèi)酰诸惾蝿?wù)變得更具挑戰(zhàn)性。
-
遮擋 當(dāng)一個對象的一部分被一個或多個對象隱藏,或者在視場中僅顯示該對象的一部分時會產(chǎn)生遮擋現(xiàn)象。由于可能隱藏了對象的獨(dú)特特征,因此遮擋使分類任務(wù)更具挑戰(zhàn)性。
-
物體大小 小物體或者細(xì)長的物體,如干電池或膠棒,會使分類任務(wù)更具挑戰(zhàn)性。
-
相機(jī)-對象角度/距離 攝像機(jī)的角度會影響從對象檢測到的屬性,距離會影響目標(biāo)物體的大小。
-
雜亂程度 是指在考慮的對象附近存在其他對象。同時存在多個對象可能會干擾分類任務(wù)。
-
場景信息 環(huán)境信息是學(xué)習(xí)過程中的另一個因素,例如在廚房的場景下可以提高刀、炊具等物體的識別能力。先前的大多數(shù)研究都忽略了場景信息對于上下文識別的重要性。
技術(shù)細(xì)節(jié)和數(shù)據(jù)集可參考:
Qi She et al.,「OpenLORIS-Object: A Dataset and Benchmark towards Lifelong Object Recognition」, https://arxiv.org/abs/1911.06487 ?
二、數(shù)據(jù)集描述
為了使物體分類任務(wù)與日常生活場景相結(jié)合,數(shù)據(jù)在多個生活場景下采集,比如客廳、廚房、臥室等,物體的放置也考慮日常生活場景,被放置在桌面、地面、墻面、床上等。
已發(fā)布的的數(shù)據(jù)集由 69 種物體組成,包含 7 個場景下的 19 類日常必需品。每種物體被記錄為 17 秒(每秒 30 幀)的視頻(即共 500 幀 RGB-D 圖像),由 4 個環(huán)境影響因素(包含光照,遮擋程度,目標(biāo)對象的像素大小,雜亂程度),每個因素由 3 種等級控制分類任務(wù)的實(shí)現(xiàn)難度。見下圖(基于環(huán)境影響因素,每種物體共有 12 個子類):
每個等級下的每種物體對應(yīng)了 260 個樣本。即:對于每種物體,總共有 3120 個樣本。因此數(shù)據(jù)集共包含了: 260(樣本數(shù)/種物體實(shí)例) * 69(物體實(shí)例) * 4(環(huán)境影響因素/個等級) * 3(難度等級)=215,280 個樣本。
數(shù)據(jù)集概況及下載地址:
https://lifelong-robotic-vision.github.io/dataset/Data_Object-Recognition ? ? ??
三、數(shù)據(jù)集的可視化
執(zhí)行物體分類任務(wù)時呈現(xiàn)時序一致性可提供圖像信息在時間上的平滑度,從而簡化目標(biāo)識別的過程,改善分類準(zhǔn)確性,更好地解決半監(jiān)督(或無監(jiān)督)場景。下圖為隨機(jī)選取的數(shù)據(jù)樣本:
示例中的每列圖片為目標(biāo)對象所處的不同雜亂環(huán)境(從第一行到第三行分別展示簡單,正常和復(fù)雜的雜亂場景),遮擋程度(0%,25%,50%),像素大小(<30*30,30*30?200*200,>200*200),以及光照程度(弱光,正常光,強(qiáng)光)。
比賽評比標(biāo)準(zhǔn)
比賽中,參賽選手不僅要考慮連續(xù)學(xué)習(xí)情境下物體識別的準(zhǔn)確度,更要兼顧模型的大小、模型對數(shù)據(jù)量的依賴性、模型部署中的預(yù)測速度等性能。
除此之外,參賽選手還需對更具有挑戰(zhàn)性的測試集進(jìn)行采集,包括:更多物體姿態(tài)角度、光照環(huán)境和更加復(fù)雜的背景信息。具體的模型評分標(biāo)準(zhǔn)如下所示:
在決賽的數(shù)據(jù)集中,測試集有 21520 個樣本,驗(yàn)證集有 21520 個樣本,訓(xùn)練集有 172200 個樣本,賽方根據(jù)不同的影響因素隨機(jī)打亂數(shù)據(jù)集。
數(shù)據(jù)集被分為 12 個批次,每個批次的樣本來自一個子類,總共有 12 個子類,即:4(環(huán)境影響因素/等級) * 3(難度等級),包含 7 個生活場景下的 69 種物體。下圖為每個批次下不同影響因素的概覽:
Lifelong Object Recognition 優(yōu)勝方案模型展示
來自海康威視的 HIKVISION 團(tuán)隊(duì)榮獲 Lifelong Robotic Vision Competition 冠軍,該方案采取知識蒸餾 (knowledge distillation) 和網(wǎng)絡(luò)擴(kuò)展 (network expand) 的方式來緩解災(zāi)難性遺忘。
該方法會計算對于每一次增量任務(wù)與先前學(xué)習(xí)任務(wù)的領(lǐng)域差異 (domain gap) 來判斷任務(wù)相似性,對于相似性大的任務(wù)采用知識蒸餾方案在學(xué)習(xí)新任務(wù)的同時記住舊任務(wù)的特征,相似小的任務(wù)采用網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)充來學(xué)習(xí)新任務(wù)。其方案模型如下圖所示:
基于知識蒸餾與網(wǎng)絡(luò)擴(kuò)展方案
來自 University of Bologna 的 unibo 團(tuán)隊(duì)提出了隱層結(jié)構(gòu)回放 (latent rehearsal) 模型,該模型獲得綜合評分第二名的成績。
不同于其他方案針對原數(shù)據(jù)樣本進(jìn)行重采樣,該方法對舊樣本的隱層信息進(jìn)行重采樣。實(shí)驗(yàn)證明該方案可以在確保高準(zhǔn)確率的同時,減少內(nèi)存使用和計算量。目前該方案可以部署在移動端設(shè)備進(jìn)行訓(xùn)練。
基于隱層結(jié)構(gòu)回放模型方案
此外,來自韓國電子通信研究院 (ETRI) 的 HYDRA-DI-ETRI 團(tuán)隊(duì)提出了選擇性特征學(xué)習(xí) (selective feature learning) 方案去減少噪聲物體對目標(biāo)物體的干擾。該隊(duì)伍在口頭報告中得到最高分。
由于在真實(shí)的機(jī)器人視覺識別任務(wù)中,目標(biāo)物體的周圍環(huán)境趨向于雜亂無規(guī)律,存在較多的噪聲物體,這可能會對識別的準(zhǔn)確率產(chǎn)生影響。該團(tuán)隊(duì)采用 Single Shot MultiBox Detector (SSD) 去對選擇出第一個任務(wù)的數(shù)據(jù)集中的目標(biāo)物體,后再進(jìn)行連續(xù)的物體識別任務(wù)。
基于選擇性特征學(xué)習(xí)方案
AI 計算機(jī)視覺的持續(xù)學(xué)習(xí)探討
為了進(jìn)一步推廣 Lifelong Robotic Vision 項(xiàng)目,吸引更多的學(xué)術(shù)工業(yè)界的研究開發(fā)人員,英特爾中國研究院作為主辦方之一 在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020 舉辦了「Continual Learning in Computer Vision Workshop」。
該 workshop(研討會)主要探究計算機(jī)視覺問題中的 Continul Learning 的能力。在計算機(jī)視覺系統(tǒng)中,如何在多個連續(xù)任務(wù)中保證算法的穩(wěn)定性,如何有效的克服神經(jīng)網(wǎng)絡(luò)中災(zāi)難性遺忘的問題,如何進(jìn)行知識在不同任務(wù)中的遷移,以及如何在硬件受限情況下優(yōu)化 Continual Learning 的綜合表現(xiàn)。
研討會主要分為研討會文章收錄,現(xiàn)場專家報告,Continual learning in Computer Vision 挑戰(zhàn)賽。目前確認(rèn) 9 位專家會在現(xiàn)場進(jìn)行口頭報告討論 Continual Learning 在計算機(jī)視覺中的研究前景以及潛力,包括:Google Deepmind 研究科學(xué)家 Razvan Pascanu、Facebook AI Research 研究科學(xué)家 Marc’Aurelio Ranzato、INRIA 研究總監(jiān) Cordelia Schmid等。
研討會主要關(guān)注 Continual Learning 的話題,目前已開放公眾提交平臺,錄用的文章將加入 CVPR 2020 workshop 的文集,
更多提交詳情可查看:
https://cmt3.research.microsoft.com/CONTVISION2020 ?
Lifelong Robotic Vision?Github 詳情:
https://lifelong-robotic-vision.github.io/ ?
雷鋒網(wǎng) AI 開發(fā)者
雷鋒網(wǎng)年度評選—— 尋找19大行業(yè)的最佳AI落地實(shí)踐
創(chuàng)立于2017年的「AI最佳掘金案例年度榜單」,是業(yè)內(nèi)首個人工智能商業(yè)案例評選活動。雷鋒網(wǎng)從商用維度出發(fā),尋找人工智能在各個行業(yè)的最佳落地實(shí)踐。
第三屆評選已正式啟動,關(guān)注微信公眾號“雷鋒網(wǎng)”,回復(fù)關(guān)鍵詞“榜單”參與報名。詳情可咨詢微信號:xqxq_xq
。