三維感知與三維數據分析最新進展 - 3D傳感&人工智能前沿科技論壇
雷鋒網 (公眾號:雷鋒網) AI 科技評論按:我們生活在一個三維立體的世界,三維信息的感知也就總是一件有趣的事,三維感知也能帶來比平面感知帶來更多信息。全民 AR / VR /立體視覺的熱潮雖然暫時過去了,但這個領域的學術研究和學術交流還在持續進行著。
1 月 23 日,學術交流活動「AI 之眼,智見未來——3D 傳感&人工智能前沿科技論壇」在深圳南山舉行。論壇由奧比中光承辦,中國自動化學會模式識別與機器智能專委會、中國人工智能學會模式識別專委會主辦,指導單位是深圳市南山區科技創新局。論壇邀請了清華大學、浙江大學、國防科技大學、上海交通大學、廈門大學、四川大學、北京航空航天大學等知名大學的7位頂尖專家學者發表主題演講,分享他們在三維計算機視覺領域的最新科研成果,也給參會的各知名 AI 企業的技術骨干、科研機構重要研發人員、相關專業的高校學生等提供了一個交流討論的機會。
參會專家合影留念
論壇承辦方奧比中光是深圳的 3D 感知技術企業,提供軟件、硬件的全套解決方案。OPPO Find X 手機上使用的三維人臉識別模組就來自奧比中光。借著承辦論壇的機會,奧比中光的許多研發技術人員在座聆聽并參與討論。多位演講嘉賓在論壇間隙參觀了奧比中光的展廳,而后在演講中提到不同企業的 3D 感知解決方案間的對比時也對奧比中光表示了認可。
雷鋒網 AI 科技評論記者現場參與了全天的學術交流活動,我們把七個論壇報告的梗概內容介紹如下。
從左至右:肖振中,張漢國,賈偉
奧比中光聯合創始人 & CTO 肖振中,深圳市南山區科協常務副主席張漢國,中國自動化學會模式識別與機器智能專委會副秘書長、合肥工業大學計算機與信息學院副研究員賈偉發表開幕致辭,預祝論壇成功。
劉燁斌 -?「人體動態重建技術前沿」
論壇第一個學術報告來自清華大學自動化系副教授、博導劉燁斌。他的報告題目是「人體動態重建技術前沿」。報告對人體動態重建這一研究課題,圍繞便捷性和實時性兩大目標的學術界相關研究成果回顧了技術發展歷程,做了全方位的技術介紹。
劉燁斌副教授首先介紹了人體動態重建課題中的一些基本概念。在人體動態重建中,需要捕捉的信息有三維的幾何+紋理,還有它們的運動;運動包括幾何體表面的運動和內部骨架的運動。
人體動態重建技術的應用包括:全息通信與全息直播,三維虛擬試衣,智能便捷娛樂(信息采集重建、便攜發布),自由視角視頻,實時三維運動捕捉,高精度數字內容記錄與制作等。
人體建模需要的核心技術是實時深度數據采集以及深度數據處理。
根據輸入數據不同,可以分為 單視點人體建模和多視點人體建模 兩大共性技術,對應六大基礎應用。劉燁斌副教授從十幾年前開始做這方面的研究,單視點、多視點技術都有涉及。
人體動態重建技術可以分成幾類:
早期的做法是不做先驗約束,基于多視角數據求取點云;
然后發展出了基于三維模版的方法,這類方法需要先人工建立骨架模版或非剛性形變模版(作為先驗),三維點云的求解可以依托模版,降低了求解的難度、提高了穩定性;
基于統計模版的方法無需提前由人工建模,系統根據數據學習統計模版然后應用。這種方法的問題是難以重建復雜幾何拓撲形狀的表面,比如裙子等。
最后還有表面動態融合的方法,用深度相機采集點云并進行融合。
劉燁斌副教授介紹了重建技術中的六大目標: 精準重建、規模采集(多人,大采集范圍)、便捷獲取、實時計算、語義建模(以便建模后結果的遷移)、真實生成 。
精準重建需要復雜的相機陣列+多光照,需要采集大量的高精度數據。劉燁斌副教授的早期研究就是在精準重建方面,他們設計了包含 40 個相機、680 個光源的采集裝置。精準重建對采集設備體系的高要求也限制了它的實際應用。
規模采集的難點在于處理多視角交疊的區域,也就是緊密交互的人體動作,比如左圖中三人腿部交叉。有更多視角、更高精度的采集系統自然可以更好地處理交疊區域,但這同時又限制了系統采集的規模(人數以及空間大小)。
多紅外相機(多視角)的動態三維重建可以進行實時的點云融合,解決拓撲變化難題;單深度相機則無法支持拓撲變化與快速運動。圖中研究動態融合重建的論文《DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time》獲得了 CVPR 2015 的最佳論文獎。
劉燁斌副教授團隊在此基礎上進行了改進,他們用單深度相機實現實時動態融合重建,不使用模版,可以支持和物體交互,可以任意視點重建。最新成果可以魯棒地進行復雜人體動態重建,3x3米采集空間,5%到10%測量精度。
下一個技術目標是便捷獲取,其中一種是從單個相機視角進行動態三維重建。這時需要先掃描獲得靜態人體模版(具體做法可以是在鏡頭前以指定動作原地轉一圈),計算得到人體模型,之后用單個相機的視頻輸入就可以追蹤動作并進行重建。不過這有較高的計算復雜度,精度也有限。
另一種便捷獲取任務是從單圖像恢復體態模型,通過對圖像深度的學習重建體態模型以及同步恢復紋理。劉燁斌副教授團隊的近期工作?DeepHuman 有著不錯的效果。
語義建模是對人體與服裝分離建模,這樣可以進行轉移(把一個人的衣服轉移到另一個人身上),但同時還要保留高度的真實感。這樣,對象建模的內容就包括了紋理、幾何、材質、物理動力學屬性等等。衣物的物理動力學建模始終是一大挑戰。在劉燁斌副教授團隊的研究成果中,他們先采集人體模型,經過計算后以單視角輸入,服裝可以獨立解析,然后為服裝加入動力學仿真,服裝背側使用動力學計算生成;光影也可以重新重新布置。
最后,劉燁斌副教授介紹了自己對這項課題的展望。
盧策吾 - 「Behavior Understanding meets 3D Representation」
上午的第二個學術報告來自上海交通大學研究員、博導盧策吾。他演講的主題是三維表征以及行為理解(Behavior Understanding meets 3D Representation),主要介紹了自己團隊在這兩個方向上的幾項近期工作。
盧策吾的演講內容主要分為兩個部分,介紹了自己團隊對三維表征以及對行為感知的一些研究成果。
三維表征部分
首先對于三維表征,一種基礎的框架是取點的表征,PointNet 就是一種常用的方法,但它無法編碼不同的點之間的關系。
對于臨近的點表征問題,PointNet 和 PointCNN 有各自的處理思路,但也有各自的不足。
對于點的結構的表征,有一些特點是我們希望它具備的,比如尺度不變性,比如空間方向編碼(從而可以在不同方向進行卷積)。SIFT 算子的引入就可以保留這些信息。
盧策吾團隊提出的 PointSIFT 就是利用了 SIFT 算子的一種多尺度表征方式,克服了 PointNet++ 只取最近鄰的問題。
對于網絡架構的設計,他們使用了一個類似 U-Net 的結構,尺度先減小后增加。網絡有自動尺度選擇能力,其中也可以使用不同的模塊設計。PointSIFT 在多種測試中都取得了優秀的表現。
下一個問題是點的表示在空間旋轉不變性方面的表現。在基于點云的物體部件分割任務中,PointNet++ 一般能取得不錯的效果,但是由于方法的設計沒有考慮空間旋轉不變性,對于旋轉/未見過的角度就效果不好。
PointNet 中的處理思想是尋找點到點之間的對應關系,但對應關系并不具有旋轉不變性;另一種思路是把點云映射到球面上,這樣具有了旋轉不變性,但點與點之間的對應關系就無法保留,這是球面 CNN 的做法。
盧策吾團隊提出的 Pointwise Rotation-Invariant Network 就結合了點對點方法和球 CNN 的優點,在有空間旋轉的情況下也取得了良好表現。
盧策吾還介紹了基于三維點云的端到端自動駕駛學習方面的計劃。他和其他研究人員合作采集了一個包含視頻、激光雷達點云、駕駛員行為的駕駛數據集 DBNet,對應的論文《LiDAR-Video Driving Dataset: Learning Driving Policies Effectively》也被 CVPR 2018 收錄。在這個數據集上訓練端到端自動駕駛系統,就是把三維點云(或者二維錄像)作為輸入,通過模型預測人類駕駛員會有怎樣的駕駛行為。
目前這個數據集已經被 Facebook、谷歌、NVIDIA 等企業以及 MIT、斯坦福、CMU 等學校使用,盧策吾未來還計劃依托這個數據集在 ICCV 2019 舉辦大規模 SLAM 比賽以及在 CVPR 2020 舉辦大規模駕駛數據分割比賽。
行為識別部分
報告的第二部分是關于行為識別。此前他們的實時姿態估計系統 AlphaPose 兼具高表現和高運行速度,在學術研究和應用實踐中都非常火熱,許多工業界企業都向他們購買了使用許可。不僅如此,AlphaPose 還可以作為許多不同領域、面向多類不同物體的通用型關鍵點檢測器。
提出 AlphaPose 之后,盧策吾團隊關注的下一個難題是密集姿態檢測。相比于稀疏分布的物體的姿態檢測(比如 COCO 數據集中的圖像),密集人體識別實際上已經是另一種問題,它的難點在于不同目標的互相遮擋形成同構噪聲,所以人密集時各種算法的表現都有明顯的下降。
盧策吾團隊提出一個新的 CrowdPose 數據集,其中有大量密集人體場景,帶來很大的挑戰。傳統物體檢測方法此時就誤報率高,關節檢測容易錯誤。
根據盧策吾介紹,同樣是基于熱力圖辨別人體,傳統方法中對于主體和障礙物的置信度取值是二值化的,這樣的后果就是臨近主體的障礙物在辨別時容易取而代之。
他們提出的新方法中不再使用二值化的取值,并且用競爭式的框選擇整體優化,從而得到更好的表現。
運動識別的下一個問題是時間序列圖像作為輸入的識別。序列輸入我們很容易想到使用 RNN,但它難以直接用于圖像輸入的檢測。盧策吾團隊提出的方法是深度 RNN 架構的時序模型:RBM,它可以看作是一種通用型的 LSTM/RNN,根據一定條件簡化后就得到了我們熟悉的 LSTM。這種方案可以做到 15?層甚至更深的?RNN?疊加。
他們的改進思路是:時序信息和特征分別學習;先學習空間表征,再讓表征在時間上流動(兩個方向的流動在圖中用兩個方向的連線表示)。
為了便于網絡的訓練,他們提出了 Temporal Dropout 等訓練加速技巧。在實驗中也取得了表現的明顯提升。
物體間的交互關系也是運動識別中需要關注的重要方面。盧策吾團隊提出的一種思路是把「是否有交互」的二值信息利用起來,輔助判斷交互類型,起到用先驗信息提高整體性能的效果。這也是一種通用可遷移到 Inter-Actioness Prior。
總結
盧策吾認為,目前雖然在運動理解和三維表征方面都各自有不少的研究成果,但它們之間的結合還很少,還沒有產生有潛力的成果,這是未來的一個可能的方向。
目前的技術可以做交互判斷,而學習到的交互關系可以發展推理引擎。在這里盧策吾展示了一個視頻,一個機械臂可以在與三維物體的互動(嘗試抓?。┲袑W習先驗。對三維世界的理解可以輔助機器人工作,機器人與世界的交互也可以增進視覺理解。
對于整個 AI 范圍的總體看法,盧策吾認為目前我們取得了明顯成果的都屬于 Physical AI(視覺、語音、圖像、機器人),這些技術確實可以解決大多數問題;而未來更大的挑戰在于對抽象概念的理解和運用。
章國鋒 - 「視覺 SLAM 技術及應用」
浙江大學 CAD&CG 國家重點實驗室教授、博導章國鋒的報告主題是「視覺 SLAM 技術及應用」。報告中綜述介紹了視覺定位地圖重建跟蹤技術及應用的各方面研究工作。
基礎知識與技術
SLAM,同時定位與地圖構架,是機器人和計算機視覺領域的基本問題。
SLAM 技術的運行結果要計算設備自身在空間中的位置和朝向,同時還要構建周圍環境的地圖。根據構建的環境地圖包含的信息不同,可以分為稀疏 SLAM 和稠密 SLAM,前者只包含三維點云,后者同時也要采集重建幾何和紋理。
經過幾十年的發展,SLAM 系統常用的技術框架已經基本成熟,主要可以分為輸入、前臺線程、后臺線程、輸出四個組成部分。
視覺 SLAM 自然是以視覺輸入為主,單目、雙目、多目攝像頭方案都有。如今也可以結合其他的輔助傳感器的信號,進一步提高解算精度。
視覺 SLAM 從視覺信號輸入,重建場景三維信息的基本原理是多視圖幾何方程求解。不過,高效、穩定的求解有一定難度,尤其在動態 SLAM 中,場景在變化,有outliner,甚至場景有遮擋。章國鋒教授介紹了幾個關鍵思路。
視覺?SLAM?研究工作
章國鋒教授設計的視覺 SLAM 解決方案是 RDSLAM。這個系統可以根據實時視頻信號輸入檢測、追蹤場景中的動態變化。
相比于更傳統的基于濾波器的 SLAM 方法,基于關鍵幀的方法有較多優點,但對強旋轉很敏感。RDSLAM 就是一種基于關鍵幀的方法。
機器人領域的應用中大量使用視覺慣性 SLAM,就是結合機器人 IMU (慣性測量單元)采集的數據計算視角運動,在它的幫助下提高魯棒性。那么沒有搭載 IMU 的設備能否借鑒這種思路呢?由于絕大多數情況下攝像頭的移動線速度較低(米/秒 級),影響不大,重點計算角速度即可,章國鋒教授認為這種思路是可行的。也就是在沒有真實 IMU 數據時,通過采集的數據數據模擬計算 IMU 數據。
根據這個思路,他們針對移動場景提出 RKSLAM。
而后還衍生出基于 RGB-D 輸入系統的視覺 SLAM 系統 RKD-SLAM,除 RGB 視覺信息之外增加的深度信息可以大幅提高魯棒性,得以實現非??焖俚脑隽考{整;基于關鍵幀的重融合,消除累積誤差;其中還使用了多種降低計算復雜度的方法,速度可以快一個數量級。
章國鋒教授著重介紹了系統中使用的集束調整方法,把長序列分成多個短序列,分段優化,收斂快。在演示視頻中,章國鋒教授在自家小區中一邊行走,一邊隨意用手機拍攝視頻,他們的方法就能很好地重建出周圍環境的三維模型,效果優于此前的方法。
視覺?SLAM?技術應用
視覺 SLAM 技術的應用有很多。對于視頻剪輯,可以移動、復制畫面中的對象,隱藏或者添加對象,還可以增加時間停止特效,進行景深變換等。(上圖視頻中,在桌面上復制了一個同樣的魔方)。
增強現實應用也是大家喜聞樂見的應用形式。圖中演示的是王者榮耀 AR 人物,可以讓游戲中的英雄在真是桌面上做出各種動作;高德地圖有 AR 導航,可以在路面上顯示一個助手帶著你行走。AR 尺子也已經具備了一定的實用性,基于 RGB-D 慣性 SLAM 的 AR 測量,平均測量誤差只有 2.6%。基于 TOF (飛行時間)的技術還可以具有遮擋處理的能力。
最后,章國鋒教授展望了視覺 SLAM 的技術發展趨勢。一方面,我們需要更先進的方法緩解視覺 SLAM 中的特征依賴,提高穩定性;另一方面,稠密 SLAM、TOF 做得還不夠好、應用還不多。最后,多傳感器融合也是一大發展方向。
黃迪 - 「基于三維人臉數據的身份識別與表情分類」
北京航空航天大學計算機學院院長聘副教授、博導黃迪的報告主題是「基于三維人臉數據的身份識別與表情分類」。報告從背景、三維人臉識別、三維表情識別、三維人臉分析的新挑戰幾個方面綜述介紹了這個領域的主要研究和應用脈絡。
背景
三維人臉分析的處理流程可以分為數據采集、預處理(移除尖點、填充孔洞等)、形狀表示、測量與匹配幾步。如今進入深度學習時代,傳統三維分析流程四步中的后兩步可以合二為一。
三維人臉分析的應用場景不外乎身份驗證、4D 表情分析,還可以分析身份和表情之外的額外信息,比如人種、性別、年齡等。一個典型應用是 iPhone FaceID,它采集人臉的三維數據進行記錄和比對。FaceID 的出現表明三維人臉已經可以在一些定制化的產品上進行應用,回應了一些對三維技術質疑的聲音。
二維、三維人臉分析技術的表現有較大不同。二維人臉分析解決不了光照問題;二維人臉識別無法很好解決姿態變化的問題(對于不同表情的人臉,做身份識別之前需要嘗試恢復到中性的表情,但信息的重加工可能會破壞身份信息);三維人臉分析對化妝的容忍度更高。以及,對于照片、視頻、仿真面具三類攻擊的容忍程度上,三維對前兩種有天然的免疫(采集不到深度信息),而且對面具的抵抗性也要比二維方法好很多。
三維人臉分析起始于 1989年,2005年是三維人臉分析快速發展的一年。領域內的大牛 Kevin Bowyer 在 2006 年提出,三維人臉分析技術的發展面臨的三大挑戰是:更好的三維傳感器、更好的算法以及更好的實驗方法。
三維人臉分析的數據集有不少,常用數據集 FRGC、BU3DFE、BU-4DFE。不過所有這些數據集的數據量都不大,所以深度學習模型的表現并不突出。
三維人臉識別使用場景:純三維形狀對比,多模態人臉對比,以及二維三維不對稱識別
黃迪副教授說道,三維人臉識別的挑戰是,所有的人臉都很像!人臉這個大類的相似度很高,所有的臉人臉都有相同的結構。考慮不同身份的人構成的小類的話,類內有一定的變化,來自表情變化、姿態(收集時的不同姿態可能導致三維點云不完整)、遮蓋、雙胞胎、低質量數據等。而類內的差異無法保證小于類間(不同的人之間)的差異。如今,表情變化的處理已經比較成熟穩定,其他的挑戰仍然等待解決。
三維人臉識別技術
三維人臉識別中的關鍵問題:要找到比較好的形狀表示。理想的表示要對不同的個體有區分度,也要能減少其他因素的干擾。形狀表示有基于模版、等高線、剛體、不變區域等多種方法。后來公認使用 MeshSIFT 類等基于特征的方法。
由于更早之前人臉數據集的樣本太?。〝祿熘心J每張臉只有一個樣本),所以基于深度學習的研究工作 2018 年才出現。這項工作微小地改動了已有的 VGG-Face 模型,而創新點在于數據擴增,作者們創造了更多的虛擬 ID、更多的姿態,保證有足夠的數據,然后用二維卷積的方法得到比較好的結果。
根據黃迪副教授介紹,三維人臉識別的難點,早期一般在于采集,高精度的采集設備過于昂貴,能采集的數據規模小;后來才有低成本的采集設備,而消費級的采集設備一般還是有比較多的噪聲。
黃迪副教授利用消費級的 Kinect v2 采集大規模數據,提出 Lock3DFace 數據集,包含了 500 個人、每人 20 個視頻,其中有 200 人的數據采集時間間隔 7 個月。這個數據集的目的除了為每個身份提供充足的數據之外,也包含了豐富的表情、姿態、遮擋,尤其時間間隔造成的變化是任何此前的數據集都不包括的。Kinect v2 雖然只能采集到低精度的原始數據,但可以用多幀數據聯合重建,同樣得到可靠的結果。
最新研究中,他們提出了一套采集系統 Led3DFR,用移動級硬件,利用前端計算、小模型,達到高準確率、高識別速度。
三維表情識別技術
三維方法研究表情有天然優勢。傳統表情方法中的一種是肌肉分割。目前還解決的不好的案例是一些近似表情的分割,強度小,混淆性高。
另一種思路是在流形上做卷積,但對內存大小和計算復雜度要求很高。黃迪副教授團隊提出一種快速、輕計算量的新流形卷積方法,直接在 mesh 上計算,使用定制化的算法,手工定制的池化步驟,計算過程高效,得到的下采樣結果準確。
對于各種基于深度學習的方法,黃迪副教授的感受是,受限于訓練數據集大小,還是需要結合一些手工優化,但深度學習的方法仍有優勢。
三維人臉分析的挑戰
最后總結了三維人臉分析技術發展中遇到的挑戰:首先,三維重建、特征計算都有高計算量,在移動設備上有計算時間的問題;點云數據是不規則分布的,空間中不同區域的點密度有很大區別,同時三維人臉數據集的數據量也不大,深度學習的應用就受到一定限制。
對于三維人臉識別,真實場景應用中也許多變異點,比如如何適應商業化的(低精度)深度傳感器、如何在移動設備上運行、如何克服噪聲和遮擋等問題,以及如何與二維RGB數據有更好的融合,高效地發揮各自的優勢。
對于三維表情識別,也有表情的不確定性的問題,可以是不同的表情看起來很類似,也可以是不同的人對同樣的表情有不同的理解。嘗試其他表達形式,結合上下文、肢體語言判斷是一種思路。
趙啟軍 - 「三維人臉建模:由圖到形的人臉識別」
四川大學計算機學院副教授趙啟軍的報告主題是「三維人臉建模:由圖到形的人臉識別」。這個報告也是關于三維人臉的,不過趙啟軍副教授關注的重點是從二維圖像重建三維人臉,這不僅是二維三維信息之間的橋梁,也拓展了三維人臉技術的應用范圍。
二維圖像可以由三維實體生成,其中有很多因素影響;二維圖像除了紋理之外也有很多三維信息,尤其是在結合了物體的常識模型之后。二維和三維相比之下,全視角的三維面部模型含有更多的信息,也更加魯棒。
三維人臉一直不火熱的原因,趙啟軍副教授認為是高成本。專業的三維采集設備自然非常昂貴、使用不便,即便現在出現了低價的消費級 RGB-D 傳感器,但測量精度有限;其他原因還有,受限的應用場景(絕大部分三維應用在短距離測量和識別),帶來的額外收益受限(二維圖像在多數場景中都有足夠好的效果,占據支配地位,不過實際上二維圖像方法也需要使用環境中有一些約束,才能達到滿意的性能)
趙啟軍副教授的科研路線圍繞的就是三維數據的重建和應用:在采集新的三維數據的同時,也要利用已有的二維數據。從二維數據重建三維數據,可以輔助無限定的二維人臉識別(角度、光照、姿態不做嚴格要求)。這也是本次報告的主要內容。
單張圖像人臉重建
從一張到多張圖像恢復完整的三維模型。這可以看作一個回歸問題。
解決這個問題的經典方法是 3DMM,這是一種統計方法,做法是收集許多人臉模型,用 PCA (降維)求出統計模型,然后把統計模型擬合到待求人臉。如今的深度學習方法也是用的同樣的核心思路,只是改變了求參過程。
對于這項方法的后續改進,研究人員們希望可以避免求解統計模型,直接在三維空間中求回歸,得到保留個性化特性的、而且有助于識別的人臉形狀。簡單直接的人臉重建有許多思路可以完成,但是我們希望重建結果能對人臉識別起到幫助,也就是保留有辨別性的細節。另外還希望這個過程可以是實時的。
趙啟軍副教授介紹了自己團隊的一項后續研究工作,從單張圖像重建三維人臉,同時目標讓重建結果幫助人臉識別,排除表情之類的對識別無幫助的信息。他們的思路是把每個面部三維模型看作平均模型+身份信息+表情信息的組合。他們把面部對齊(獲得更準確的特征點)和面部重建(獲得更準確的三維模型)作為聯合任務,交替進行,多次迭代;最終輸出的三維重建結果不包含表情信息,也就是一個表情中性的人臉。
研究中他們也嘗試了基于深度學習的非線性模型,效果并不突出。他們猜測原因也是測試數據集規模較小,不足以發揮出深度學習方法的優勢。
經過三維重建得到了正面、表情中性的人臉模型之后,一種應用方式是輔助提升二維人臉識別的效果。重建后的三維模型與原始二維圖像補充成為融合模型后,可以提升較大角度下識別的性能,減小了姿態和光照對純二維方法人臉識別的影響。
趙啟軍副教授還做了其他思路的進一步研究,他們嘗試三維面部形狀特征解耦,聯合人臉重建任務和識別任務,希望可以強化識別人臉需要的身份信息;根據他們的想法,這些信息可以在隱空間進行分解建模。
經過端到端聯合訓練后實現了預想的引導結果,達到了身份信息和表情信息的分離,不同人的身份信息有足夠的區分度。
他們也做了許多驗證研究,表明形狀重建的精度也達到了較好水平;Alabation study 表明,多層感知機學習到的基向量之間也有很高的區分度(單個基向量表示的面部特征已經不可能在真實人臉上出現了,見上圖左側部分),說明了學習的有效性。
多圖人臉重建
單張圖像的人臉重建問題得到較好解決之后,多張圖像帶紋理重建也就是在單圖任務基礎上的自然延伸。一個典型的應用是,公安系統的罪犯存檔照片包含正面、左、右三種視圖,可以利用這些照片重建帶有紋理的三維人臉模型,與現有的二維圖像采集系統結合以后可以極大提升目標的前?n?位識別成功率,即便二維圖像采集系統的圖像可以是任意角度的人臉。趙啟軍副教授還介紹了一個三維人臉重建帶來目標犯罪嫌疑人的識別排序大幅提升的真實案例。
多張圖像的人臉重建也有一種令人十分頭疼的應用場景,就是長時間跨度的多張無限制圖像重建。如圖,六張不同年齡的萊昂納多,幾乎可以認為是好幾個不同的人了。這時我們希望重建出的人臉是一個平均形狀,能夠代表不同時期的面部特點。
這個問題目前還無法完美地解決,畢竟類內就有很大差異。不過相比以往的方法,趙啟軍副教授團隊提出的方法,減小了同類、類間區別的重疊(圖中黃色和藍色交疊部分)。
總結
趙啟軍副教授最后做了總結:三維人臉在許多任務中會有幫助,他們也提出了多種方法進行重建并應用重建成果。這個領域的挑戰是:缺乏大規模的 benchmark;數據采集精度需要更高,重建時希望可以有更多的紋理細節(甚至到可以捕捉皮膚缺陷的程度);另外不同多種來源的數據可以用于多種不同的目的。
郭裕蘭? -?
「三維場景智能感知與理解」
國防科技大學電子科學學院講師郭裕蘭的報告「三維場景智能感知與理解」介紹了他所在的研究小組在雙目深度估計、三維目標識別以及三維場景標注等方向的研究進展。
郭裕蘭首先介紹了三維數據獲取與處理的基本知識,介紹了雙目視覺深度計算的基本技術,以及這個任務中傳統算法的流程。
郭裕蘭所在的研究小組有一些新的嘗試,他們借助深度學習,用一個網絡解決視差估計中的多個步驟。
在 CVPR 2018?的?ROB?挑戰賽中,他們的方法在不同的數據集中取得了均衡的表現,由此獲得了總成績第一名。
他們也對視差超分辨率任務做了一些研究。視差超分辨率是要利用雙目視覺兩個輸入之間的微小差異。
郭裕蘭還介紹了多種基于三維數據的深度學習場景理解(對象識別)方法。
紀榮嶸 - 「基于學習的場景信息重構」
論壇的壓軸報告嘉賓是來自廈門大學的“閩江學者”特聘教授、博導紀榮嶸。報告中介紹了課題組圍繞場景信息重構的一些研究工作以及技術應用。
報告一開始,紀榮嶸教授就感慨道,「雖然現在是深度學習時代,但是只會深度學習是不行的」。報告的第一項內容也就是一種非深度學習的方法。
基于搜索的單圖深度估計
單目視覺深度估計本身是一項比較簡單、如今也被深度學習解決得比較好的問題,傳統方法先估計初始深度圖,再用 CRF 優化、端到端,以及繼續加入各種技巧,也可以得到比較好的結果。
不過在這項研究中,紀榮嶸教授指導學生選擇了一種基于搜索的方法:把深度估計問題作為搜索問題,把圖片分為許多 patch(小塊),每個patch在現有的圖像-深度數據庫中搜索,得到的結果做上下文平滑。
這種做法的難點在于:1,跨模態檢索,2,大邊緣結構分析。由于這是一種非深度學習方法,它不需要訓練,只需要預先編碼一個字典即可(用于快速搜索)。這篇論文時間較早,但也被?ECCV?錄用。
基于序列預測的實時語義分割
下面就進入了深度學習時代,在各種任務中大家都開始嘗試基于深度學習的方法。紀榮嶸教授介紹的這項研究是針對視頻語義分割的(也就是時間序列語義分割)。
一般來說序列分割中都要考慮前后幀之間的聯系,才能讓分割結果更穩定、魯棒,他們的思路是把編碼器先前的輸出用來預測,也嘗試了級聯、相加、Attention、Attention+級聯等多種融合策略,編碼器也使用了上下文殘差卷積。最后配合一些提速技巧,取得了性能和速度的很好均衡(在?TITAN?Xp?上,2048x1024 的圖像分辨率輸入,達到 18.5?幀/秒的運行速度;同時在精度上甚至優于一些不考慮速度的方法)。?這篇論文 CVPR2019 在投。
基于語義信息和生成對抗的視覺里程計
下一項研究是關于視覺里程計的。這是首次把生成式對抗引入視覺里程計的設計,但取得了不錯的效果。
方法的總體流程是,用一個特征生成模塊?FGN?生成特征,用一個 Discriminator 判別數據分布。這個?Discriminator?有三路輸入,分別是圖像、生成器輸出的特征、語義圖,然后把用 SIFT?方法生成的特征點和特征描述作為 Ground Truth。這樣的做法解決了特征點檢測和描述的問題。取特征部分比直接使用 SIFT 和 ORB 快,精度也更高。而且也解決了 SIFT?作為里程計時容易中斷的問題。
他們的方法在許多場景下都取得了不錯的表現,甚至最終的精度超過了作為監督信息的?SIFT?的精度。不過,由于方法中沒有加入閉環檢測,在高速、長路段的后期誤差會升高。
最后,紀榮嶸教授還簡單介紹了實驗室在視覺場景理解方面的多個項目,包括頭戴式顯示裝備、AR?快速定位、基于神經網絡壓縮的人工智能芯片設計、端到端實時室內物體語義分割等,也是產學研結合的范例。
結束語
七場學術報告下來,這些在三維數據分析、場景感知、人工智能技術方面有諸多經驗的專家學者們之間就一些觀點達成了共識,為臺下聽眾講解了重要的發展脈絡、關鍵技術體系和最新進展;借著聽眾提問的機會,嘉賓們也在一些問題上更具體深入地表達了自己的觀點。
三維數據的采集和表示、三維數據的分析和理解還有許多難點遺留,不過這同時也是巨大的空間,等待技術不斷發展去填補。奧比中光在三維數據采集設備的普及化、小型化方面做出的探索得到了專家們的關注和認可,也將成為這個領域的學術研究和應用普及的一股推動力量。
未來更豐富的三維信息、對三維信息的更充分利用,也會像現階段的人工智能技術一樣帶來更多機會和生活便利。雷鋒網 AI 科技評論也會持續關注相關學術研究和技術普及應用,期待下一次的專家學者聚首以及最新學術成果討論。
。