精準識別!英特爾用6個Realsense攝像頭實現全身動捕
很多玩家在置身VR 游戲 中的時候,總是會因為感覺不到自己的身體而“出戲”,使其無法完全沉浸在游戲中。為了解決這個問題,研發團隊通過在游戲當中加入全身追蹤技術,讓玩家在游戲中也能夠感受到“虛擬”身體。
不過,這類技術難度太大,而且需要花費開發者很多的時間和精力,因此在目前的 VR 體驗中中,更多地是只針對用戶手部及手臂進行追蹤。比如,Leap Motion一直致力于研發手部追蹤技術,其Orion手部追蹤技術能夠精準捕捉手部動作,為用戶帶來更自然的交互體驗。
而最近,英特爾Realsense團隊軟件工程師Philip Krejov向大家展示了一種通過攝像頭追蹤全身的方案。據悉,這是一種基于深度學習的VR/AR人體動作識別技術,使用的硬件包括攝像機和HTC?Vive追蹤器,在性價比方面比全身服更有優勢。
早在之前,許多VR公司就曾嘗試融入全身追蹤技術,比如OptiTrack開發全身動捕解決方案、Kaaya Tech推出的動作捕捉全身服Holosuit等。
那么 ,到底如何將全身追蹤技術與VR體驗相結合呢?
集成6個RealSense深感相機
據悉,Krejov使用了6個RealSense深感相機,Realsense相機在30分鐘內提供了大約50,000張處理過的訓練圖像,而無需手動準備。
不過,多個相機同時使用就需要考慮時間同步的問題,還需要將它們校準到同一坐標空間。使用三角測量法時,可以采用軟件同步的方式,但是對于這種更復雜的任務來說,為減少偽影的出現,就不得不考慮同步攝像頭觸發裝置的方法。
Krejov的多視角捕捉法,需要將六臺攝像機等距擺放在追蹤目標周圍。他表示,這時多臺相機可以同時工作,甚至為每臺相機設定需要捕捉的專屬節點。
他還表示,這些相機需要通過校準,與統一的坐標系對齊,于是談對將HTC Vive追蹤器裝在校準圖表上,通過移動來校準相機攝像頭和HTC Vive。這項多視角捕捉技術可實現更準確的自動標記,比如聳肩、抬腿等細微的動作。
多視角捕捉
Krejov提出的動作識別方案需要收集RGB和深度圖像數據生成點云,這樣每一個樣本就各代表了人體表面的一點。與真實數據相比,合成的訓練數據缺少了噪點等特性,這些噪點是很難模仿合成的。但是真實數據需要人工標記,因此在時間、成本和準確性上都有局限。
為了采集動作數據,美國卡內基梅隆大學曾研發全景式三角測量法,即先繪制手上關節的平面圖,接著制作成手的3D模型,然后再重新投射到2D平面上,反復優化。
在全景式三角測量法基礎上,Krejov提出了多視角捕捉的概念,這就需要使用更多攝像機,不過好處是能夠采集到更準確的數據。另外,由于采集到的數據中動作比較單一,重新采集數據的情況也不可避免,目的是為了確保不同動作的數據量平均。
Krejov稱,使用這種方法,就不再需要手動標記,只需監督拍攝過程,而且在30分鐘內,就能夠采集到5萬張完成標記的訓練樣本。
手勢和動作識別
這類型的識別技術分為機器學習法和模型擬合兩大類,前者通過數據訓練來識別身體部位(可估計每幀的關節位置),優點是能夠達到很高的幀率,缺點是訓練需要數百萬張圖片;后者利用符號距離轉化功能將預先構建的人體或手部模型向點云數據靠近,缺點是需要多次模擬。
Krejov曾將機器學習和模型擬合相結合,編寫了一款能夠在40fps的CPU上運行的手勢識別算法。他通過收集手部數據,然后將數據與模型擬合。同樣適用這種方式的DoubleFusion技術,能夠預測人體的動作,不過局限依然是對計算要求高。
通過以上方案,Krejov提出了全身動捕解決方案,為用戶帶來更為沉浸式的體驗。
來源:87870