Momenta創始人曹旭東:自動駕駛的難點和重點是這個
解決安全問題耗資巨大
高安全性意味著低事故率。一個系統做到很低的事故率,通常要做兩件事情,一個是發現問題,一個是解決問題。
開始時,由于系統的問題非常多,主要精力在解決問題,但是隨著事故率逐漸降低,發現問題變得越來越難。據統計,全球來看,對于人類司機,一億公里發生致命事故1~3起。對于無人駕駛,我們希望比人更安全,最好致命事故率低一個量級,做到十億公里一起致命性事故。統計上,要達到足夠置信度,需要多次重復實驗,最好一百次以上。
這意味著一套比人更加安全的無人駕駛的系統需要測試的總里程達到1000億公里。按照一輛車一年10萬公里總里程計算。我們需要100萬輛車,一整年的時間,收集無人駕駛數據和測試,才能夠保證無人駕駛所需的安全性。現在Google和百度的無人車成本都在百萬人民幣量級,乘以100萬輛車這個巨大的基數,對于任 何一 家公司而言,都是一個天文數字。
通過模擬和眾包來克服
無人車大規模數據收集和測試的巨大成本主要來源于兩方面:一方面是需要海量的測試車輛,另一方面是 高昂 的單車成本。
針對這兩方面的成本,我們有兩種互補的解決方案: 第一種解決方案是無人駕駛模擬;第二種解決方案是眾包數據收集和測試。
無人駕駛模擬可以通過算法生成感知和決策數據,減少數據收集和測試車輛數量,降低研發成本。當然,無人駕駛模擬也存在不足:
第一,模擬生成的感知數據和真實的數據存在差異,實際中,還是以真實數據為主,生成數據為輔。
第二,模擬的規則是人制定的。很多失敗的場景恰恰是人思考的盲點,單純通過模擬并不能發現。
總結來說,雖然模擬可以降低數據收集和測試車輛的數量,但是我們仍然需要收集真實數據,用大量的車做真實測試。
車的成本主要由三部分構成:設備成本,造車成本,運營成本。運營成本就是駕駛員開著車采數據和做測試的成本。設備成本方面,我們可以發揮算法優勢,通過多攝像頭等廉價設備實現無人駕駛。攝像頭是所有感知設備中信息量最大的,需要人腦水平的強人工智能,才能從間接視頻數據中提取出無人駕駛所需要的直接數據。激光雷達、高精GPS和IMU長期看都有降價空間,我們的技術方案不排除任何感知設備,價格合理,就會融合進來。
造車成本和運營成本已經優化了上百年,很難降低。因此,我們設想直接利用現有道路上已有的運營車輛,不需要造車、改車、控制車,以一種零負擔、零危險的方式實現眾包測試和數據收集,這是個非常困難的問題,需要非常深厚的算法積淀和原創能力。
無人駕駛的向導——高精度地圖
高精度地圖是一個寬泛的概念,需要達到兩方面的高精度,分別是地標位置的高精度和本車定位的高精度。
地標位置的高精度。 高精地圖由很多類地標構成,比如地面各種道路標線,地上各種交通標志等,地標的定義現在還沒有明確的標準,不同廠商從自己產品和技術需求出發,有不同的定義方式。
本車定位的高精度。 高精定位有三種方式:第一種是衛星定位。多基站+差分GPS在開闊區域可以做到厘米級精度,但是城市中因為多路徑效應,精度只有米;第二種是匹配定位,這種方式和人很像,觀察 周圍 環境或者地標,在記憶地圖中搜索,匹配定位。結合GPS限定搜索范圍,可以做到快速準確匹配。第三種是積分定位。IMU或者視覺里程計。短時間內精確,長時間有累積誤差。這三種方式各有優缺點,結合起來可以做到低成本、高精度、高可靠性。
高精度地圖是視覺的延伸和增強,之于無人駕駛是必須的。舉個例子,多車道彎道行車時,因為路旁障礙物的遮擋,車載傳感器感知不到拐彎之后的道路情況,導致拐彎之后的某一車道上發生車禍。 一旦有了高精地圖的車道級定位和實時路況更新,就能提前減速并變換到到非車禍車道,杜絕事故的發生 。 再舉一個例子:通過視覺,我們可以識別當前在第幾車道,通過高精度地圖定位,我們也可以知道當前在第幾車道,兩種不同方式互相校驗,可以達到更高的安全性??偨Y來說,高精地圖可以使無人車看得更遠,看得更準。
高精地圖對于自動駕駛整體解決方案研發的價值非常高,這一點卻被很多人忽視。分為三個方面:決策,測試,V2E。
第一方面,無人駕駛決策。 本質上,駕駛決策學習的是道路環境到駕駛行為的映射,也就是這種情況應該怎么開,那種情況應該怎么開。
第二方面,無人駕駛測試。 測試,找出問題,非常重要,也極具挑戰。當無人駕駛算法接近人類駕駛的安全性時,需要一千輛車測試一年的時間才有可能發現問題。
第三方面,V2E。 V2E是指通過車輛和道路通信實現無人駕駛,可以大大降低無人駕駛的難度,提高安全性。
視覺高精度地圖的實現
視覺高精度地圖的實現技術,不是SLAM也不是SFM,這些方法都不適用。 要建真正可用的視覺高精地圖,需要從第一原理出發重新設計整個算法。 我們構建高精地圖的第一原理是:多張圖像存在視差,利用點的對應關系,可以從2D點恢復出3D點。人眼雙目視覺獲得深度也是這一原理。從基本原理出發,建立高精地圖,需要創造性地解決三方面的問題:
● 圖像部分。 我們的方法是定義道路標線、標牌等地標上的點作為語義點,通過深度學習和數據驅動的監督訓練得到模型,可以準確檢測和識別語義點,解決檢測不到、匹配錯誤的問題。
● 幾何部分。 通過眾包間接實現海量攝像頭測量效果,不同車輛,不同時間,經過同一地標,即使光照視角不同,我們也可以通過語義點模型把所有車輛拍攝到的同一語義點關聯起來,這相當于間接實現了多攝像頭測距的效果。我們知道,視覺測量中,攝像頭越多、視差覆蓋越全,測量精度就越高。我們實驗驗證,隨著眾包車次的增加,真實3D點位置估計的準確性有量級上的提升。
● GPS部分 。 給每個語義點精確的GPS坐標,我們有幾方面的考慮:
(1)讓高精地圖通用。GPS坐標是地圖的通用語言,給每個語義點賦予GPS坐標,便于他人使用。
(2)消除累積誤差。單純使用幾 何方 法構建局部地圖,會有累積誤差。結合GPS,可以解決這個問題。
(3)消除局部地圖歧義性。當局部地圖有重合或者語義點缺失的時候,確定局部地圖坐標系很麻煩,但全局GPS坐標系沒有這個問題。