大模型加速上車,吹響新一輪智駕“軍備競賽”號角?
2024 年,被很多中國車企稱為 " 智駕規模商用元年 ",但是智駕領域的競爭如果沒有特斯拉這條 " 鯰魚 " 參與,顯然有些成色不足。
近日,據 媒體 報道,上海已向特斯拉發放了道路測試牌照。此前有外媒報道,特斯拉計劃為中國市場注冊 FSD 軟件,預計今年推出,并可能以月度訂閱方式向用戶收費。若注冊成功,特斯拉員工將可在中國的公共道路上進行 FSD 的內部測試。
回顧特斯拉自 2021 年發布 FSD Beta 版本(測試版本)至 2024 年發布 FSD v12(Supervised)版本(受監管版本)以來走過的 3 年路程,馬斯克把 FSD 的 30 多萬行代碼刪到只剩下 2000 多行。而這背后,是 FSD 端到端的全新升級。
也正因如此," 端到端 ""BEV""Transformer" 成為了智能駕駛圈中的熱詞,引發車企的爭相研究,華為、小鵬、理想、蔚來等主流主機廠、自動駕駛方案商均推出了基于 BEV+Transformer 的智駕方案。
全球車企瘋狂押注端到端大模型的背后,新一輪智駕技術軍備競賽號角已經吹響。
路線之爭愈演愈烈
在智能駕駛領域,中美兩國呈現出一超戰多強的態勢,特斯拉在某種意義上代表了美國自動駕駛的基本面,中國這邊則是新勢力個個爭先。
特斯拉研發的 FSD 采取純視覺方案,完全摒棄掉激光雷達、毫米波雷達等傳感器,僅采用攝像頭進行感知,特斯拉 汽車 共計采用 8 個攝像頭分布在車體四周,整體實現 360 度全局環視視野,攝像頭就像是 " 汽車之眼 ",為汽車提供類似人類駕駛員的視覺感知系統。
馬斯克對于雷達是極度排斥的,這既有 商業 層面的考慮,特斯拉剛上市的時候,雷達的成本還比較高昂,有的高達上萬美元。還有另外一個原因,他信仰 " 第一性原理 " ——既然人類是靠眼睛開車,而道路結構和標志也是為人眼設計,作為 " 汽車之眼 " 的攝像頭理論上也可以實現同樣的效果。
同時,毫米波雷達技術上的缺陷也是他的一個重要顧慮。毫米波雷達由于無法分辨高度信息,在使用中會將靜止物體識別的置信度降低,如無其他可靠傳感的情況下,可能導致誤剎或漏剎,導致 " 幽靈剎車 "。這些因素讓特斯拉堅定地走出了 " 去雷達 " 之路。
持續的進化能力正是特斯拉 FSD 的可怕之處。2021 年 7 月,特斯拉正式推出了 BEV(鳥瞰圖)+Transformer 的技術方案,進一步提升了攝像頭的測距、測速以及適應一些極端場景的能力。
2022 年,特斯拉提出 Occupancy Network(占用網絡),引入了 " 體素 " 的概念——三維空間基本單元,通過占用網絡進一步提升對物體體積信息的識別能力。大幅改進此前視覺算法常常會出現誤檢、漏檢的問題,同時,特斯拉也不斷投喂各類場景的視頻,讓 AI 算法盡可能多的認識更廣泛的駕駛情況。
2024 年 3 月 1 日,特斯拉 FSD v12 完成更新,有業內人士表示,FSD v12 是特斯拉史上最重要的一次更新,它為特斯拉車輛帶來了前所未有的自動駕駛能力。
"FSD Beta v12 將城市街道駕駛堆棧升級為端到端神經網絡,經過數百萬個視頻訓練,取代了 30 多萬行 C++ 代碼。" 在更新說明中,特斯拉如此說道。FSD v12 被視為改變規則的技術,整個系統中端到端的算法幾乎全部采用神經網絡構建,其優勢在于其靈活度非常高、應變能力好、上限高,并且可以通過高度擬人化的狀態駕駛,大幅提升駕乘體驗。
與特斯拉不同的是,國內廠商普遍采取的是激光雷達方案,這個方案依托激光雷達 + 攝像頭 + 毫米波 / 超聲波雷達等硬件設備,依靠實時測繪、AI 算法的融合感知,來實現智能駕駛。比如,華為問界系列、理想汽車 2024 款 L 系列的 Pro 版、極氪 007、阿維塔 12、小鵬 G9、問界 M5 等。
中國車企關于智能駕駛的技術主線比較簡單,雷達的裝載量越來越多,雷達的線程越來越高,成本越來越低。由此帶動的,智能駕駛技術也不斷由高價車向低價車滲透,乘聯會發布的汽車智能網聯洞察報告數據顯示,2023 年全年新能源乘用車中,裝備 L2 級及以上輔助駕駛功能的比例達到 55.3%。
而隨著雷達路線的不斷進步,2024 年中國車企們開始大規模 " 進城 " 了,極氪 007、阿維塔 12、小鵬 G9、華為問界等都已經開通了城市和高速 NOA 功能。城市場景下的自動駕駛具有重大的現實意義和象征意義," 進城 " 也被認為是邁進高階自動駕駛的重要標志。
不過,從特斯拉的開發經驗來看,端到端自動駕駛所需的數據規模、算力規模遠遠超出國內企業的承受能力。除了成本高昂,端到端自動駕駛的技術難度也非常之高,想要實現端到端產品落地和持續進化,對于車企的技術迭代能力也提出了更高的要求。
小模型 VS 大模型
智能駕駛行業,經歷了一個模型 " 從小到大 " 的過程。
目前已量產的智能駕駛,絕大多數采用的是模塊化架構。簡而言之,模塊化是將智能駕駛系統拆分為多個典型任務,并由專門的 AI 模型或模塊處理。
現階段的自動駕駛模型框架主要由感知、決策、控制三個部分組成。感知模塊就像是人的眼睛和耳朵,負責對外部環境進行感知;控制模塊就像人的雙手和雙腳,負責最終的加減速、轉向等操作;而決策規劃模塊就像人的大腦,基于接收到的感知等信息進行行為決策和軌跡生成。
在此架構下,每個大模塊可能包含多個小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型,各司其職。
不過,隨著軟硬件升級與逐步深入,自動駕駛對于計算能力和海量數據處理能力的需求暴增,傳統各個小模型 " 堆疊 " 的方案,已經無法滿足城市自動駕駛的需求。比如," 堆疊 " 造成信息失真以及算力浪費,而每個小模型的技術天花板也會導致整體解決方案受限。
這個時候,大模型開始進入業界視野。
2021 年 8 月,特斯拉 AI 高級總監 Andrej Karpathy 展示了一項新技術——基于 Transformer 的 BEV(鳥瞰視角)感知方案,這是大模型技術首次應用于自動駕駛領域,也是特斯拉實現純視覺智能駕駛方案的關鍵。
BEV 可以實現將 360 度環視的時間、空間融合,相當于車輛正上方 10-20 米有一個直升機俯視車輛與周圍環境。Transformer 架構可以輸出靜態、動態信息,以及端到端的預測能力。更具象化來說,就是將攝像頭、毫米波雷達、激光雷達等感知元件采集到的實時數據通過 Transformer 模型轉換成 3D 圖景,最后形成車輛周圍的鳥瞰圖,實現對車輛周邊環境的精準感知,甚至可以實時形成一張車輛周圍的實時地圖。
需要指出的是,Transformer 不等于大模型,它是模型的底座,目前的大模型都是在 Transformer 的基礎上進行開發的。
在特斯拉使用 Transformer 之后,大模型早已經不限于智能駕駛感知領域。目前,智能駕駛已從僅使用模型進行圖像感知,使用規則算法的方式,轉變為感知、融合、預測全面使用模型。
盡管 BEV+Transformer 相較于過往的智駕技術路線優勢眾多,但也并非十全十美,仍存在諸多挑戰。
首先,為了確保視覺感知重疊,汽車感知硬件中攝像頭數量會有所提升,硬件成本增加。
其次,Transformer 模型體量龐大,運算會消耗大量存儲與帶寬空間。 同時對芯片性能要求嚴苛,除需進行算子適配以及底層軟件優化外,SOC 層面還需對緩存與帶寬進行提升。
最后,也是最為重要的是 Transformer 訓練與迭代需要海量數據做支撐,催生出海量的數據采集、標注需求。
從高速場景拓展到城市場景,車輛所遇到的長尾問題大幅增加。高速場景相對封閉,交通參與者相對簡單不涉及行人,駕駛狀態可預測性更強,對數據規模與多樣性要求較低。而城市場景路況則較為復雜,交通參與者眾多,場景異質性強,駕駛狀態很難進行預測。因此,城市 NOA 對自動駕駛模型的泛化能力提出了更高的要求。
Transformer 大模型量變到引起質變需要數億公里標注數據的投喂,并覆蓋不斷出現的極端案例,才能實現自動駕駛感知算法從輕量的神經網絡二維感知到基于 Transformer 四維感知的升維,這對數據標注量產規模提出了更高的要求,數據閉環能力取代算法范式,成為決定商業量產從 1 到 N 的勝負關鍵。
智能駕駛的另一條路徑
在智能駕駛產業在發展過程中,數據端和算法端都面臨著一定的發展痛點。
數據處理層面,自動駕駛所需要的數據是有價值的極端案例(Corner Case), 但當前數據處理面臨的最大問題是低效率和高成本,無法實現數據閉環。 其中,低效率的問題主要是高價值數據比例低、各類型數據需求同步難、數據處理的自動化程度低;高成本問題主要是數據采集成本高、數據標注成本高、數據存儲成本高。
算法模型層面,自動駕駛功能逐步邁向高階功能,自動駕駛系統將承擔駕駛操作和周邊監控,人類駕駛員將承擔突發狀況下的駕駛工作,此時感知和定位的工作將轉移到車端,整個自動駕駛系統被認為是不安全的,使得整個高階自動駕駛陷入了一個低谷中。 以城區 NOA 為例,車輛將面對更復雜的場景及工況,包括更多的交通參與者、更復雜的交通規則、更高要求的地域覆蓋率等。
任何技術路線都不止一條,車路云一體化作為智能駕駛的另一條技術路徑被擺到了前臺。 車路云一體化是在車路協同的基礎上進一步發展而來,其關鍵是人、車、路、云,對應的是交通參與者、車載終端、路側設施和云計算。一體化是將這些要素融合為一體,通過配備智能傳感器設施的道路與智能網聯汽車聯動 ,類似于 ETC 系統中的路側單元和車載模塊的交互,在智慧公路獲取到車輛數據之后,再回傳到后臺進行數據分析,進而得到實時路況信息,再下發給智能車輛、交通部門、城市管理者等相關方,實現全面的系統協同感知、決策與控制。
從以端到端大模型為代表的單車智能與車路云一體化兩者關系來看,其本質上并非同維競爭。單車智能是 " 點 " 的提升,車路協同是 " 面 " 的統籌。
車路云一體化誕生之初就是為了解決單車智能無法解決的問題,二者的關系是相互促進、互為補充。車路云一體化可以彌補單車智能在復雜場景下的感知不足,通過整合交通關鍵要素、超視距感知、實時信息共享等方式,提高自動駕駛的可靠性和安全性。
車路云一體化為自動駕駛大模型訓練開辟了新的路徑。與傳統依賴車輛單獨采集數據的方式相比,車路云一體化系統能夠收集到更龐大的數據量與更豐富的數據類型,不僅大幅拓寬了訓練數據的廣度與深度,還顯著加速了自動駕駛模型的學習效率與精確度,為實現更高水平的自動駕駛奠定堅實基礎。
通過車路云一體化,自動駕駛車輛的傳感器不再是唯一的眼睛,通過遮蔽或關閉這些傳感器,車輛完全可以依賴路側基站構建的實時數字孿生系統,將實時路況和環境數據源源不斷地傳輸給車輛,指引其順利完成自動駕駛任務。
目前,車路云一體化主要面臨 " 兩率低 " 問題,即路側設備覆蓋率不高且不均勻和車端設備滲透率低。一方面,C-V2X 車聯網路側基礎設施 RSU 覆蓋率較低,未形成規模部署,缺乏全域打通;另一方面,車載終端滲透率較低,導致車輛間信息交互和協作能力不強。車路城協同基礎設施建設主要集中在各城市示范區的部分道路路段,無法形成連續的智能網聯環境,難以滿足智能網聯車輛規模化測試驗證、數據訓練、功能優化等需求,進而導致基礎設施使用率偏低。
而中國龐大的公路網絡以及機動車保有量為車路云一體化提供了豐富的驗證場景和數據來源。2023 年,全國公路總里程 544 萬公里,其中高速公路 18 萬公里,機動車保有量是 4.35 億輛。據《車路云一體化智能網聯汽車產業產值增量預測》報告預測,2025 年 /2030 年我國車路云一體化智能網聯汽車產業總產值增量分別為 7295 億元 /25825 億元,年均復合增長率為 28.8%。
所有的技術路線最終都將殊途同歸。當前,端到端大模型和車路云一體化還處于不斷進化的階段,但其目標都是為了讓更安全的自動駕駛走進千家萬戶。隨著越來越多的企業投入到相關技術的研發與應用當中,這些技術的未來發展圖景也將愈發清晰。如今,智能駕駛起跑的槍聲已經打響,路線是關鍵,而朝著選好的方向狂奔,也是賽道當中的企業不得不做的選擇。
來源:極智GeeTech