AI大模型催快的自動駕駛與攪局的馬斯克
自動駕駛行業備受關注的前圖森聯合創始人侯曉迪,在《硅谷101》的訪談中,透露了他的最新動向,他已經開始了新一次的創業,依舊是自動駕駛卡車,新公司的名字叫做Bot.Auto。
在《硅谷101》的訪談中,侯曉迪承認自動駕駛行業進入了低潮期,但這種低潮是由加息帶來的純資本問題,并預估在2026-2027年他的公司可以在特定場景下賺錢。
在大國科技交鋒的?口浪尖上,圖森未來的故事比Tiktok更加跌宕起伏,也更加艱難。無論是自動駕駛還是大模型的更新熱點不斷。侯曉迪在訪談中也詳細解釋了為什么他實名反對馬斯克,以及他對大模型、世界模型、具身智能等諸多熱點話題的看法。
以下是《硅谷101》與侯曉迪的對話 (略有刪編) :
一、我為什么實名反對馬斯克
《硅谷101》: 為什么再次創業還是選了自動駕駛這個方向?
侯曉迪: 因為看見所以相信。我在過去的七年中也看到了一些不變性,這是我最寶貴的財富,也是支持我做下一次事業的出發點。首先是技術管理的能力,更多的是行業里面的一些必然趨勢,這些必然趨勢讓我覺得自動駕駛一定可以做出來。
自動駕駛這件事,之前的問題就在于大家都在做一個騙錢的生意,但是我們現在要做一個賺錢的生意。大 概在未來的三四年,也就是2026年或者2027年,我覺得自動駕駛就可以實現商業化或者說就能開始在一些特定場景下賺錢了,真正的規模化我覺得應該在2030年前后可以實現。
當然了,這個時間節點是我和我們公司在一個理性樂觀的情況下給出的預估,但是對于整個行業而言,我沒有這么樂觀地估計,因為這還是取決于具體的人和團隊,而人和人的差距比人和狗的差距還大。
《硅谷101》: 相比于自動駕駛剛剛成立的時候,這幾年其實已經非常少看到這個行業拿到融資的情況了。你會覺得行業在一個寒冬期嗎?
侯曉迪: 我覺得是這樣,窮有窮的活法,富有富的活法。大家可能都認為自動駕駛是一個高資金門檻的行業,燒錢燒得太貴了,但是在我看來不是這樣。花了那么多錢,但是實際上這些錢有多少是用在探索上的?有多少錢是用在盲目擴張和其他并不有助于實際開發的事情的? 我覺得行業內耗實際上是非常大的。 那現在可能說得極端一點,就是在一個寸草不生的環境下,我們只需要做自己就可以了。
自動駕駛這個行業,過去七年不變的東西就是它的商業邏輯。這個商業邏輯讓我非常堅信這件事一定能做出來,而且它做出來一定能讓我們站著把錢掙了。
《硅谷101》: 馬斯克說他在今年8月份要去推Robotaxi,你怎么看?
侯曉迪: 我覺得首先是這樣,我是實名反對馬斯克, 我認為他做的事情不是一個利他主義的事情,他自己是做輔助駕駛的,但是總喜歡把自己打扮成自動駕駛 。我們今天談的是L4自動駕駛,去掉人并且由軟件開發公司承擔責任的方案才叫自動駕駛,而FSD叫輔助駕駛,它不是自動駕駛。所以我們做的其實根本不是一個東西。
如果特斯拉撞死人了怎么辦?對于馬斯克來講,這不是他的責任。因為特斯拉寫得很清楚,誰駕駛誰負責,所以撞死人了,是司機的責任。第二點,繞一大圈回來,他的商業邏輯還是賣車,怎么把車賣得更好是這個公司的核心戰略,所以 自動駕駛是為了輔助他賣車的,并不是這個公司的底色。 它讓你覺得它是自動駕駛,但它實際上是輔助駕駛。
再回到馬斯克發表8月8日要做Robotaxi的陳述。如果他8月8日沒做出來,投資人們一定會來問我,是不是這事做不出來啦?那第二種可能是8月8日真的運營了,然后第二天撞車了。投資人肯定也會擔心:馬斯克都撞車了,你們行不行啊?這事果然不安全啊。好,第三種情況是開始運營了,沒撞車。那投資人們會說,你看馬斯克都做出來了,人家降維打擊你們,你們怎么辦呀?
所以馬斯克發出這個陳述的時候他就已經贏了,我們已經輸了,或者說他沒有贏,但我們已經輸了。我覺得一個問題就在于,大家真的過多地去相信馬斯克說的每句話,但是如果我們去看看馬斯克之前說的事情,他有做成的地方,但是他做不成的東西更多。這個人做的很多事情還是以表演為主。 他的很多言論肥了自己,但是實際上傷害到了自動駕駛整個行業。
比如說自動駕駛要不要上激光雷達這個問題,他說你有激光雷達你就弱,但是我認為黑貓白貓抓著耗子就是好貓,激光雷達弱不弱最后我們需要核算的是成本,如果加了激光雷達我們能賺錢,我們就加。我想告訴大家這件事的本源是怎樣的,這有可能并不是一個最有效率的、最有利于對自己發展方向的手段,但是我們至少不應該去做一些有損整個行業前景的事情。
《硅谷101》: 如果他們做成了,這個行業會不會就重新回暖了?
侯曉迪: 首先我覺得做不成,因為之前那個車的租期到了,最近我太太特意換了輛特斯拉,我自己去開特斯拉,10分鐘一次接管,以我做自動駕駛這么多年的標準,它目前根本不可能做成Robotaxi的運營,至少不可能在8月8日做成Waymo那種程度的運營。當然了,它可以在里面偷換很多概念。到時候開一個有輔助駕駛功能的出租車公司,這是有可能做到的,但是一定不是Waymo這種程度的。
《硅谷101》: 不過特斯拉其實有在輔助駕駛上積累很多的數據,這些數據能不能幫它更快地解決一些在自動駕駛上的corner case (極端情況) ?
侯曉迪: 我們認為自動駕駛是一個世界級的、競賽水平很高的行業。在非常低的水平,當你做任務a的時候,它也許能夠幫助任務b,但當你的水平越來越高的時候,你是做不到的。
在非常低水平,你確實可以說L2是有幫助的,誰也不能否認它是有幫助的。但是L4自動駕駛要解決的核心問題是什么呢?是安全性,是冗余,是當一個系統的每一個模塊都有可能會失效的時候,這個系統還仍然能夠保障最底線的安全,這才是L4最難和最關鍵的部分。所以 在掙錢之前它要先解決安全性的問題,但是這件事情根本不是特斯拉的設計宗旨。
二、自動駕駛的核心難題:不是少數的大問題,而是大量的小問題
《硅谷101》: 你覺得自動駕駛的錯誤觀念跟正確觀念是什么?
侯曉迪: 我覺得首先自動駕駛現在需要解決的不是一個少數的大問題,而是大量的小問題。自動駕駛最大的問題之一是運營不穩定,而這個運營不穩定有可能是因為網線質量不行導致的,比如每天上傳下載數據效率很低之類的,這個事情就太復雜了,但是它絕對不是一個一句話能講清楚的大問題,而是由大量的小問題組成。我們在做的其實就是一個組織結構,這考驗的就是你的組織是否進化到具備以變態高的效率去解決大量小問題的能力。
我們不斷地去改變組織結構,去適應新的時代,最終的目的就是讓組織用最少的人,能干最多的活,并且可以最快地去解決這個事。它必然是跟一些大公司的文化是對立的,什么時候如果一個公司認為你做不出來一個奇跡是不應該被批評的,因為我們要包容,我們要保證團隊的氣氛比較好,這個時候這個公司就已經死了,他就已經不是一個創業公司了。
《硅谷101》: 我之前跟Cruise的人聊,他說其實Cruise內部在面臨非常大的一個問題,也是運營問題。舊金山的自動駕駛事故讓Cruise元氣大傷,這件事有一點點巧合的因素在里面,我們就不展開說了。但是其實這個是大家能看到的,大家不能看到的就是不管是你剮蹭,或者是別人故意蹭你,他們都會有一個非常大的團隊每天專門去處理這些個案性的自動駕駛汽車帶來的問題。
侯曉迪: 對,你看這不就是運營嘛?這就是自動駕駛的運營問題。如果你落地的時候有問題,你要么是自己去扛這個運營的問題,要么就是找一冤大頭讓他來扛這個問題。首先冤大頭的數量是有限的,哪天冤大頭自己發現虧錢了,他也不會繼續冤下去了,所以我們不能坑我們的客戶,我認為運營一定是要自動駕駛公司自己來擔的,這是第一。
第二就是你說這種小的剮蹭問題,其實它根本反映的是什么呢?在城市交通里面,我們的交通規則是不完善的,再具體說就是交通規則的權責劃分是不完善的。如果你在開車,右邊有一個自行車道,然后你想右拐,是不是就應該往自行車道走?這時候誰有責,誰有路權,撞了以后是誰的責任?這件事是不清晰的,而且也不會清晰。因為 你面對的是一個人,人們在做審判的時候總是傾向于認為機器應該是完美服從于人的。 人可以犯各種錯,人可以跟人共情,但人不會跟電腦共情。所以在這個問題上,自動駕駛在一個權責不清的交通環境下,它一定是非常難做的。
那么城區是權責不清最嚴重的地方,這就是為什么一開始我就做卡車,做了7年,我現在還做卡車。卡車其實就不會像在城市交通,尤其是擁堵的城市交通里面會遇到這么多權責不清的情況。我們的經驗認為,即使是在最后一公里的狀況下,卡車所面臨的權責不清的交通場景也是非常非常少的。
《硅谷101》: 所以你覺得高速是一個比城市更容易實現自動駕駛的地方?
侯曉迪: 對,而且卡車的自動駕駛,我不用去解決這些不可解的問題——既要守交通規則,又要確保乘客的安全和乘客乘坐體驗的舒適,同時我還要需要確保周邊其他道路交通的參與者的安全,這三個東西放在一起就是不可解問題。
比如機器能否壓雙黃線這個問題。很多時候如果壓雙黃線,我就能夠比較快速繞過去解決一個問題,但是壓雙黃線就是違反交通規則了。那如果我遵守交通規則慢慢等著,乘客可能會覺得我太慢了,然后給差評。此外,我還要跟其他不守交通規則的人去競爭,并且出事故以后,我會被放到一個非常不利的被審判的位置上,因為我是電腦,我就應該把事情做完美。這三個東西加起來,自動駕駛就很難了。
但是如果第一我沒有乘客,第二我可以犧牲運營的時間和效率去確保我的安全和合規,只要這個矛盾發生的概率足夠小,它就能是一個合理的商業模式。
三、大模型里有成千上百的小創新,自動駕駛都能用上
《硅谷101》: 因為大模型特別火,你覺得大模型對自動駕駛的技術會有什么幫助嗎?
侯曉迪: 大模型非常火,但是我覺得絕大部分談大模型的人根本不懂什么是大模型。 我認為大模型不是一種參數越多就越厲害的東西,它是一種具備了遷移能力的模型。在計算機視覺領域,其實很久以前人們就已經發現,當一個模型訓練到一定程度以后,它的內蘊表達是具有很高價值的,這個內蘊表達能夠以比較低甚至是零成本遷移到另外一個任務上,這就是模型的遷移能力,是它推動了這一波大模型。
在以前沒有遷移能力的時候,適應成本是非常高的。當你的系統學會了做一件事兒,想用它做第二件事時,需要把原來做好的系統再放到一個看起來相似但不完全相同的場景下,成本非常高。那么現在這種遷移成本變得越來越低。
遷移成本,也就是落地成本的降低,使得很多事情變得可做了,我覺得這就是人工智能這一次給大家帶來的比較大的啟示。 但是我想說這不是一朝一夕的事情,其實在深度學習2012年被提出以后, 我們每幾年就能發現遷移能力、泛化能力在不斷提升。我作為一個從業者,看到的是一個漸變的過程,它不是一個突變的過程。
如果咱們做個科技考古,真正出圈的事情是ChatGPT,但是GPT-1、GPT-2從根本上跟GPT-3或者 ChatGPT背后的GPT-3.5,能力差距到底有那么大嗎?我覺得其實沒有。從學術角度來看,它是一個很連續的過程,但是ChatGPT出圈恰恰是因為它把問答這件事做好了,能讓一個普通老百姓感受到語言模型的威力。
而諷刺的是問答這件事做好,背后的技術能力中我覺得最重要的是RLHF (Reinforcement Learning with Human Feedback) 這個技術,這個技術的賣點恰恰是說我可以用1%的參數量就能達到一個跟之前更大的模型一樣的效果。所以這件事兒其實反倒不是大模型給你帶來的優勢,而是說我可以提升學習的效率,使得我的模型能達到更好的效果。
所以在我看來的話,首先模型學習效率的提升是一個主旋律,在這個主旋律下,當到達了一個閾值以后,它進入到公眾視野,大家就開始說這個事情變得很厲害,它可能突然能改變世界。但是從學術角度看的話,它是一系列的小創新疊加起來產生今天這樣一個效果。
當然,我相信很多人會談Scaling Law,但是這不是今天才發現的,任何非參數模型都有Scaling Law。10 年前我們談Kernel Method,談非參數學習,任何非參數學習里面你都可以說我們的參數量更大,我的學習效果就是更好,這是一個公認的事情,所以我覺得它只是陳述了一個必然現象,但是這個必然現象不應該是我們認為的唯一標準。
《硅谷101》: 那么現在更大的模型出來了,它有在一些方向上表現出更好的效果,在這個過程中,你覺得已經訓練出來的這些技術有沒有可以用到自動駕駛的?因為你的研發分很多個環節,有沒有哪個環節能夠用到大模型,讓它變得更好的?
侯曉迪: 全部環節都能用上。首先我們把大模型打散,不要把大模型當成是一塊大石頭,大模型可能是一把沙子,它里邊有成千上萬的小創新。這里邊幾乎所有的小創新如果能夠擇其善者,它一定能全方位地提升一個公司的科技競爭力。
舉一個具體一點的例子,比如預訓練這件事,對于大模型來講,可能有100篇paper在講它在預訓練過程中的各種奇技淫巧。那傳統的范式是,我先招一個標定團隊,標定1000萬張照片,再把這1000萬張照片放到深度學習里邊,訓練出一個結果來,然后完成一個神經網絡的冷啟動過程。而當這些paper中的各種奇技淫巧都疊加起來以后你會發現,好像我并不需要用傳統的范式了,現在我可以有各種花式的方法降低我的標定成本,提升我對于未標定數據的消化能力。最終使得整體的開發成本降低。
我們并不是應用了大模型,而是應用了比如100個奇技淫巧中的36個,用上了這些小竅門,我們的冷啟動問題就非常低成本高效率地解決了。
《硅谷101》: 所以我理解其實在整個過程里面,你們不僅僅是用模型的結果或者接口,而是你們會去學研究方法,然后看研究方法能夠從根本上去改變哪些問題。
侯曉迪: 誰也不會直接用別人的模型,就你一定得自己搞自己的模型。2012年以后大家都在用神經網絡,那我們也在用神經網絡,但肯定用的是自家的神經網絡,你怎么去訓練呢?訓練的過程里邊有特別多的門道,你怎么把預訓練的數據準備好、你怎么訓練、要買多少張GPU、怎么做能夠讓訓練變得更有效率……這些所有的東西都是創新的一部分。在我看來, 新的時代就是在整個行業生命周期的各個部分,都賦予了我們新的提升效率的手段和新的思路。
四、別用具身智能畫一個很大的餅
《硅谷101》: 當你更著眼于長期的時候,其實短期跟長期之間是有一個平衡的。比如說你要去融資的時候,你有時候階段性的需要沖到一些里程碑,你會覺得有在這兩者之間發生沖突的時候嗎?
侯曉迪: 我覺得戰略就是為了讓這兩者不發生沖突。如果從比較短期來看,那我現在最不該做的就是自動駕駛了。去做機器人,尤其是做兩條腿的機器人現在是很容易融資的。人家一看兩條腿的,具身智能。對,記住我這句話,凡是拿兩條腿兒出來賣的都是騙子,我至今沒有看到兩條腿兒可以產生具體的商業價值。
人形機器人滿足的是一種大家對科幻的幻想,我覺得這就跟會飛的汽車一樣,是由幾十年以來的科幻帶給人類社會的價值,但是科幻從來不是從商業邏輯出發的,科幻是因為酷,所以才被提出來的,這件事情引起你的情感共鳴,但是它從來不是引起你的商業邏輯共鳴。
這個世界的悲慘之處就在于有很多投資人是投情感共鳴的,但是如果你真的作為創業者想把事情做出來,你要做的是商業邏輯上的正確性,這兩者很多時候是矛盾的,我認為最典型的兩個:一個是兩條腿的機器人,一個是會飛的汽車。在科幻里,汽車能夠飛來飛去,但是我們從物理上看,我們的能量儲存、能量使用效率并沒有達到能讓車飛起來的一個狀態。
《硅谷101》: 所以你覺得馬斯克的人形機器人Optimus還有波士頓動力都是騙子?
侯曉迪: 波士頓動力是一個我非常敬佩的長期主義的公司,除了兩條腿,它也有四條腿的機器人。它想先回答的問題是四條腿甚至兩條腿的東西有沒有可能做出來,它是在探索控制論的邊界。所以這么多年它在做的事情是堅持不斷地給自己加難度,去做一個科學探索。
但是我覺得不應該用具身智能突然畫一個很大的餅,我認為我不喜歡的地方就是現在畫的這個餅過大,而這個餅里邊缺失的環節過多,但是大家在評估這個產業時,又會集體性選擇忽視其中缺失的環節,它成為了一個暫時無法證偽的愿景。
如果你看到一個趨勢就不加節制地外推是很愚蠢的,但凡你了解事情更根本的運行規律,并且能從第一性原則出發,實際上就能夠推演出來很多決定性的限制因素。而這些限制因素會幫你更準確地預測未來,于是很多時候你就會看到你預測的未來比別人預測的未來結果要悲觀很多。
但是我的本意并不想過度批判機器人,我覺得現在有很多的任務,我們確實發現了曙光,比如它的泛化能力變得比以前更強了,它能解決更多具體的問題了。但是我想說的是,如果今天就要做兩條腿、并且拿兩條腿作為賣點的機器人,這件事情我是堅決反對的。但是你說這個機器人可以在更大的規模上去替換掉在工廠里擰螺絲的人,這件事我是認同的,而且我覺得這件事在比較近的未來就會發生。
五、世界模型:新瓶裝舊酒
《硅谷101》: 現在全球的自動駕駛到了什么樣的一個水平呢?它面臨的主要問題跟瓶頸是什么?
侯曉迪: 革命進入低潮期,面臨著由加息帶來的純資本問題,但是資本又是很重要的一個問題。資本能澆灌一個行業,行業里邊有了閑錢,人們的創造力就會得到解放,去發現一些可有可無的東西。早期技術的發展和產品的發展可能沒有那么直接相關,很多時候你為了做一個技術,會發現產品最后一團糟,有的時候你為了做一個產品,你發現技術用在了你想象不到的地方。但是在這之后,技術就有可能就會被用在更正確的產品上。
不過這個低潮期跟技術沒什么關系,技術還是穩步甚至加速發展。和大模型領域不同,自動駕駛行業的產品形態已經越來越清晰,這是我認為我過去幾年最大的價值。
《硅谷101》: Sora 出來之后,這種世界模擬器的概念是不是能夠賦能自動駕駛,可以發展得更快?
侯曉迪: 咱們來個長議題,咱們談談世界模型。什么是世界模型呢?世界模型就是新瓶裝舊酒,一九八幾年的時候,機器視覺這個行業誕生的那個時刻, David Marr老師就提出來了一個叫做mid-level representation,他的這個概念也引導我入行,引導我讀完整個本科初步的探索以及博士深入的探索。
在計算機視覺領域,我覺得mid-level representation是我最喜歡的一個議題。mid-level representation 后來也叫internal representation (內蘊表達) 。過了幾年深度學習出來了,大家認為深度學習解決的核心問題是什么呢?其實是表達的問題。于是有一個特別著名的會議在深度學習誕生以后提出來,叫做ICLRA, 這個會本身講的就是the learning of the representation,就是說這個內蘊表達或者內蘊表征是可以被學到的,而且應該被學到,而怎么學就是我們探索的事情。
這件事情不斷地被人包裝,2024年的版本叫做世界模型,但是這個世界模型首先可大可小,它的精度也是可糙可細。所以我覺得世界模型這件事它確實是一個本質問題,但是這個本質問題不新,其實40年前就已經有了,而且確實是40年以來貫穿整個計算機視覺和模式識別發展的核心問題。
但是愚者的原罪在于外推,外推的地方就是說大家談到世界模型就會把它認為是一個可以無限高精度的、無限遠未來的外推模型,這是不對的,這就是我說的錯誤的外推世界模型。對外在世界的內蘊表達,這件事情是我們一直以來的追求,是我們整個行業幾輩幾代人一直以來的追求。但是不要把它的最終形態當成現在已經有的東西。
那我來再說說Sora是什么?Sora是一個學了一套東西,使得它讓你看起來這個東西像那么回事。迪士尼有一部動畫電影叫做《冰雪奇緣》。
這個電影它干的事是什么呢?是當時電影工業CG電腦特效,人們突然提出了一個新的算法,能夠模擬雪這種非牛頓流體的流體力學,雪不是液體,也不是固體,它是一種有一定粘連性,但是又能散開的東西。如果你想用每一個粒子去模擬雪的動態過程的話,那累死了,機器做不了。
但是如果我們找到了一種簡化的近似算法,讓這坨雪看起來像是雪,那我們就覺得這件事情就是計算上足夠便宜,可以用渲染集群渲染出一個動畫片。所以是基于一個算法的創新,做了這個動畫片,就為了這盤醋包了一鍋餃子。可能我說得有點夸張,但是確實《冰雪奇緣》之所以能做出來,背后最大的創新是CG電腦特效的創新,但是這種創新并不能夠讓你用到比如說飛機的流體力學上,它跟真正的物理真實是兩碼事。它所做的只是看起來像是真的。那么,針對Sora,也就是說OpenAI做了一個模擬器,看起來像是真的,但是這件事情不是物理真實。
《硅谷101》: 業界對于自動駕駛的長尾問題,現在還有什么好的方法去解決嗎?
侯曉迪: 我覺得長尾問題其實也是一個偽命題,很高興你們提出來這個問題。在我看來長尾問題,比如說我見到鱷魚怎么處理?我見到大象怎么處理?我見著一個固定翼飛機停在高速公路上,我怎么處理這件事情?大家都覺得它是長尾問題。比如在我的前進路徑上,見到了一個沒見過的物體,我怎么處理?但是如果你把它包裹成了一個更通用的一類問題,它是很好處理的。
比如說我們曾經就見到有固定翼飛機停在高速公路上,那我們的處理方法很簡單,停車對吧?這是好處理的情況,但是其實人們感覺長尾問題很難處理,是很難當場讓這個車做出一個人類經過深思熟慮以后認為最優的操作,再去跟這個場景進行交互,這件事情是難的。
首先機器的感知沒那么難,尤其再加上激光雷達或者雙目視覺以后,各種各樣的問題你都能識別,但是你如何跟他進行交互?如果一個鱷魚來了,一個駱駝來了,一個兔子來了你都要怎么操作?對于這種問題確實是你需要回答的長尾問題,但是我覺得我們的自動駕駛卡車是不需要做這樣的回答的。
如果當你有乘客在自動駕駛轎車里面的時候,你要顧及一個不可能三角,就是交規要滿足乘客的體驗、要滿足路上其他的道路參與者的安全和他們的感受,在這個不可能三角的情況下,確實存在有很多你需要特事特辦的討論。但是我覺得自動駕駛卡車如果在全局平均意義下來講,我們的運營成本是可接受的。運營產生的額外成本,比如我見到飛機停在路邊兒這件事情產生的成本,是能夠被我的每英里成本所消化的,那我覺得這事兒就可以做。
本文來自微信公眾號: 硅谷101(ID:TheValley101) ,作者:泓君、陳茜、侯曉迪