馬斯克預(yù)言30萬(wàn)億美元的特斯拉機(jī)器人,怎么現(xiàn)在還是“手殘”?
本文來(lái)自微信公眾號(hào): APPSO (ID:appsolution) ,作者:42,題圖來(lái)自:視覺(jué)中國(guó)
特斯拉從來(lái)就不是一家車(chē)企,至少在馬斯克心里不是。
他始終把特斯拉看作一家AI/機(jī)器人公司,而旗下人形機(jī)器人Optimus更是被視作繼自動(dòng)駕駛之后撬動(dòng)下一個(gè)萬(wàn)億美元市場(chǎng)的支點(diǎn)。在近期舉辦的“X Takeover”活動(dòng)上,他也再次描繪了這項(xiàng)技術(shù)的遠(yuǎn)景:
“Optimus的潛在市場(chǎng)規(guī)模可能達(dá)到200億甚至500億臺(tái)……假設(shè)每年生產(chǎn)10億個(gè),每個(gè)售價(jià)3萬(wàn)美元,年收入可能達(dá)到30萬(wàn)億美元。”
這段話承載的愿景足夠宏大,足以改變外界對(duì)特斯拉的市場(chǎng)估值,甚至重新定義“勞動(dòng)力”本身,據(jù)《科創(chuàng)板日?qǐng)?bào)》消息,目前美國(guó)工廠正在實(shí)測(cè)特斯拉第三代人形機(jī)器人,預(yù)計(jì)將在今年面向中國(guó)C端市場(chǎng)推出,將進(jìn)入家庭等消費(fèi)場(chǎng)景,如果不跳票,2026年起將正式量產(chǎn),五年內(nèi)計(jì)劃實(shí)現(xiàn)年產(chǎn)100萬(wàn)臺(tái)。
然而,話不能只聽(tīng)一半,擅長(zhǎng)講故事的馬斯克確實(shí)屢屢兌現(xiàn)預(yù)言,但在人形機(jī)器人這條技術(shù)路徑上,現(xiàn)實(shí)的復(fù)雜性遠(yuǎn)超想象。而這種復(fù)雜性,首先就以最殘酷的方式體現(xiàn)在生產(chǎn)線上。
一、特斯拉人形機(jī)器人工廠里,那些被雪藏的“殘次品”
在今年3月的全員大會(huì)上,馬斯克意氣風(fēng)發(fā)地立下軍令狀:2025年內(nèi)至少要生產(chǎn)5000臺(tái)Optimus,2026年更要達(dá)到前者十倍的年產(chǎn)量。他甚至放話稱(chēng),如果2030年月產(chǎn)量到不了10萬(wàn)臺(tái),他會(huì)感到非常“震驚”。
理想很豐滿,現(xiàn)實(shí)很骨感。上周末,據(jù)外媒The Information援引兩位知情人士消息稱(chēng),目前特斯拉制造的機(jī)器人數(shù)量?jī)H有數(shù)百臺(tái),離千臺(tái)起步的目標(biāo)尚有不小的差距。
在幾天前的財(cái)報(bào)電話會(huì)議上,當(dāng)有分析師詢(xún)問(wèn)Optimus在未來(lái)兩三年是否會(huì)帶來(lái)實(shí)際營(yíng)收時(shí),馬斯克也罕見(jiàn)地打起了太極:“對(duì)預(yù)測(cè)五年后的情況至少有中等信心,但一兩年之后,很難說(shuō)。”不過(guò),他仍堅(jiān)持認(rèn)為,到2030年,特斯拉每年將能夠生產(chǎn)超過(guò)100萬(wàn)臺(tái)人形機(jī)器人。
目標(biāo)指向星辰大海,腳下卻依然泥濘不堪。報(bào)道稱(chēng),自從馬斯克從政壇回歸到自己的舒適區(qū) (商界) 后,他明顯加大了對(duì)Optimus的投入, 但機(jī)械手的技術(shù)瓶頸卻是橫亙?cè)谌诵螜C(jī)器人面前一座難以逾越的大山。
據(jù)知情人士稱(chēng),目前特斯拉仍在持續(xù)打磨新版機(jī)械手,尚未進(jìn)入量產(chǎn)階段。部分基本完工的Optimus模型由于缺少手部或前臂部件,仍被閑置在內(nèi)部設(shè)施中,無(wú)法投入使用。
上周,特斯拉全球首家超級(jí)充電站餐廳在美國(guó)洛杉磯開(kāi)業(yè),Optimus向現(xiàn)場(chǎng)顧客遞送爆米花成了餐廳的熱門(mén)打卡地點(diǎn),馬斯克隨后發(fā)文表示,Optimus將在明年“轉(zhuǎn)正”為送餐員,直接將爆米花送到用戶(hù)車(chē)?yán)铩?/p>
馬斯克自然是有野心,他不希望Optimus只是在工廠完成搬運(yùn)、擰螺絲等重復(fù)性工作,還應(yīng)該能夠演奏鋼琴等樂(lè)器,最終走入千家萬(wàn)戶(hù),而這一切都依賴(lài)于一雙能夠精細(xì)操作、反饋靈敏的“手”。
在帕洛阿爾托的工廠中,特斯拉大約同時(shí)測(cè)試了50臺(tái)Optimus,這些機(jī)器人在人工監(jiān)督下進(jìn)行行走、拾取等基礎(chǔ)操作。但即便如此,在公開(kāi)演示中仍問(wèn)題頻出。
一位參與者回憶,為準(zhǔn)備去年10月的Robotaxi發(fā)布活動(dòng),數(shù)百名員工曾在洛杉磯華納兄弟影業(yè)園區(qū)連續(xù)調(diào)試數(shù)周,卻還是上演了機(jī)器人打翻飲料的名場(chǎng)面,這讓現(xiàn)場(chǎng)多位高管深感沮喪。
技術(shù)瓶頸之外,特斯拉機(jī)器人團(tuán)隊(duì)的穩(wěn)定性也波動(dòng)不斷。 上個(gè)月,在特斯拉任職九年的Optimus工程主管米蘭·科瓦奇宣布離職,并特地發(fā)布聲明強(qiáng)調(diào)對(duì)馬斯克和團(tuán)隊(duì)的支持“堅(jiān)定不移”。但這番此地?zé)o銀三百兩的表態(tài),反而加深了外界對(duì)項(xiàng)目?jī)?nèi)部狀態(tài)的猜測(cè)。
有趣的是,馬斯克在Optimus項(xiàng)目初期曾向團(tuán)隊(duì)坦言,推動(dòng)人形機(jī)器人開(kāi)發(fā)的部分初衷就是為了留住人才,在他看來(lái),當(dāng)自動(dòng)駕駛技術(shù)趨于成熟時(shí),特斯拉也需要有一個(gè)更具挑戰(zhàn)性的項(xiàng)目來(lái)吸引并保留頂尖工程師。
一層又一層的壓力,或許間接催生了特斯拉獨(dú)特的“保密文化”,在加州弗里蒙特的工廠,進(jìn)入Optimus生產(chǎn)區(qū)要過(guò)多重安檢,手機(jī)必須上交。即便是特斯拉內(nèi)部員工,如果不直接參與項(xiàng)目,也對(duì)細(xì)節(jié)一無(wú)所知。
這把雙刃劍也帶來(lái)了新的副作用, 高強(qiáng)度的保密機(jī)制盡管限制了信息泄露,卻也給內(nèi)部招聘造成了阻礙,很多人不了解這項(xiàng)工作的職責(zé)或目標(biāo)。 一位員工回憶,他們對(duì)Optimus的全部了解,僅限于偶爾看到有人背著布滿傳感器的設(shè)備,在辦公區(qū)域緩慢行走。
就目前來(lái)看,對(duì)于一家將AI和機(jī)器人視為未來(lái)核心的公司而言,Optimus的推進(jìn)節(jié)奏比外界預(yù)期更為緩慢。而在量產(chǎn)受阻的背后,真正拉長(zhǎng)進(jìn)度條的,或許正是特斯拉自主選擇、也注定難走的技術(shù)路徑。
二、馬斯克的野心,藏在Optimus的大腦里
1961年,美國(guó)發(fā)明并商業(yè)化了第一臺(tái)工業(yè)機(jī)器人——一臺(tái)名為Unimate的機(jī)械臂,由此開(kāi)啟了制造業(yè)對(duì)機(jī)器人的第一次集體想象。20世紀(jì)80年代,大約有60家美國(guó)公司投入機(jī)器人制造,其中不乏通用汽車(chē)等大廠。
樂(lè)觀情緒在彼時(shí)達(dá)到了頂峰。
卡內(nèi)基梅隆大學(xué)校長(zhǎng)曾在《紐約時(shí)報(bào)》的一篇專(zhuān)欄文章中寫(xiě)道:“無(wú)人工廠時(shí)代已經(jīng)來(lái)臨。”但后來(lái)機(jī)器人頻繁故障,生產(chǎn)線癱瘓,美國(guó)機(jī)器人制造企業(yè)接連倒閉。Unimate最終被瑞士公司收購(gòu),而美國(guó)在工業(yè)機(jī)器人領(lǐng)域的領(lǐng)先地位,也在此后數(shù)十年間相繼被日本和歐洲取代。
一個(gè)甲子過(guò)去,具身智能 (Embodied AI) 的概念重新點(diǎn)燃了人類(lèi)與機(jī)器協(xié)作的想象空間。人形機(jī)器人再次成為全球追逐的“香餑餑”。
2022年,特斯拉發(fā)布初代Optimus原型機(jī),雖然只是勉強(qiáng)學(xué)會(huì)了走路,但總算開(kāi)了個(gè)不錯(cuò)的頭。到2023年底,第二代Optimus手部自由度大升級(jí),還裝上了觸覺(jué)傳感器;靠著自研的執(zhí)行器和視覺(jué)系統(tǒng),行走速度飆升30%,平衡感也有明顯改善。
在幾天前的財(cái)報(bào)電話會(huì)上, 馬斯克還透露第三代Optimus原型將在年內(nèi)亮相 ,目前內(nèi)部仍在改進(jìn)其設(shè)計(jì),使用的是2.5版本。他再次表示,目標(biāo)是在未來(lái)五年內(nèi)將Optimus的年產(chǎn)量提升至100萬(wàn)臺(tái)。
而在造人形機(jī)器人這件事上,特斯拉算是個(gè)“異類(lèi)”。當(dāng)前人形機(jī)器人研發(fā)路線大致分為兩種主流范式。這兩種路線看似涇渭分明,實(shí)則代表了通往通用智能道路上,一個(gè)更激進(jìn)、一個(gè)更務(wù)實(shí)的哲學(xué)分野。
一類(lèi)是特斯拉代表的端到端路線。 它強(qiáng)調(diào)盡可能復(fù)用FSD (自動(dòng)駕駛系統(tǒng)) 的工程體系,以視覺(jué)為主,輔以本體/力學(xué)等傳感 (如足底力矩、手指觸覺(jué)) ,通過(guò)神經(jīng)網(wǎng)絡(luò)直接從感知輸入預(yù)測(cè)控制輸出。
盡管業(yè)內(nèi)普遍仍保留低層控制與安全機(jī)制,特斯拉的策略?xún)A向于將“感知—認(rèn)知—控制”的全鏈路盡可能整合進(jìn)一個(gè)統(tǒng)一的模型中,減少模塊劃分帶來(lái)的人工干預(yù)與系統(tǒng)摩擦。這種思路的底層哲學(xué)是:依賴(lài)數(shù)據(jù)、算力和端到端優(yōu)化,用盡可能短的路徑,把像素輸入直接映射為動(dòng)作輸出——一種工程上的“壓縮路徑”。
另一類(lèi)則是Figure AI為代表的模塊化路線 ,其最顯著的特征是之前與OpenAI聯(lián)手,將頂級(jí)的通用大模型直接作為機(jī)器人的“大腦”,再以VLA (Vision-Language-Action) 為核心架構(gòu)進(jìn)行轉(zhuǎn)化和執(zhí)行。
在年初Figure AI發(fā)布的Helix系統(tǒng)中,其采用了雙系統(tǒng)結(jié)構(gòu):System 2是大模型驅(qū)動(dòng)的“慢腦”,負(fù)責(zé)語(yǔ)義理解與任務(wù)推理;System 1則是高頻率運(yùn)行的“快腦”,以200Hz的控制速率完成對(duì)肢體的精準(zhǔn)執(zhí)行。用大模型理解任務(wù),用小模型完成動(dòng)作,這種結(jié)構(gòu)強(qiáng)調(diào)認(rèn)知分層、控制魯棒性和模塊可替換性。
兩種路線背后,反映的是兩個(gè)問(wèn)題的不同解法:第一,如何處理非結(jié)構(gòu)化環(huán)境?第二,如何在算力、延遲和可靠性之間取得工程平衡?
特斯拉的路線建立在一個(gè)重要前提之上——真實(shí)世界中的多數(shù)任務(wù)是結(jié)構(gòu)化的,尤其在車(chē)間、工廠、配送中心這種高重復(fù)性環(huán)境中,將Optimus率先部署在內(nèi)部工廠環(huán)境中,執(zhí)行重復(fù)性但高頻的任務(wù),借此獲得真實(shí)工作場(chǎng)景下的行為樣本,再用于訓(xùn)練和優(yōu)化下一代模型。
只是一旦放到變化更復(fù)雜的家庭、醫(yī)院、餐廳,這種路線對(duì)未見(jiàn)場(chǎng)景的泛化能力仍待檢驗(yàn)。尤其按照馬斯克的規(guī)劃,Optimus初期將聚焦于高價(jià)值場(chǎng)景,諸如為四肢癱瘓患者提供全天候生活協(xié)助,或用于危險(xiǎn)等任務(wù)場(chǎng)景對(duì)感知、判斷與適應(yīng)能力的要求顯然也更高。
拋開(kāi)具體的技術(shù)路線之爭(zhēng),在“方法論”層面,整個(gè)行業(yè)其實(shí)已經(jīng)浮現(xiàn)出一些清晰的共識(shí),共同勾勒出當(dāng)下具身智能的發(fā)展輪廓。
比如這兩年大火的世界模型正在成為具身智能系統(tǒng)的重要基礎(chǔ)。OpenAI投資的1X Technologies去年發(fā)布了“1X World Model”,這類(lèi)模型以仿真與視頻數(shù)據(jù)為基礎(chǔ),試圖讓機(jī)器人具備“物理直覺(jué)”——不依賴(lài)明確標(biāo)注,也能在復(fù)雜動(dòng)態(tài)中預(yù)判物體行為與人類(lèi)意圖。
其次, 模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合方式正在獲得更多關(guān)注。 在許多國(guó)內(nèi)創(chuàng)業(yè)團(tuán)隊(duì)的路徑中,都能看到RL被重新納入核心系統(tǒng),不是單獨(dú)使用,而是與行為克隆、世界模型協(xié)同,用于訓(xùn)練中的reward shaping和部署后的fine-tuning。
再者,多模態(tài)感知也逐漸成為人形機(jī)器人的“標(biāo)配”能力。從RGB相機(jī)、深度攝像頭、IMU,到觸覺(jué)傳感器、音頻麥克風(fēng)等,越來(lái)越多機(jī)器人正在集成多通道傳感器,以更準(zhǔn)確地理解人類(lèi)語(yǔ)音指令、環(huán)境動(dòng)態(tài)與細(xì)微物理信號(hào)。
特斯拉并不否認(rèn)這些趨勢(shì)的有效性,但馬斯克顯然更堅(jiān)信另一套邏輯: 未來(lái)的神經(jīng)網(wǎng)絡(luò)能力將隨著訓(xùn)練數(shù)據(jù)指數(shù)級(jí)擴(kuò)張而自我進(jìn)化,最終吞噬掉原本“人工拼接”的中間結(jié)構(gòu)。 這一理念與過(guò)去他對(duì)自動(dòng)駕駛的押注如出一轍:相信“路徑越短越好”,相信數(shù)據(jù)和算力終將壓過(guò)一切。
特斯拉自動(dòng)駕駛目前的水平有目共睹,但在人形機(jī)器人這門(mén)難度遠(yuǎn)超自動(dòng)駕駛的學(xué)科中,數(shù)據(jù)的邊界、感知的維度、行為的泛化、執(zhí)行的安全性都遠(yuǎn)比“在車(chē)道上走直線”復(fù)雜得多。行業(yè),也同樣在等待那個(gè)最終的答案。
三、從輪子到雙腿,人形機(jī)器人成了下一個(gè)登月計(jì)劃
正是這種巨大的技術(shù)鴻溝和漫長(zhǎng)的時(shí)間預(yù)期,讓“人形機(jī)器人”這個(gè)詞,超越了單純的產(chǎn)品范疇,成為當(dāng)下科技界公認(rèn)的下一個(gè)“登月計(jì)劃”。從第一天起,特斯拉的人形機(jī)器人策略就明確指向一個(gè)核心目標(biāo):打造一款具備大規(guī)模制造能力的機(jī)器人。
馬斯克也多次在公開(kāi)場(chǎng)合強(qiáng)調(diào),Optimus有望成為特斯拉有史以來(lái)規(guī)模最大的產(chǎn)品。
當(dāng)下的人形機(jī)器人市場(chǎng)正在迅速分化為兩大陣營(yíng): 一類(lèi)是選擇從芯片到算法全面垂直整合的參與者;另一類(lèi)則傾向采用模塊化或?qū)I(yè)化方案,依賴(lài)外部技術(shù)生態(tài)。
后者看似能“博采眾長(zhǎng)”,但現(xiàn)實(shí)已初步給出了答案。Figure AI最初曾試圖通過(guò)與OpenAI合作來(lái)快速提升其大腦能力,而后面分道揚(yáng)鑣的故事我們都知道了,機(jī)器人的大腦不能外包,低級(jí)控制、高頻反饋循環(huán)和物理基礎(chǔ)往往是密不可分的。
因此,行業(yè)的共識(shí)正迅速倒向前者: 最終的制勝策略,必然是類(lèi)似蘋(píng)果的封閉軟硬件生態(tài)系統(tǒng),而能控制整個(gè)技術(shù)棧的公司,將擁有決定性的優(yōu)勢(shì)。 而特斯拉,正是“垂直整合”路線最徹底的信徒。
Optimus本質(zhì)上是特斯拉整車(chē)業(yè)務(wù)的延伸,馬斯克曾將這一戰(zhàn)略比喻為“從帶輪子的機(jī)器人 (汽車(chē)) 到帶腿的機(jī)器人”的進(jìn)化。電池、定制電機(jī)、FSD AI芯片,以及用于訓(xùn)練大模型的Dojo超級(jí)計(jì)算機(jī)——這些來(lái)自整車(chē)體系的技術(shù)正在被移植到人形機(jī)器人中。
甚至在馬斯克更長(zhǎng)遠(yuǎn)的設(shè)想中,Optimus、Neuralink和Grok未來(lái)將逐步形成一套協(xié)同系統(tǒng):Neuralink作為人腦的輸入輸出接口,Grok負(fù)責(zé)解碼大腦信號(hào)中的復(fù)雜意圖,Optimus將這些意圖轉(zhuǎn)化為物理動(dòng)作。
與此同時(shí), 行業(yè)的硬件設(shè)計(jì)也正趨向于應(yīng)用驅(qū)動(dòng)。 早期的人形機(jī)器人更多是為了純粹的性能而設(shè)計(jì),而新一代商業(yè)化機(jī)器人則逐漸達(dá)成共識(shí)。尺寸、自由度與負(fù)載能力均圍繞人類(lèi)尺度的工作環(huán)境設(shè)計(jì),目標(biāo)是在不改造環(huán)境的前提下,直接替代人類(lèi)。
而馬斯克所提出的30萬(wàn)億美元市場(chǎng)預(yù)期,背后對(duì)應(yīng)的其實(shí)是一張更大的生產(chǎn)力賬單:每增加一個(gè)機(jī)器人,就等于給生產(chǎn)力系統(tǒng)引入一個(gè)新的“工人”。如果全球部署100億個(gè)類(lèi)人機(jī)器人,則意味著全球新增100億個(gè)生產(chǎn)單位,從而推動(dòng)GDP實(shí)現(xiàn)指數(shù)級(jí)躍升。在這個(gè)邏輯下,人形機(jī)器人將成為放大社會(huì)生產(chǎn)力的新引擎。
然而,無(wú)論戰(zhàn)略多么清晰、愿景多么宏大,所有入局的機(jī)器人玩家都必須回答那個(gè)最根本的問(wèn)題:人形機(jī)器人,究竟什么時(shí)候才能真正“上崗”?
畢竟哪怕Optimus、Unitree G1、眾擎SE01等機(jī)器人能夠完成芭蕾、回旋踢、斧頭舞、前空翻等高難度動(dòng)作時(shí),但“秀肌肉”不等于能上崗,能跳舞不代表能干活。這兩者之間,仍橫亙著一道巨大的現(xiàn)實(shí)鴻溝。
樂(lè)觀地說(shuō),人形機(jī)器人的未來(lái)依然值得期待。技術(shù)難度也從來(lái)不是放棄的理由。五十年前,人類(lèi)曾被質(zhì)疑是否真能踏上月球;十五年前,沒(méi)人能預(yù)料一塊玻璃會(huì)取代全世界的手機(jī)鍵盤(pán)。
真正改變世界的技術(shù),總是在看似不可能中誕生。通往通用人形機(jī)器人的那條路,是人類(lèi)為自己選擇的又一次“登月計(jì)劃”。
它注定漫長(zhǎng)、復(fù)雜,甚至充滿挫敗。但也正因如此,當(dāng)它最終實(shí)現(xiàn)時(shí),才會(huì)像當(dāng)年的一小步一樣,成為人類(lèi)的一大步。