288 億獨角獸即將誕生!復旦才女創業,被黃仁勛和“蘇媽”同時看中
?
「奔向 AGI」欄目聚焦 AI 大模型、AI agent、AI 應用、芯片、機器人等前沿、熱門的 AI 技術和
商業
創新。
又一位華人女性即將在美國 科技 領域書寫新傳奇。
據科技 媒體 The Information 消息,人工智能云服務初創公司 Fireworks AI,正計劃啟動新一輪融資,目標估值達 40 億美元(約合 288 億元人民幣,該估值已包含本輪融資金額)。
目前,知名風投機構 Lightspeed Venture Partners(美國光速創投)與 Index Ventures 等正就領投事宜展開深入磋商。
若此次融資順利達成,Fireworks AI 的估值將在短短一年內實現超 7 倍的飛躍。這也再次凸顯了 投資 機構對 AI 基礎設施領域,特別是推理服務賽道的濃厚興趣。
值得一提的是,這家公司已獲得多家頂級投資機構的青睞。此前,紅杉資本、Benchmark 等硅谷老牌風投,以及英偉達、AMD、Databricks Ventures 和 MongoDB Ventures 等產業資本均已參與其早期融資。
復旦才女 創業
幫企業低成本、高效定制開源大模型
這位復旦計算機系校友正悄然改寫 AI 基礎設施的競爭規則。
喬琳(Lin Qiao)在復旦大學計算機本碩連讀畢業后,便遠赴加州大學圣巴巴拉分校(UC Santa Barbara)攻讀計算機博士學位。
她的職業生涯始于 IBM 擔任研究職位,專注于數據基礎設施和數據庫技術,隨后在 LinkedIn 擔任技術主管,最終在 Meta(原 Facebook)擔任 AI 平臺架構關鍵負責人,曾領導超過 300 人的工程師團隊,主導全球 PyTorch 框架的基礎設施研發及大規模部署。
此后,她帶領團隊成功推動 PyTorch 成為行業標桿的開源框架,并將其部署至 Meta 的全球數據中心、移動設備和 AR/ VR 平臺。
Fireworks AI 聯合創始人兼首席執行官喬琳(Lin Qiao),圖源:The Information
這段在科技巨頭打磨的經歷,為喬琳積累了深厚的 AI 底層架構研發經驗。
作為全球主流開源機器學習框架 PyTorch 的關鍵建設者,她帶領團隊攻克的技術難題,如今正轉化為 Fireworks AI 的核心競爭力。
當年在 Meta,喬琳見證了一個重要規律:PyTorch 之所以能在數十個同類框架競爭中勝出,關鍵在于 " 把復雜留給團隊,把簡單帶給用戶 " 的設計哲學。
盡管背后是數百名工程師構建的復雜技術體系,但開發者只需簡單調用即可獲得強大功能——這種用戶體驗至上的理念,成為她創立 Fireworks AI 的初心。
" 真正的創新不在于功能堆砌,而在于讓技術回歸本質。" 喬琳將這種思考注入創業實踐。
2022 年,Fireworks AI 在美國加州雷德伍德市創立。Fireworks AI 的創始團隊堪稱 " 夢之隊 ":六位參與過 Meta PyTorch 項目的資深工程師與一位前谷歌 AI 專家組成核心技術班底,他們延續著喬琳在 PyTorch 時期沉淀的方法論——前端保持極致簡潔,后端承載海量優化。
Fireworks AI 創始團隊,圖源:Fireworks AI 官網
就像當年 Meta 投入數百名工程師構建 PyTorch 生態卻讓開發者感受不到復雜度那樣,Fireworks AI 團隊默默攻克著分布式推理引擎等 8 萬多種配置組合的技術難關,卻將流暢體驗留給終端用戶。
在喬琳看來,當前 AI 領域的變革深度遠超以往任何技術革命。" 這不僅是簡單的產業升級,而是整個技術底座的地殼重構。"
她敏銳洞察到生成式 AI 帶來的范式轉移:傳統機器學習時代,企業需要從零搭建模型;而通用人工智能(GenAI)的出現,讓創新焦點從 " 構建 " 轉向 " 應用 "。
這種轉變催生了爆炸式的市場機遇——全球 AI 初創企業如雨后春筍般涌現,傳統企業與數字原生勢力也爭相涌入,試圖通過 AI 重構產品體驗與服務流程。
市場調研顯示,盡管生成式 AI 技術門檻大幅降低,但企業仍面臨基礎設施、專業人才與算力資源的三大瓶頸。
正是瞄準這個廣闊的市場,Fireworks AI 開創了獨特的商業模式—— " 推理服務提供商 "(inference provider)。
Fireworks AI 核心在于幫助企業用更低的成本、更高的效率運行和定制開源大模型,比如深度求索的 DeepSeek、阿里云的 Qwen,還有 Meta 的 Llama。
這些模型原本可能需要企業自己購買 GPU 服務器來運行,但 Fireworks 換了個更靈活的方式——他們租用第三方的英偉達服務器,然后通過 API 接口直接給開發者提供這些開源模型的推理能力。開發者用起來就像調用 OpenAI 的 GPT-4o 一樣方便,不用操心底層服務器的事情。
他們的核心優勢還在于對 GPU 資源做了深度優化:通過自研的 Fire Attention 推理引擎等技術,能讓模型推理更快、更省資源,最終幫助客戶降低使用成本。
在這背后,是喬琳對行業趨勢的深刻判斷。
" 當基礎模型的質量與規模逐漸趨同時,企業級差異化競爭的關鍵,在于如何用專有數據鍛造獨特價值。"
她指出,無論是開源還是閉源的大語言模型,其底層架構與數據邊界終將收斂,而真正構筑護城河的,是如何通過模型微調將企業的商業模式、運營邏輯與 AI 能力深度融合。
這正是 Fireworks AI 致力解決的核心命題——讓每家企業都能基于自身數據土壤,培育出獨具競爭力的 AI 應用之花。
讓 AI 編程工具效率起飛
說句話就能讓 AI 改好代碼
具體來說,Fireworks AI 的產品體系分為多個技術層級,最底層是自研的分布式推理引擎,這個引擎是專門為生成式 AI 打造的,就像是為 PyTorch 量身定做的推理基礎設施。
這個引擎設計得非常靈活,像搭積木一樣可以自由組合,這樣 Fireworks AI 就能在新開源模型發布的當天就快速上線。
之所以能做到這么快,是因為 Fireworks AI 借鑒了 PyTorch 的設計理念,把系統做得模塊化且可靈活配置。
在服務模式上,Fireworks AI 不會用 " 一刀切 " 的方案——不存在一個能解決所有問題的萬能模型,也不會有適合所有使用場景的最佳配置。
每個用戶的需求都不一樣,就像買衣服要選合適的尺碼一樣,Fireworks AI 為用戶提供的是可以根據質量、速度和成本這三個維度來定制的解決方案。
比如有的用戶更看重回答質量,有的需要更快的響應速度,還有的要考慮成本控制,系統會幫他們找到最適合自己需求的平衡點。
為了實現這個目標,Fireworks AI 開發了一個叫 Fire Optimizer 的工具。這個工具就像是個智能助手,能根據用戶的具體需求(比如想要更快的響應還是更高的質量),自動調整模型的配置和部署方案。
這個工具通常會在現有的數百個模型中選擇一個合適的,然后通過各種方法來優化,比如:
1. 量化技術:用更低的精度運行模型(比如用 8 位甚至 4 位數字代替原來的 16 位),這樣能大幅提升計算效率,就像把高清視頻壓縮成流暢的短視頻一樣;
2. 推測執行:讓模型一次預測多個答案(比如一次猜 4 個詞而不是 1 個),使推理速度成倍提升;
3. 模型組合:用小模型先快速給出答案,如果不確定再讓大模型來確認,兼顧效率與準確性。
這些優化方法有很多細節和技巧,比如量化可以應用在模型的不同部分(權重、激活值等),每種方法對最終結果的影響都不一樣,需要根據用戶的具體需求來選擇。
雖然這些選項聽起來有點復雜,但 Fireworks AI 的目標就是讓用戶不必操心這些技術細節,系統會自動幫他們找到最好的解決方案。
商業化上,Fireworks AI 近期的年化收入已經突破 2 億美元(約合 14 億元人民幣),即每月近 1,700 萬美元(約合 1.22 億元人民幣),公司預計年底將增至 3 億美元(約合 22 億元人民幣)。
其業務擴張離不開本身就在快速增長的 AI 原生應用公司,例如 AI 編程獨角獸 Cursor、AI 搜索獨角獸 Perplexity 等快速崛起的客戶支持。
那么,AI 編程工具 Cursor 是怎么借助 Fireworks AI 的技術,讓寫代碼比普通方法快好幾倍呢?
Cursor 是個專門給程序員用的智能編程工具,能預測你的操作(比如剛改幾行代碼,它就能猜到你下一步想干啥)、用自然語言改代碼(比如跟它說 " 把這部分改成 xxx")、一鍵把生成的代碼丟進文件里用,還能 " 看懂 " 整個項目的代碼并直接幫你改好。
但程序員用這類工具時有個大麻煩:想讓 AI 改一大段代碼(比如幾百行),現有的 AI 模型(像 GPT-4、GPT-4o)經常改得慢、不準,甚至越改越亂,特別影響效率。
為了解決這個難題,Cursor 專門訓練了一個新模型,專門處理 " 快速改代碼 " 的任務(稱作 "Fast Apply"),在 700 億參數的大模型上每秒能生成約 1000 個 token(大概 3500 個字符),比 GPT-4 和 GPT-4o 快多了,訓練數據用的是程序員平時用指令改代碼的輸入和真實操作數據,針對性很強。
不過光有厲害的模型還不夠,還得讓它跑得更快。Fireworks 給 Cursor 提供了底層支持,用了兩個關鍵技術:
一是把 Cursor 的模型部署到自己的推理引擎上,還針對 " 改代碼 " 任務做了性能優化;
二是用了推測解碼技術——普通 AI 生成代碼得一個 token 一個 token 慢慢算,但推測解碼能 " 猜 " 接下來可能出現的多個 token(比如一次猜好幾個詞),然后一次性驗證這些猜測對不對,對的就直接用,錯的再調整,這樣就能同時處理好多 token,速度直接起飛。
Cursor 還搞了個升級版 " 推測編輯 ",專門針對改代碼的場景,比如改一大段文字時,AI 能根據你之前的操作大膽猜 " 你可能想把這幾行改成 xxx",然后一次性生成好長一段再快速驗證,Fireworks 用這個技術讓 Cursor 的模型速度飆到每秒 1000 個 token,比普通推理快 13 倍,比之前用 GPT-4 的版本也快了 9 倍。
效果就是程序員改幾百行代碼幾秒鐘就能出結果,不用等半天,而且雖然猜得快,但最后還會用 " 嚴格模式 " 檢查一遍,確保代碼是對的。
可以說,如今程序員點個按鈕就能把 AI 生成的代碼直接丟進項目里,或者一句話讓 AI 改好代碼,效率直接拉滿。
英偉達投資 Fireworks AI 后
親自殺入推理服務
當前競爭格局中,Fireworks AI 的直接對手包括 Together AI 和 Baseten。
以 Together 為例,其今年 3 月年化營收達 1.5 億美元(約合 11 億元人民幣),即每月約 1250 萬美元(約合 9000 萬元人民幣),估值 30 億美元(約合 216 億元人民幣)。
但整個賽道面臨更強勁的對手——英偉達今年 3 月收購推理服務商 Lepton 后,強勢推出 GPU 云服務市場,直接切入了 Fireworks AI 的核心業務領域。
投行分析指出,若大型云服務商為降低 AI 訓練推理成本、提供定制化服務而整合產業鏈,這類初創企業很有可能成為潛在收購目標。
同時,Fireworks 也面臨盈利挑戰:雖毛利率約 50%(與同行相當),但低于訂閱制軟件常見的 70% 水平。
這主要因為需預留大量服務器應對需求峰值,同時承受來自 CoreWeave 等 GPU 云商家的低價競爭。為此,公司正通過持續優化 GPU 資源效率提升毛利率至 60%,并將此列為重點戰略方向。
盡管如此,投資機構仍然看好 Fireworks AI 的潛力。
睿獸分析顯示,Fireworks AI 成立至今已經完成共計 7,700 萬美元的兩輪融資。B 輪融資過后,公司估值達到 5.52 億美元(約合 40 億元人民幣),投資方包括紅杉資本、Benchmark 等頂級風投,以及英偉達、AMD、Databricks Ventures 和 MongoDB Ventures 等產業資本。
可以說,喬琳是被英偉達創始人兼 CEO 黃仁勛和 " 芯片女王 "AMD 董事長兼 CEO 蘇姿豐同時看中的創業者。
喬琳透露,FireworksAI 未來一年的核心戰略是強化 Fire Optimizer 系統——該智能優化工具能在模型質量、響應速度、成本之間自動尋找最優解。
目前,Fire Optimizer 已經在響應速度和成本控制上做的足夠好,接下來會特別強化在推理質量上的能力。通過個性化定制,能夠讓模型效果比通用模型或普通 API 強得多,特別是當加入客戶自己的業務數據后,效果會更為出色。
盡管用戶體驗容易被復制,但真正拉開差距的護城河是企業自己積累的數據和用戶使用習慣——這些數據形成的反饋循環特別重要,會直接反哺到他們使用的 AI 模型里。
喬琳預測,2025 年將成為 "Agent 年 " 和 " 開源模型年 "。
各行業將涌現大量解決垂直問題的 AI 智能體,同時開源模型將迎來井噴式發展——就像 DeepSeek 當時發布僅一個月,Hugging Face 上就出現了 500 多個優化版本,還成功將其適配到各種設備和云平臺上,Perplexity 和她的客戶 Linnk 還開發了針對 金融 服務的定制版本。
不過,她也指出,未來最大的挑戰在于:
如何讓快速發展的 AI 智能體和開源模型更好地結合,在最后一公里實現質量優化,為用戶提供更好的實時體驗。這也是 FireworksAI 公司今年要重點解決的問題——簡化開發者在這方面的工作流程。
在4 月紐約舉辦的行業峰會上,喬琳展示了團隊的終極愿景:" 我們賭定那些真正懂產品的開發者。誰能玩轉自己的數據、調教出更聰明的模型,誰就能贏到最后。"
FireworksAI 要做的,就是提供工具與基礎設施,幫助開發者定制模型、注入數據,全面提升推理質量、速度與并發能力——讓每個用心打磨產品的團隊,都能站上 AI 時代的聚光燈下。
來源:創業邦