英偉達(dá)B300:AI推理的「加速器」,供應(yīng)鏈的「下馬威」
近日,黃仁勛讓海外科技圈提早過上了圣誕節(jié)。
由于硅、封裝以及芯片背板的問題,英偉達(dá)的Blackwell GPU曾多次傳出延遲發(fā)布的信息,但這并沒有讓英偉達(dá)的腳步放緩。
在GB200和B200發(fā)布6個(gè)月后,英偉達(dá)就宣布將推出全新的GPU GB300和B300。外界看來似乎是一個(gè)循序漸進(jìn)的過程,但事實(shí)上,這是非常高效的迭代。全新GPU為大模型的推理和訓(xùn)練性能帶來巨大的提升,對(duì)大模型公司和存儲(chǔ)供應(yīng)商來說,無疑是一份巨大的圣誕禮物。
B300是臺(tái)積電4NP工藝(英偉達(dá)定制工藝,屬于5nm制程節(jié)點(diǎn)的一部分)節(jié)點(diǎn)上的一個(gè)全新流片。定制化工藝做了一個(gè)調(diào)整設(shè)計(jì),專用于計(jì)算芯片,使得B300浮點(diǎn)運(yùn)算比B200高50%,GB300和B300的熱設(shè)計(jì)功耗分別達(dá)到1.4KW和1.2KW,相比之下,GB200和B200的熱設(shè)計(jì)功耗分別為1.2KW和1KW。
此外,B300的內(nèi)存從8-Hi(8層堆疊)升級(jí)到12-Hi HBM3E,每個(gè)GPU的HBM容量增加到288GB,但引腳速度將保持不變,所以每個(gè)GPU的內(nèi)存帶寬仍然是8TB/s。不過,三星并沒有收到黃仁勛帶來的禮物,因?yàn)橹辽僭谖磥淼?個(gè)月內(nèi),他們都沒有機(jī)會(huì)拿到GB200和GB300的訂單。
GPU卷內(nèi)存的背后,是大模型的下一場(chǎng)戰(zhàn)事「推理」
英偉達(dá)改進(jìn)GPU內(nèi)存的背后,是為滿足OpenAI O3對(duì)推理性能的更高要求。
OpenAI O3采用KVCache技術(shù)對(duì)模型的推理能力進(jìn)行優(yōu)化,即通過緩存注意力機(jī)制中的鍵(Key)和值(Value)來減少冗余計(jì)算,從而提高模型推理的速度。關(guān)鍵就是緩存之前的舊數(shù)據(jù), 僅對(duì)新輸入的Token進(jìn)行計(jì)算 ,所以對(duì)緩存的性能提出了更高的要求。
下圖是在不同批處理大小下,使用H100和H200兩種GPU處理長(zhǎng)序列時(shí),Meta開源大模型Llama3.1405B在FP8(8位浮點(diǎn)數(shù)表示法)精度下的處理速度。輸入設(shè)置為1000個(gè)Token,輸出19000個(gè)Token,由此模擬OpenAI o1和o3模型中的思維鏈。
H100升級(jí)到H200的兩個(gè)改進(jìn)是: 內(nèi)存更高,速度更快。
-
由于更多的內(nèi)存帶寬(H200 4.8TB/s vs H100 3.35TB/s),在所有可比較的批處理中,交互效率通常提高43%。
-
H200運(yùn)行比H100更高的批處理,但成本降低了3倍。
內(nèi)存容量提升,在多個(gè)維度都會(huì)產(chǎn)生影響。
-
由于請(qǐng)求和響應(yīng)之間的等待時(shí)間很長(zhǎng),推理模型可能會(huì)帶來糟糕的用戶體驗(yàn)。 如果能夠縮短推理時(shí)間,這將增加用戶的付費(fèi)意愿。
-
3倍的成本差異是巨大的。在中代升級(jí)中,硬件產(chǎn)品能夠?qū)崿F(xiàn)3倍的變化,這在某種程度上,比摩爾定律、黃氏定律或其他所有硬件改進(jìn)速度都要快得多。
-
在大模型競(jìng)賽中,最具能力和差異化的模型能夠收取顯著的溢價(jià),頭部模型的毛利率超過70%,而落后模型毛利率低于20%。
當(dāng)然,英偉達(dá)并不是唯一一家可以提高內(nèi)存容量的公司。ASIC同樣可以做到,且事實(shí)上AMD在這方面可能處于更有利的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,這些產(chǎn)品的內(nèi)存容量比英偉達(dá)要高。
GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升,在推理中使用NVL72的關(guān)鍵是它使得72個(gè)GPU能夠處理同一個(gè)問題,并共享內(nèi)存,且延遲極低。世界上沒有其他加速器擁有全互聯(lián)的交換連接以及能夠通過交換機(jī)進(jìn)行全約簡(jiǎn)操作。GB200 NVL72和GB300 NVL72為實(shí)現(xiàn)許多關(guān)鍵功能帶來了革命性的變化:
-
更高的交互性使得思維鏈的延遲更低。
-
72個(gè)GPU分散KVCache,以實(shí)現(xiàn)更長(zhǎng)的思維鏈(增強(qiáng)智能)。
-
與典型的8個(gè)GPU服務(wù)器相比,更好的批量大小擴(kuò)展,使得成本更低。
-
在處理同一問題時(shí),可以搜索更多的樣本,以提高準(zhǔn)確性,最終提升模型性能。
因此,NVL72的推理性價(jià)比比之前提高了10倍以上,特別是在長(zhǎng)推理鏈上。KVCache占用內(nèi)存對(duì)經(jīng)濟(jì)效益是致命的,但NVL72能夠?qū)⑼评黹L(zhǎng)度擴(kuò)展到10萬以上token并在高批量中進(jìn)行。
英偉達(dá)的「轉(zhuǎn)身」,供應(yīng)鏈的「震動(dòng)」
英偉達(dá)在GB300的設(shè)計(jì)上有很大的改動(dòng),對(duì)于GB200, 英偉達(dá)提供整個(gè)Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全部集成在一塊印刷電路板上)以及交換托盤和銅背板。
對(duì)于GB300,英偉達(dá)不再提供整個(gè)Bianca板,只提供“SXM Puck”模塊上的B300以及BGA封裝上的Grace CPU。HMC(混合內(nèi)存立方體)將由美國初創(chuàng)公司Axiado提供,替換掉了之前的供應(yīng)商Aspeed。此外,交換托盤和銅背板將仍由英偉達(dá)提供。
客戶現(xiàn)在需要自主采購計(jì)算板上其余的組件,外部存儲(chǔ)器將采用LPCAMM模塊,而不是焊接的LPDDR5X,美光或?qū)⒊蔀檫@些模塊的主要供應(yīng)商。
向SXM Puck的轉(zhuǎn)變,為更多的OEM和ODM提供了參與供應(yīng)計(jì)算托盤的機(jī)會(huì),以前只有緯創(chuàng)資通和工業(yè)富聯(lián)可以生產(chǎn)Bianca板。在這次供應(yīng)商調(diào)整中, 緯創(chuàng)資通成為最大輸家 ,因?yàn)樗麄兪チ薆ianca板的份額。相對(duì)而言,工業(yè)富聯(lián)雖然失去了Bianca板的份額,但他們是SXM Puck模塊的獨(dú)家制造商,這部分帶來的收益完全可以抵消掉Bianca板帶來的損失。英偉達(dá)雖然想找更多其他的SXM Puck模塊供應(yīng)商,但目前還沒有實(shí)際下單。
另一個(gè)重大變化是VRM(電壓調(diào)節(jié)模塊),雖然SXM Puck上有一些VRM,但大部分的VRM將由超大規(guī)模廠商或者OEM直接從VRM供應(yīng)商處采購。
此外,英偉達(dá)還在GB300平臺(tái)上提供了800G ConnectX-8 NIC(網(wǎng)絡(luò)接口卡),這使得在InfiniBand和以太網(wǎng)上的橫向擴(kuò)展帶寬翻倍。由于上市時(shí)間的影響,英偉達(dá)之前取消了GB200的ConnectX-8,并且放棄了在Bianca板上啟用PCIe Gen 6(PCI Express接口的最新一代標(biāo)準(zhǔn))。
市場(chǎng)信息表明,GB200和GB300的延遲發(fā)布,給硅谷的大廠們帶來了很大的影響。而這背后傳遞出的信號(hào)是從第三季度,大量訂單轉(zhuǎn)向了GB300。截至上周,所有大廠都決定使用GB300。一部分原因是更高的性能和更大的內(nèi)存,另一方面, 英偉達(dá)已經(jīng)控制了大廠模型訓(xùn)練的命運(yùn)。
受制于產(chǎn)品上市時(shí)間、機(jī)架、冷卻和電源功率密度的重大變化,大廠在服務(wù)器層級(jí)無法對(duì)GB200進(jìn)行太多更改。這導(dǎo)致Meta放棄了希望從博通和英偉達(dá)兩個(gè)渠道采購網(wǎng)絡(luò)接口卡(NICs)的希望,轉(zhuǎn)而完全依賴英偉達(dá)。谷歌也放棄了自家的網(wǎng)絡(luò)接口卡,選擇與英偉達(dá)合作。
硅谷大廠們習(xí)慣了成本優(yōu)化,從CPU到網(wǎng)絡(luò),再到螺絲和金屬板。
亞馬遜是一個(gè)例外, 定制化讓他們“被迫”選擇了次優(yōu)配置。 由于亞馬遜使用了PCIe交換機(jī)和效率較低的200G彈性織物適配器NIC,無法像Meta、谷歌、微軟、甲骨文、X和Coreweave那樣部署NVL72,因此不得不使用NVL36,這也導(dǎo)致每個(gè)GPU的成本更高,因?yàn)楸嘲搴徒粨Q機(jī)內(nèi)容更多。
GB300的出現(xiàn)為亞馬遜帶來轉(zhuǎn)機(jī),大廠能夠定制主板、冷卻系統(tǒng)等功能。這使得亞馬遜能夠構(gòu)建自己的定制主板,隨著更多組件采用水冷,以及K2V6 400G NIC在2025年第三季度支持HVM(硬件虛擬化管理),亞馬遜同樣可以使用NVL72架構(gòu),并大幅改善其總體擁有成本(TCO)。
本文由雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) 編譯自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。