英偉達(dá)B300：AI推理的「加速器」，供應(yīng)鏈的「下馬威」

雷鋒網(wǎng) ? 2月前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

近日，黃仁勛讓海外科技圈提早過上了圣誕節(jié)。

由于硅、封裝以及芯片背板的問題，英偉達(dá)的Blackwell GPU曾多次傳出延遲發(fā)布的信息，但這并沒有讓英偉達(dá)的腳步放緩。

在GB200和B200發(fā)布6個(gè)月后，英偉達(dá)就宣布將推出全新的GPU GB300和B300。外界看來似乎是一個(gè)循序漸進(jìn)的過程，但事實(shí)上，這是非常高效的迭代。全新GPU為大模型的推理和訓(xùn)練性能帶來巨大的提升，對(duì)大模型公司和存儲(chǔ)供應(yīng)商來說，無疑是一份巨大的圣誕禮物。

B300是臺(tái)積電4NP工藝（英偉達(dá)定制工藝，屬于5nm制程節(jié)點(diǎn)的一部分）節(jié)點(diǎn)上的一個(gè)全新流片。定制化工藝做了一個(gè)調(diào)整設(shè)計(jì)，專用于計(jì)算芯片，使得B300浮點(diǎn)運(yùn)算比B200高50%，GB300和B300的熱設(shè)計(jì)功耗分別達(dá)到1.4KW和1.2KW，相比之下，GB200和B200的熱設(shè)計(jì)功耗分別為1.2KW和1KW。

此外，B300的內(nèi)存從8-Hi（8層堆疊）升級(jí)到12-Hi HBM3E，每個(gè)GPU的HBM容量增加到288GB，但引腳速度將保持不變，所以每個(gè)GPU的內(nèi)存帶寬仍然是8TB/s。不過，三星并沒有收到黃仁勛帶來的禮物，因?yàn)橹辽僭谖磥淼?個(gè)月內(nèi)，他們都沒有機(jī)會(huì)拿到GB200和GB300的訂單。

GPU卷內(nèi)存的背后，是大模型的下一場(chǎng)戰(zhàn)事「推理」

英偉達(dá)改進(jìn)GPU內(nèi)存的背后，是為滿足OpenAI O3對(duì)推理性能的更高要求。

OpenAI O3采用KVCache技術(shù)對(duì)模型的推理能力進(jìn)行優(yōu)化，即通過緩存注意力機(jī)制中的鍵（Key）和值（Value）來減少冗余計(jì)算，從而提高模型推理的速度。關(guān)鍵就是緩存之前的舊數(shù)據(jù)， 僅對(duì)新輸入的Token進(jìn)行計(jì)算 ，所以對(duì)緩存的性能提出了更高的要求。

下圖是在不同批處理大小下，使用H100和H200兩種GPU處理長(zhǎng)序列時(shí)，Meta開源大模型Llama3.1405B在FP8（8位浮點(diǎn)數(shù)表示法）精度下的處理速度。輸入設(shè)置為1000個(gè)Token，輸出19000個(gè)Token，由此模擬OpenAI o1和o3模型中的思維鏈。

英偉達(dá)B300：AI推理的「加速器」，供應(yīng)鏈的「下馬威」

H100升級(jí)到H200的兩個(gè)改進(jìn)是： 內(nèi)存更高，速度更快。

由于更多的內(nèi)存帶寬（H200 4.8TB/s vs H100 3.35TB/s），在所有可比較的批處理中，交互效率通常提高43%。
H200運(yùn)行比H100更高的批處理，但成本降低了3倍。

內(nèi)存容量提升，在多個(gè)維度都會(huì)產(chǎn)生影響。

由于請(qǐng)求和響應(yīng)之間的等待時(shí)間很長(zhǎng)，推理模型可能會(huì)帶來糟糕的用戶體驗(yàn)。 如果能夠縮短推理時(shí)間，這將增加用戶的付費(fèi)意愿。
3倍的成本差異是巨大的。在中代升級(jí)中，硬件產(chǎn)品能夠?qū)崿F(xiàn)3倍的變化，這在某種程度上，比摩爾定律、黃氏定律或其他所有硬件改進(jìn)速度都要快得多。
在大模型競(jìng)賽中，最具能力和差異化的模型能夠收取顯著的溢價(jià)，頭部模型的毛利率超過70%，而落后模型毛利率低于20%。

當(dāng)然，英偉達(dá)并不是唯一一家可以提高內(nèi)存容量的公司。ASIC同樣可以做到，且事實(shí)上AMD在這方面可能處于更有利的地位，MI300X的192GB、MI325X的256GB以及MI350X的288GB，這些產(chǎn)品的內(nèi)存容量比英偉達(dá)要高。

GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升，在推理中使用NVL72的關(guān)鍵是它使得72個(gè)GPU能夠處理同一個(gè)問題，并共享內(nèi)存，且延遲極低。世界上沒有其他加速器擁有全互聯(lián)的交換連接以及能夠通過交換機(jī)進(jìn)行全約簡(jiǎn)操作。GB200 NVL72和GB300 NVL72為實(shí)現(xiàn)許多關(guān)鍵功能帶來了革命性的變化：

更高的交互性使得思維鏈的延遲更低。
72個(gè)GPU分散KVCache，以實(shí)現(xiàn)更長(zhǎng)的思維鏈（增強(qiáng)智能）。
與典型的8個(gè)GPU服務(wù)器相比，更好的批量大小擴(kuò)展，使得成本更低。
在處理同一問題時(shí)，可以搜索更多的樣本，以提高準(zhǔn)確性，最終提升模型性能。

因此，NVL72的推理性價(jià)比比之前提高了10倍以上，特別是在長(zhǎng)推理鏈上。KVCache占用內(nèi)存對(duì)經(jīng)濟(jì)效益是致命的，但NVL72能夠?qū)⑼评黹L(zhǎng)度擴(kuò)展到10萬以上token并在高批量中進(jìn)行。

英偉達(dá)的「轉(zhuǎn)身」，供應(yīng)鏈的「震動(dòng)」

英偉達(dá)在GB300的設(shè)計(jì)上有很大的改動(dòng)，對(duì)于GB200，英偉達(dá)提供整個(gè)Bianca板（包括Blackwell GPU，Grace CPU， 512GB的LPDDR5X、VRM全部集成在一塊印刷電路板上）以及交換托盤和銅背板。

英偉達(dá)B300：AI推理的「加速器」，供應(yīng)鏈的「下馬威」

對(duì)于GB300，英偉達(dá)不再提供整個(gè)Bianca板，只提供“SXM Puck”模塊上的B300以及BGA封裝上的Grace CPU。HMC（混合內(nèi)存立方體）將由美國初創(chuàng)公司Axiado提供，替換掉了之前的供應(yīng)商Aspeed。此外，交換托盤和銅背板將仍由英偉達(dá)提供。

客戶現(xiàn)在需要自主采購計(jì)算板上其余的組件，外部存儲(chǔ)器將采用LPCAMM模塊，而不是焊接的LPDDR5X，美光或?qū)⒊蔀檫@些模塊的主要供應(yīng)商。

英偉達(dá)B300：AI推理的「加速器」，供應(yīng)鏈的「下馬威」

向SXM Puck的轉(zhuǎn)變，為更多的OEM和ODM提供了參與供應(yīng)計(jì)算托盤的機(jī)會(huì)，以前只有緯創(chuàng)資通和工業(yè)富聯(lián)可以生產(chǎn)Bianca板。在這次供應(yīng)商調(diào)整中， 緯創(chuàng)資通成為最大輸家 ，因?yàn)樗麄兪チ薆ianca板的份額。相對(duì)而言，工業(yè)富聯(lián)雖然失去了Bianca板的份額，但他們是SXM Puck模塊的獨(dú)家制造商，這部分帶來的收益完全可以抵消掉Bianca板帶來的損失。英偉達(dá)雖然想找更多其他的SXM Puck模塊供應(yīng)商，但目前還沒有實(shí)際下單。

另一個(gè)重大變化是VRM（電壓調(diào)節(jié)模塊），雖然SXM Puck上有一些VRM，但大部分的VRM將由超大規(guī)模廠商或者OEM直接從VRM供應(yīng)商處采購。

此外，英偉達(dá)還在GB300平臺(tái)上提供了800G ConnectX-8 NIC（網(wǎng)絡(luò)接口卡），這使得在InfiniBand和以太網(wǎng)上的橫向擴(kuò)展帶寬翻倍。由于上市時(shí)間的影響，英偉達(dá)之前取消了GB200的ConnectX-8，并且放棄了在Bianca板上啟用PCIe Gen 6（PCI Express接口的最新一代標(biāo)準(zhǔn)）。

市場(chǎng)信息表明，GB200和GB300的延遲發(fā)布，給硅谷的大廠們帶來了很大的影響。而這背后傳遞出的信號(hào)是從第三季度，大量訂單轉(zhuǎn)向了GB300。截至上周，所有大廠都決定使用GB300。一部分原因是更高的性能和更大的內(nèi)存，另一方面， 英偉達(dá)已經(jīng)控制了大廠模型訓(xùn)練的命運(yùn)。

受制于產(chǎn)品上市時(shí)間、機(jī)架、冷卻和電源功率密度的重大變化，大廠在服務(wù)器層級(jí)無法對(duì)GB200進(jìn)行太多更改。這導(dǎo)致Meta放棄了希望從博通和英偉達(dá)兩個(gè)渠道采購網(wǎng)絡(luò)接口卡（NICs）的希望，轉(zhuǎn)而完全依賴英偉達(dá)。谷歌也放棄了自家的網(wǎng)絡(luò)接口卡，選擇與英偉達(dá)合作。

硅谷大廠們習(xí)慣了成本優(yōu)化，從CPU到網(wǎng)絡(luò)，再到螺絲和金屬板。

亞馬遜是一個(gè)例外， 定制化讓他們“被迫”選擇了次優(yōu)配置。 由于亞馬遜使用了PCIe交換機(jī)和效率較低的200G彈性織物適配器NIC，無法像Meta、谷歌、微軟、甲骨文、X和Coreweave那樣部署NVL72，因此不得不使用NVL36，這也導(dǎo)致每個(gè)GPU的成本更高，因?yàn)楸嘲搴徒粨Q機(jī)內(nèi)容更多。

GB300的出現(xiàn)為亞馬遜帶來轉(zhuǎn)機(jī)，大廠能夠定制主板、冷卻系統(tǒng)等功能。這使得亞馬遜能夠構(gòu)建自己的定制主板，隨著更多組件采用水冷，以及K2V6 400G NIC在2025年第三季度支持HVM（硬件虛擬化管理），亞馬遜同樣可以使用NVL72架構(gòu)，并大幅改善其總體擁有成本（TCO）。

本文由雷峰網(wǎng) (公眾號(hào)：雷峰網(wǎng)) 編譯自：https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

英偉達(dá)B300：AI推理的「加速器」，供應(yīng)鏈的「下馬威」

隨意打賞