亞馬遜推出第二代Arm服務器芯片Graviton2，能否快速替代x86？

雷鋒網 ? 5年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

雷鋒網按：數據正在成為越來越重要的資源，但挖掘數據的價值面臨挑戰。這其中，處理器的效率以及成本都非常關鍵，因此看到在大數據和AI時代，越來越多擁有大量數據或提供云服務的公司都相繼推出自研的處理器。亞馬遜就是其中的代表，他們在近日的re：Invent上推出了Arm架構的服務器處理器Graviton2。這是否意味著x86架構處理器將會被替代？

關于re：Invent的更多報道，請查看雷鋒網發自現場的《芯片問世、Outposts上市、SageMaker大更新，AWS如何成為“規則改變者”？》報道。

最終，設計良好的Arm服務器芯片在數據中心中的表現如何將被證明。我們不必等待任何傳統的和新貴服務器芯片制造商說服服務器合作伙伴來構建和支持，軟件合作伙伴也可以加入并證明其堆棧和應用程序可以在芯片上運行。

亞馬遜網絡服務本身就是一個生態系統，它擁有很多自己的堆棧，因此它可以像在拉斯維加斯舉辦的re：Invent上將Graviton2處理器發布后，Marvell，Ampere和其人就可以嘗試跟上。

AWS首席執行官安迪·賈西（Andy Jassy）宣布其與安納布爾納實驗室（Annapurna Labs）共同設計的第二代服務器級Arm處理器，這意味著其向英特爾和AMD清楚地表明了，不需要x86處理器來運行大量工作負載。

使用x86芯片運行工作負載要付出高昂的代價，無論是租用還是購買，這就是AWS要自己設計芯片的重要原因。顯然，這還處于早期，但是，如果有一半的大型或超大規模云服務提供商也效仿并構建Arm Neoverse架構的定制（或勉強定制）版本，并且相當積極，那么X86服務器芯片年發貨量可能會在很短的時間內從X86遷移到Arm（兩到三年）。

微軟毫不掩飾地表示其希望50%的服務器使用Arm處理器，最近已開始在其“ Olympus”機架式服務器內部署Marvell的“ Vulcan” ThunderX2處理器。微軟并沒有透露其部署的規模，但是我們猜測它的數量為數萬個，與其服務器機群中的數百萬臺機器無關。谷歌已經涉足相對大型的Power處理器，并且已經進行了一些部署，但同樣不知道其規模。

有傳言稱谷歌是高通 “ Amberwing” Centriq 2400處理器最大的支持者，并且有傳言稱它可能會基于Arm架構自主設計SmartNIC處理器和服務器，但是鑒于專利授權問題，Google有可能直接使用開源RISC-V指令集。

阿里巴巴在過去三年一直涉足Arm服務器，并于7月宣布了基于RISC-V的玄鐵910芯片。華為海思推出了64核鯤鵬 920，我們認為這是Arm推出的“ Ares” Neoverse N1設計的一種變體，目標客戶可能是中國的超大規模客戶，云服務提供商，電信公司和其他服務提供商。

實際上，我們認為亞馬遜的Graviton2與鯤鵬920類似，它們可能從Arm Ares借用了大量設計。與所有Arm設計一樣，它們不包括內存控制器或PCI-Express控制器，必須從第三方獲得許可。

去年的這個時候，AWS推出了第一代Graviton Arm服務器芯片，具有16個運行在2.3 GHz的vCPU，采用臺積電的16納米工藝。AWS從未確認Graviton處理器是否具有16個不帶SMT的內核或8個帶雙向SMT的內核，但我們認為它不具有SMT，而僅僅是一個的“ Cosmos”內核，是經過調整的Cortex-A72或Cortex-A75內核。

AWS的EC2計算設備上的A1可支持多達32 GB的主內存，并通過其服務器適配器提供高達10 Gb /秒的網絡帶寬，以及高達3.5 Gb /秒的彈性塊存儲（EBS）帶寬。我們認為該芯片只有一個帶有兩個通道的內存控制器，類似于針對超大規模處理器的Intel XeonD。這并不是一個令人印象深刻的Arm服務器芯片，更像是一個強大的智能網卡芯片。

“在AWS的歷史上，一個重大的轉折點是我們收購了Annapurna Labs，這是由一群以色列非常有才華和專業的芯片設計和制造人才組成的團隊，我們決定設計和制造芯片更強性能的芯片。” Jassy在re：Invent的開幕主題演講中解釋道。

“盡管包括我們在內的許多公司已經使用x86處理器很長時間了，英特爾是非常緊密的合作伙伴，并且我們也越來越多地開始使用AMD，如果我們想提高性價比，就意味著我們必須做一些創新。我們與安納布爾納峰團隊合作，我們認為它們可以在性能和真正重要的方面提供有意義的差異，我們認為人們確實在廣泛地做到這一點。他們開始使用的第一個芯片是基于Arm的芯片，我們稱為Graviton芯片，該芯片是我們去年在A1實例中發布的，這是云中第一個基于Arm的實例，這些實例旨在用于擴展工作流，因此是容器化的微服務和Web層應用程序之類的東西。”

A1實例有成千上萬的客戶，但是正如我們過去和現在所指出的那樣，就吞吐量而言，它并不是一個出色的服務器芯片，至少與同類產品相比沒有。AWS知道這一點，其他人也知道。這是一種嘗試。

“當我們啟動A1實例時，我們想知道三個問題，” Jassy繼續說道。“首先是：有人會使用它們嗎？第二個問題是：合作伙伴生態系統是否會加強支持人們使用基于Arm的應用所需的工具鏈？第三個是：我們能否在Graviton芯片的第一個版本上進行足夠的創新，以使您可以使用基于Arm的芯片來處理更廣泛的工作負載？在前兩個問題上，我們感到非常驚喜。可以在幻燈片上看到這一點，徽標的數量，客戶的負載以我們未曾想到的方式使用A1實例，并且合作伙伴生態系統確實以非常重要的方式加強并支持了我們的基本實例。“

”第三個問題，我們是否真的可以在該芯片上進行足夠的創新，我們不太確定，這是我們幾年前開始在第二版Graviton原因的一部分，即使我們正在構建第一個版本，我們不知道是否能夠做到這一點，這可能需要一些時間。”

亞馬遜推出第二代Arm服務器芯片Graviton2，能否快速替代x86？

據我們所知，Graviton2更像是一個吞吐量引擎，并且看起來也可以在核心級別與現代x86芯片保持一致，而單線程性能是衡量標準。

擁有超過300億個晶體管和多達64個vCPU的Graviton2芯片，同樣，我們認為這些是真正的內核，而不是線程數量的一半。我們知道Graviton2是7納米Neoverse N1的變體，這意味著它是Arm為幫助客戶加快速度而開發的“ Ares”芯片的衍生產品。根據Arm的說法，Ares Neoverse N1的最高速度為3.5 GHz，內核沒有內置多線程同步功能，介于2.6 GHz和3.1 GHz之間。

Ares內核具有64 KB的L1指令高速緩存和64 KB的數據高速緩存，并且跨內核的指令高速緩存在芯片上是一致的。Ares設計為每個核心提供512 KB或1 MB的專用L2高速緩存，并且核心復合體具有特殊的高帶寬，低延遲通道，稱為Direct Connect，將內核連接到網狀互連，該互連將片上系統的所有元素連接在一起。按照Arm結合Ares的方式，它可以在單個芯片或整個小芯片中擴展最多128個內核。64核變體具有八個內存控制器和八個I / O控制器，以及32個核心對及其共享的L2緩存。

我們認為Graviton2看起來很像64核Ares參考設計，在其中添加了一些功能。其中一項功能是內存加密，通過啟動時在服務器上生成的256位密鑰完成，并且永遠不會離開服務器。（尚不清楚使用哪種加密技術，可能是AES-256。）

亞馬遜表示，Graviton2芯片的性能是首款Graviton芯片的7倍，浮點性能是2倍。第一統計數據在芯片級別有意義，而第二統計數據必須在核心級別，否則毫無意義。（AWS含糊不清。）從16核升級到64核可為提供4倍的整數性能，而從2.3 GHz升級到3.2 GHz則可提供39％的性能提升，而一直上升到3.5 GHz則可提供另外的50％的性能。最重要的是，整體收益是原來的6倍。

剩下的就是緩存體系結構，每時鐘指令（IPC）和整個層次結構的內存帶寬方面的改進。將浮點向量的寬度加倍很容易且足夠正常。AWS表示，Graviton2芯片的單核高速緩存是其兩倍大，并具有額外的存儲通道（根據定義，它幾乎必須如此），并且這些功能一起使Graviton2的存儲速度比初代Graviton快5倍。坦率地說，令人感到驚訝的是它的速度并沒有超過10倍，特別是如果Graviton2具有8個以3.2 GHz運行的DDR4內存通道時。

有趣的是，AWS將當前M5已經運行的vCPU與即將推出的基于Graviton2芯片的M6g運行的vCPU進行了比較。AWS并未具體說明在哪種實例配置上使用了哪種測試，因此以下數據可能是蘋果、蘋果醬和保齡球的混合體。M5實例基于Intel的24核“ Skylake” Xeon SP-8175 Platinum（主頻為2.5 GHz）；該芯片是為AWS定制的，與庫存的Xeon SP-8176 Platinum部件相比，內核少了四個，時鐘速度（400 MHz）略高。

以下是在每個vCPU的基礎上，Graviton2 M6g與各種工作負載相對于Skylake Xeon SP實例的堆疊方式：

SPECjvm 2008：+ 43％（估計）
SPEC CPU 2017整數：+ 44％（估計）
SPEC CPU 2017浮點數：+ 24％（估計）
Nginx的HTTPS負載平衡：+ 24％
內存緩存：性能提高了43％，延遲更短
X.264視頻編碼：+ 26％
使用Cadence Xcellium進行的EDA模擬：+ 54％

需要指出，這些比較使Arm芯片上的內核與超線程相對應（因此，單線程性能下降，從而提高了芯片吞吐量）。這些都是顯著的性能提升，但是在比較中，AWS不一定會把其最好的Xeon SP放在首位。EC2 C5實例基于“ Cascade Lake” Xeon SP處理器，所有核心睿頻頻率為3.6 GHz，看起來它們有激活了超線程功能的一對24核芯片，可以在單個映像中提供96個vCPU。

R5實例基于Skylake Xeon SP-8000系列芯片（精確到未知），內核運行于3.1 GHz。看起來這些實例還具有一對啟用了HyperThreading的24核芯片。在每個vCPU的基礎上，它們都比M5實例快得多，并且在整個vCPU的吞吐量方面也更具可擴展性。這些C5和R5上的額外時鐘速度很可能會彌補每個vCPU的性能差距。（但也很難確定。）

這里的主要觀點是，我們懷疑這樣是否可以使AWS相比從Intel購買處理器更便宜，如果成本減少20％就足以做到這一點，但是Jassy說，價格/性能優勢約為40％。（大概是在將設計和生產Graviton2的實際成本與我們認為是M5實例中定制Skylake Xeon SP進行比較）。因此，AWS推出了Graviton2處理器以支持Elastic MapReduce（ Hadoop），彈性負載平衡，ElastiCache以及其云上的其他平臺級服務。

對于其他人，Graviton2芯片將提供三種不同的配置作為EC2計算基礎架構服務上的實例：