華為云發布EMS彈性內存存儲服務 打破大模型訓練瓶頸
在華為開發者大會(HDC 2024)上,華為云CTO張宇昕正式發布了EMS彈性內存存儲服務。這一服務主要為了解決當前大模型訓練與推理領域所面臨的“內存墻”挑戰,即單個神經處理單元(NPU)的高帶寬內存(HBM)容量限制,該問題長期制約著AI算力的高效利用。
華為云EMS的創新之處在于它在NPU卡與持久化存儲之間增設了一層彈性內存存儲,運用Memory Pooling專利技術,綜合顯存擴展、算力卸載和以存代算三大策略,有效打破了內存瓶頸。具體來說:
顯存擴展: 大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能將模型參數裝下來進行推理,但是NPU的算力往往利用率不高。EMS將模型參數分層存儲在顯存和EMS,只用了一半的卡,就可存下萬億參數的大模型,NPU部署數量減少50%。
算力卸載 : 大模型推理過程中包括模型計算和KV相關計算,其中KV相關計算的顯存占用很大。EMS將KV相關計算的步驟卸載到EMS,而模型計算仍在NPU中進行,將AI推理性能提升了100%。
以存代算: 大模型推理中為了節省顯存,歷史對話的KV Cache都不會保存,后續推理都只能重新計算,導致新推理的首Token時延超過1秒。現在可以將歷史KV Cache保存在EMS里,供后續推理直接調用。優化后推理首Token時延降低到0.2秒以內,優化了80%。
目前,EMS彈性內存存儲服務已在華為云官網上線,面向開發者與客戶開放。