基于OpenStack Rocky版本的全球最大規模單一集群實踐,浪潮云海如何做到?
近日,浪潮云海InCloud OpenStack 5.6(ICOS 5.6)完成單一集群規模達500節點的測試,這是目前已知的基于OpenStack Rocky版本的全球最大規模單一集群實踐。
Rocky版本發布于一年前,是目前最新的社區穩定版本。資料顯示,OpenStack開源版本部署達到200個節點時性能會出現明顯下降,達到500節點時其可用性難以保障,能否支撐企業的“大云”需求,一直是業界關注的焦點。因此,浪潮發起了此次基于OpenStack Rocky版本的大規模集群實踐。
從小云到大云的需求演變
OpenStack是當前最流行的云架構開源項目,逐漸成為高速發展企業和成熟企業IT基礎架構的首選解決方案。IDC發布的《2018年SDC市場報告》顯示,政府、通信和媒體、金融占據2018年國內OpenStack市場收入前三位,占整體市場份額67%。
隨著IT基礎設施持續云化,“大云”需求涌現。在大型用戶的OpenStack實踐中,普遍面臨的問題是隨著內外部用戶數量的增長,單一應用和服務的規模變得愈發龐大,可能需要同時部署數百甚至數千臺虛擬機。
如果使用多個小規模集群構建云平臺,應用和服務的跨集群部署、管理、升級會變得異常困難甚至無法實現,因此對單一集群的規模產生了更強烈的需求。
浪潮集團副總裁張東
浪潮集團副總裁張東介紹道,“企業規模擴張到一定程度,經常會出現業務動態變化,很多大規模的應用存在強烈的互聯互通互操作的需求,目前的小集群并不能很好支撐,這也是浪潮做單集群500節點測試的初衷。”
大規模集群的挑戰
“云”本身就意味著大規模部署能力。服務器集群將很多服務器集中起來,通過軟件或硬件連接,協作完成同一個任務。集群可以利用多臺服務器進行并行計算,在客戶端看來就像是只有一臺服務器,集群中的單臺服務器即節點,隨著服務器集群節點數量的擴張,管理的復雜性與難度也隨之增大。
浪潮云海此次完成的單一集群500節點測試中,主要挑戰集中在四方面:LCM(生命周期管理)是否足夠高效;平臺運行是否穩定可靠;數據面/控制面能否滿足SLA;監控運維系統是否準確易用。
本次測試重點圍繞在大規模單一集群云環境下,ICOS 5.6在高可用、高性能和高效率方面的表現。測試結果顯示,在高密度、高并發環境測試中,在系統已有20000虛擬機負載情況下,成功完成負載60%環境下的1000并發虛擬機創建,空載環境下2000并發虛擬機創建。
在高可用方面,測試模擬了整機柜斷電這種現實場景中較為嚴重的情況,在單個機柜負載180虛擬機環境下,實現了5分鐘內疏散完畢,訪問恢復正常。
測試還結合客戶實際應用場景中反饋的對網絡低延遲、低抖動的要求,專門從硬件層、操作系統層到ICOS層做了全棧的優化,最終實現了48小時內時延測試超時率小于10-7,組播丟包率為0,滿足對實時通信有苛刻要求的用戶需求。
不同于此前其他廠商測試,浪潮本次大規模測試是在中國信通院的見證下進行,實踐結果還將以白皮書形式輸出。
張東認為,單一集群規模提升能夠實現更高、更靈活的工作負載,提升云平臺的伸縮性并顯著降低管理復雜度。通過在OpenStack單一集群部署規模上的不斷突破,能夠歐幫助大型企業用戶構建簡單、高速、可擴展的開源云基礎設施,以支撐快速、靈活和大規模的業務創新與部署。
云數據中心操作系統的演化
云計算的發展進入一個相對平靜的時期,很多創新還處在醞釀之中,張東預判,未來資源的多樣性會比現在更加明顯,容器將是一個趨勢。“估計五年之內,有可能跑容器的機器數量與跑虛擬機的機器數量相當。這個過程不會特別快,但趨勢是擋不住的”,張東表示。
計算的發展沒有需求發展快,還只能在現有計算機體系結構上“折騰”,不斷有新的部件比如FPGA、GPU出現,這個體系結構不僅僅是在硬件和軟件層,在云的這一層也有體現。
張東補充道,“云真的像操作系統一樣,在未來一臺裸機上一定帶虛擬層,上面用一個云管平臺,不管是OpenStack、K8S,還是融合在一起的資源調度平臺,下面的硬件資源多種多樣。云的未來,我們認為就是朝著完全替代現在的操作系統的趨勢發展。” 雷鋒網雷鋒網 (公眾號:雷鋒網) 雷鋒網
相關文章:
宿遷上的京東:京東云第一個自建數據中心的背后故事
百度智能云首提“人工智能工業化” 尹世明詳解最全AI to B實踐
對話浪潮云計算高管:云+AI推動智慧計算 云海OS如何洞見趨勢重點發力?
。
