“100強”制造業企業的VMware遷移實戰
作為中國電子信息100強企業,某制造業企業是一家在 PCB、PCBA、SUB、SIP 等領域具有出色實力的高新技術企業,在電子電路行業起著舉足輕重的作用。
在集團數字化轉型過程中,傳統架構無法滿足業務連續性需求,面臨著業務發展與技術創新的挑戰。為了實現新型數字化業務的需求,集團決定使用深信服超融合基礎設施替換原有的VMware,以適應用戶業務的動態變化和增長需求。
老舊的 VMware 虛擬化平臺已無法滿足業務需求,主要存在以下問題:
缺乏維護: 現有的VMware vSphere 5.1 虛擬化平臺已使用超過10年之久,目前已不再享有官方的維護服務,這意味著平臺可能面臨安全漏洞、兼容性問題以及性能瓶頸,同時缺乏必要的技術支持,這將會對業務和數據帶來風險。
成本問題: VMware對中國大陸用戶的政策調整導致續費和轉向訂閱模式的成本顯著增加。且VMware平臺的相關組件擴容和秒級備份解決方案的成本也相對較高。
業務瓶頸: 隨著業務的持續增長,對計算、存儲和網絡資源的需求日益增加,原有的VMware平臺在處理高并發業務時顯得力不從心。這不僅影響了業務的擴展性和靈活性,還可能導致性能瓶頸,影響用戶體驗和業務效率。
一、 建設方案概述
( 一 ) 建設方案
1. 整體架構升級
本次項目擬采用深信服超融合基礎設施來替換原有的VMware虛擬化平臺,使用超融合建設普通混閃存儲和高性能混閃存儲兩個資源池,同時對接用戶現有的 DELL FC 外置存儲空間,形成一平臺多存儲的融合資源池。從傳統的單一虛擬化升級為私有云資源池架構,優化業務信息系統架構,更好地適應企業業務的動態變化和增長需求。
原 VMware 配置清單如下:
CPU 配置:20×44 C
內存:20×768 G
磁盤信息:Dell FC 存儲約 100T
備注:ESXI 5.1
本次項目深信服配置清單如下:
CPU 配置:77×32 C
內存:77×768 G
磁盤信息:普通混閃集群 1.2P(緩存比 10%)、高性能混閃集群 600T(緩存比 24%)、全閃集群 600T。多套集群用于業務區分(HCI 6.8.0R2)
2. 業務系統遷移策略關鍵業務系統針對性遷移
在進行業務系統遷移時,確保業務連續性和穩定性至關重要。針對SRM、CRM、EKP和PCB_MES等關鍵業務系統進行詳細的業務影響分析來評估每個系統在業務中斷時的潛在影響,并確定它們的RTO和RPO要求,以便制定遷移優先級和資源分配。為了最小化業務中斷,在非高峰時段進行遷移,并采用增量遷移技術來減少對業務的影響,確保遷移過程能夠最大程度地保障業務的連續性和穩定性。
3. 強大的備份機制CDP模塊實現秒級備份
在可靠性方面,本次項目擬采用數據冗余架構,在兩個相距約五公里的數據中心之間搭建起一座數據冗余的橋梁,實現雙活。確保當數據中心出現故障時,業務仍然能夠不間斷運行。同時基于深信服超融合的無代理CDP模塊,實現對重要業務系統的秒級備份。規劃將1T的 IO 日志存放于虛擬存儲,備份數據存放于外置存儲EDS上,在面對突發故障時,能夠迅速從備份中恢復數據,做到RPO =1s。
( 二 ) 方案優勢
1. 高性能與高效能提升系統表現
超融合基礎設施在軟硬件層面深度優化,在計算資源層面更有效地應對企業業務系統的高并發處理需求,加速復雜生產管理系統、設計模擬軟件以及數據分析工具的響應速度,從而極大提高工作效率。存儲方面使用高性能混閃卷和全閃卷來滿足高IO的性能承載需求。
2. 優化資源利用率
通過精細化的資源整合和智能調度機制,顯著提升了資源利用效率,確保了業務系統的靈活性和高效性。這種優化允許不同業務系統根據自身的具體需求動態分配資源,有效避免了資源的閑置和浪費。特別是在業務高峰期,系統能夠自動識別并優先分配資源給關鍵業務,保障其性能穩定和響應迅速。而在業務低谷期,系統則能夠智能回收閑置資源,從而減少能源消耗和降低運營成本。
3. 成本效益優勢,降低軟硬件成本
采用超融合資源池架構簡化數據中心的基礎設施,減少了對多種獨立硬件設備的需求。企業不再需要依賴于傳統的、由單獨服務器、存儲設備和網絡設備構成的復雜組合。這樣的集成化設計不僅降低了硬件采購成本,還減少了因設備多樣性而產生的維護工作和相關費用,不僅降低了企業的總體擁有成本(TCO),還增強了系統的可擴展性和靈活性。
4. 安全保障提升,數據安全增強
內置的安全防護機制和完善的備份策略,確保了企業數據的安全性和完整性。CDP 備份保護機制、數據冗余和雙活架構等措施,有效地防止了數據丟失和損壞,有效解決了用戶在數據保護與安全防護方面的后顧之憂。這對于制造業企業而言,保護了其研發數據、用戶信息、生產工藝數據等重要資產,確保企業的核心競爭力不受影響。
二、 遷移過程
本次遷移工程始于 2023 年初,持續至 2024 年 10 月,歷經近兩年的時間跨度,是一項復雜而艱巨的任務。整個過程可以分為以下幾個主要階段:
( 一 ) 前期準備階段
1. 業務分層設計
在正式開始遷移之前,深信服進行了全面而細致的準備工作。首先,對用戶的業務進行了深入梳理,共識別出 369 臺業務虛機, 并根據業務重要性和可中斷性將其分為三類:
一類業務? 42 ?臺,僅在 重大節假日 窗口可中斷;
二類業務? 59 ?臺,可在 周六日 窗口中斷;
三類業務? 268? 臺,可在 工作日 窗口中斷。
2. 平臺風險分析
VMware源端
深信服對原 VMware 配置進行了詳細分析,識別潛在的風險,制定了科學合理的遷移方案。
遷移前期風險及規避措施
在遷移前期,發現以下問題并提前通知用戶進行風險規避:
(1)部分業務軟件授權與 MAC 地址強關聯,遷移創建時需將網卡 MAC 地址設置一致后再進行遷移。
(2)源業務虛機內部安裝殺毒軟件可能導致 SCMT 的 agent 進程無法運行,遷移時建議退出殺毒軟件后再安裝 agent。
(3)部分老舊業務系統由于系統內核較低無法安裝 agent,需進行無代理遷移。且遷移至目的端后可能出現 SCMT 切換失敗,此時需源端關機進行最后一次增量同步后,再在 HCI 目標端拉起。建議先取消 virtio,正常開機后嘗試安裝 tools。
超融合目的端
提前會進行主動服務adeploy巡檢和資源查看,提前發現和規避風險,確保遷移資源充裕,如果資源不夠,會及時跟用戶以及市場同事進行相應溝通,保障整體遷移。
( 二 ) 分階段遷移階段
1. 三類業務遷移
遷移前期,深信服優先將三類業務遷移至混閃集群。整體采用 SCMT 遷移工具進行點對點遷移,在遷移過程中不影響原有業務并同步增量數據。大多數業務系統采用有代理→免代理業務遷移,遷移穩定、數據傳輸速度快,少部分無法安裝agent的業務采用免代理→免代理業務遷移。在這個階段,需要密切關注遷移進度和資源使用情況,通過主動服務 aDeploy 巡檢并查看資源,確保遷移過程順利進行。若發現資源不足,及時與用戶及市場同事溝通,保障整體遷移順利進行。
2. 二類業務遷移
待三類業務遷移穩定后,深信服開始將二類業務遷移至高性能混閃集群。同樣采用 SCMT 遷移工具,遵循相同的遷移原則和風險規避措施。在這個階段,需要更加注重業務的穩定性和可靠性,確保在遷移過程中不會對用戶的業務造成任何不良影響。
3. 一類業務遷移
在五一、國慶等重大節假日時,深信服將一類業務遷移至全閃集群。由于一類業務的重要性和不可中斷性,在遷移過程中需要格外謹慎,提前做好充分的準備工作,包括與用戶的溝通協調、資源的優化配置以及風險的再次評估和規避。
遷移過程的部分截圖如下:
( 三 ) 重點業務遷移階段
—— 以 PCB_MES 業務系統為例
PCB_MES 業務系統作為用戶的核心業務系統,于 2016 年左右新建,運行著 Oracle 11.2 1T 的核心數據庫單機,采用 Linux 5.0 內核 2.6.18。由于系統無法安裝 SCMT 的遷移代理 agent,只能采用免代理方式進行業務遷移。
整個虛機空間約為 1T,遷移速度約為 80MB/s。在遷移過程中,需要密切關注數據的完整性和一致性,確保不會出現數據丟失或損壞的情況。經過約兩天的時間,完成了大部分數據的遷移。
中午11時33分,執行停庫操作,進行最后一次增量同步后切換。切換至業務拉起驗證時間約為 30 分鐘。在此期間,遭遇了因 Linux 內核版本過低而無法在工具上完成切換的問題。依據前期風險排查與規避手段,深信服在 HCI 中取消 virtio 磁盤后拉起,并進行低版本內核的 tools 安裝,最終成功完成業務遷移。
三、 遷移后的驗證
在完成所有業務的遷移后,深信服對遷移后的系統進行了全面的驗證和優化。
( 一 ) 功能驗證
系統啟動與運行: 確保遷移后的系統能夠正常啟動,各個服務和進程能夠穩定運行,沒有出現死機、崩潰等異常情況。例如,對于服務器,檢查其操作系統是否能夠順利加載,各種服務是否能夠正常啟動,如 Web 服務器、數據庫服務器等。
業務應用功能業務流程完整性: 驗證業務系統的各個功能模塊是否完整,業務流程是否順暢,是否能夠滿足用戶的實際需求。
功能響應速度: 測試業務功能的響應速度,包括頁面加載速度、數據查詢和處理速度等,確保用戶能夠獲得良好的使用體驗。
( 二 ) 數據驗證
數據完整性: 檢查遷移后的數據是否完整,包括數據庫中的表數據、文件數據等,確保數據沒有丟失或損壞。比如,對比遷移前后數據庫中表的記錄數量、數據內容是否一致。
數據一致性: 驗證數據的一致性,確保不同業務系統之間的數據能夠正確交互和共享,沒有出現數據不一致的情況。例如,在涉及多個系統的業務場景中,檢查數據的一致性,如訂單數據在不同系統中的一致性。
四、 業務持續穩定運行
深信服對遷移到HCI的業務應用,通過 云端智能大腦 等智能運維工具,結合線上線下服務協同人機共智的模式實現智能監控,相較于VMware承載,主要優化并解決如下關鍵點:
( 一 ) 構建全棧監控體系
建立涵蓋硬件、云平臺、云主機、數據庫、應用等全棧的監控體系,實現對 IT 基礎設施和業務系統的全方位監測。通過多種監控指標和告警規則,及時發現潛在問題和異常情況。有效減少生產中斷事件發生次數,保障業務連續性,以全年不發生業務中斷為目標進行建設。
( 二 ) 配備專屬服務團隊
為用戶配備專屬線上線下服務經理,建立線上線下協同的故障處置機制,7*24H及時響應用戶問題,協同進行故障排除和恢復。能夠在事件發生前期提前發出預警,識別風險,達到提前介入處理,事先消除風險,規避事件發生。
自2023年初啟動,歷經近兩年的精心規劃與實施,于 2024年10月成功完成業務遷移任務,滿足了用戶存儲雙活和數據保護的核心訴求。該企業業務成功遷移,是深信服在制造業打磨技術方案的有效實踐證明。深信服始終關注各行業用戶替代升級的需求,持續打造有效、穩定的解決方案,為用戶構建自主創新的數字化基礎設施。