“最狠SaaS服務商”:有贊如何做到99.99%系統穩定性
對軟件服務商來說,系統穩定性的保障一直是一個非常復雜的命題。通常情況下,業界比較優秀的服務商,系統穩定性一般能做到99.9%,而有贊的系統可用性已經做到了接近99.99%,也就是每年僅有0.01%的時間不可用,相當于全年無休,保障隨時可用。
有贊CTO崔玉松曾透露,行業內各種各樣的穩定性治理方式,有贊技術團隊都有過嘗試或者正在嘗試,包括藍綠發布、灰度發布、混沌工程等等治理方式。
為了保證系統穩定性,讓商家在安全穩定的環境下做生意,有贊還做了哪些投入與準備?成為在系統穩定保障上“最狠”的技術服務商?
1、云計算做基礎設施,所有數據備份
?
有贊從 2013 年就開始使用云計算作為基礎設施,幾乎所有的服務都是有備份的。2019年7月份,有贊還為加入“云服務”保障的商家單獨搭建了全新服務器集群,性能相比老集群提升15倍。
2、“跨云”解決方案,雞蛋放在不同籃子里
盡管通過云計算備份了數據,還是不能滿足把一年 365 天的故障降低到一年 5 小時以內的需求。因此,有贊在 2017 年開始制定跨云的解決方案,把騰訊云和 Ucloud 兩個云計算廠商通過幾條光纖直接打通,確保任何一個云計算廠商有問題都不會影響有贊太長時間。
為此,有贊每年都要多付出一倍多的機房成本。
3、機房分區隔離,減少影響商家數量
發生故障的時候,如何減少影響的商家數量?有贊的做法是:給商家分區,區和區之間是相互隔離的,一個區停機只影響自己。有贊會做到根據商家去隔離,每個區之間相對不影響。
4、"護航計劃”,用最狠補償政策向商家承諾
“系統穩定高于一切”是有贊的第一信條。為了讓“系統穩定高于一切”不斷地做到極致,有贊在2017年就推出了“有贊護航”計劃:如果出現核心服務不可用,影響了客戶的生意,就按照不可用時間給予對應102.4倍服務時長的補償——目前該承諾適用于有贊微商城、有贊零售、有贊美業所有產品。這是整個信息服務行業里沒有的最最高規格“承諾”。
5、每月一次系統穩定性演練,模擬處置最真實最極端故障。
雙十一等大促前夕還會增加演練頻次和力度,確保在交易峰值時依然系統穩定。目前,有贊的系統訂單處理速度能達到6萬筆/秒,用戶端頁面打開速度1.05秒。
6、獨有專利的離線收銀技術。
即使遠程服務宕機,依然可以滿足商家基本的收銀需求