聊一聊數據報表/數據分析的【對數】日常
“這數不對”
“為什么A這里的數據和B的數據不一致?”
“為什么平時這個數是C今天變成了D?”
“為什么這么高?”亦或是“為什么這么低?”
——【我的對數日常】
一旦有人對某數據提出質疑,就會開始令所有人崩潰的對數。尤其是經營分析會、月度會議期間,數據團隊面臨反復且高頻的折磨,不同需求方不同角度都等著回答和解釋。
(二)對數對數,對的是什么?
2.1? 數據比對的場景
-
新舊指標對比,新指標上線替換就應用
-
全新指標上線,證實數據準確
-
同預期不符或數據波動大,進行數據查驗
-
應用端數據不一致,維度匯總不一致給出解釋
-
數據A和相關數據B不匹配,交叉驗證
...
2.2 數據團隊的心態
2.3 對數對數,對的是什么
(三)?通用可復制的方法
數據比對是描述性分析,即對數據現狀拆解出數據依據。 那么數據比對的過程,就是描述性數據分析的過程,可按以下順序進行:
-
確認分析的目的和思路 -
數據準備、處理及分析 -
撰寫數據結論及報告 下面具體說如何操作,讓觀點可執行 。
3.1 確認分析的目的和思路
3.1.1 假設驗證確認分析思路
3.1.2 數據一致性驗證方式
(1)基礎認識一致性驗證
指標的設計過程:定義、計算公式、統計維度(時間...)、維度含義、屬性定義
指標的技術屬性:技術方式、數據源、更新時間
-
更新時間天然不同,離線為批處理定時調度任務模式,而實時對數據的時序性有要????求,在某些場景并不能保證與離線同等的一致性。
-
計算邏輯無法對齊,離線邏輯相對復雜,支持補償邏輯,實時處理卻相對比較簡單
-
數據源不一致,比如日志在一些場景不能做到完全一致
Example 2: 回款率單位為%,城市結果值求平均并不等于全國數值,也可直接告知業務原因。
(2)正向驗證
-
確認是否是業務正常變動,如大促暴漲、廣告行業的1&2月淡季周期性異常。
-
交叉維度匯總不一致,數據缺失向上匯總記錄的處理方式。
(3)反向驗證
-
任務是否正常?數據是否更新?集群崩潰、任務失敗、任務超時、源數據系統字段變更...
-
處理過程是否正常?數據漂移、數據發散、數據傾斜...
-
業務口徑數據和數據庫數據映射是否一致?不同含義指標取相同名字...
3.2 數據準備、處理及分析
3.3 數據結論及報告
-
哪個數據是準確的?是什么造成了數據差異,數據差異的構成和占比 差異是否合理?
-
是否需要進行修正,計劃、難點分別是什么
-
(2)結果呈現
-
結果數值比對,差異明細,對照過程及明細
-
呈現餅圖 和柱形圖足夠了,柱形圖看差異,餅圖看差異構成
(四) 數據人的下一步
4.1 數據質量
GB/T 36344-2018 數據質量評價標準
Example:
-
完整性: 指數據元素和數據記錄完成性,例如:字段是否存在空值,指標數據維度是否足夠支撐業務分析
-
準確性: 指數據可信度,例如:是否數據正確、格式合規、唯一性、無臟數據
-
一致性: 指相同數據一致性和關聯數據一致性,如:相同指標在不同場景下數值是否一致
-
時效性: 指基于時間段的正確性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以內延時,離線能否保證每天9點定時更新
GB/T 36344-2018 數據質量評價標準-數據質量評價過程
4.2 數據清洗
-
識別數據問題
-
評估問題及解決方案
-
清洗計劃:更正、刪除、合并、替換、補齊...
-
數據應用及周期性質量評估清
-
數據問題是業務數據問題,需要多方人員參與,全面的考慮上下游聯動影響,包括產生數據的、使用數據的...
-
提升源端質量是根本之法,增加系統界面端和數據庫輸入的的限制,如某些字段非空校驗、數據類型校驗、唯一約束等。
-
做好備份!做好備份!做好備份!