欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

聊一聊數據報表/數據分析的【對數】日常

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  
(一)數據比對的痛

“這數不對”

“為什么A這里的數據和B的數據不一致?”

“為什么平時這個數是C今天變成了D?”

“為什么這么高?”亦或是“為什么這么低?”

——【我的對數日常】

一旦有人對某數據提出質疑,就會開始令所有人崩潰的對數。尤其是經營分析會、月度會議期間,數據團隊面臨反復且高頻的折磨,不同需求方不同角度都等著回答和解釋。

    • 領導:不理解,為什么沒有人能給出來正確的數據?
    • 業務:技術給的結果不準...數據質量差,又不能用...又要自己算...數據量太大算不動
    • 數據團隊:數據不是我錄的、業務數據庫不是我設計的、指標邏輯也不是我定義的、運營邏輯和策略調整對數據的影響我也不知道。 數據根據邏輯加工出來就是這個樣子,不是你想要的,我該解釋什么?

非常無辜,非常無語, 活還是要干!
不考慮模型設計,不講數據治理、制度和流程梳理,不談組織合理性,不談數據意識和數據團隊地位,不與業務 battle。 落在當下,必須要面對的工作面前,只是想聊一聊“ 對數到底應該怎么對? ”,希望通過這篇文章與數據相關從業的朋友聊一聊“ 面對常態化數據質疑的處理方式,在不同的場景下數據團隊的觀點輸出。

(二)對數對數,對的是什么?

2.1? 數據比對的場景

    • 新舊指標對比,新指標上線替換就應用

    • 全新指標上線,證實數據準確

    • 同預期不符或數據波動大,進行數據查驗

    • 應用端數據不一致,維度匯總不一致給出解釋

    • 數據A和相關數據B不匹配,交叉驗證

      ...

2.2 數據團隊的心態

數據技術有門檻,但數據是公司的數據、是業務的數據;數據本身沒有價值,數據脫離業務應用,就只是磁盤上的文件而已。 對數占用了數據團隊大量的時間和精力,消耗耐心和斗志,這種情況下應秉持怎樣的心態? 下面是數據團隊避無可避的問題:
(1)提升團隊數據素養
對數屬于不復雜但大多數人做不好事情,好的數據團隊人人都是數據分析師,具有數據思維,懂業務。清楚業務規則,懂業務數據流向。清楚數據映射的業務流程,識別數據問題的業務構成;遇到問題知道從什么地方分析原因,知道要看什么數據。
(2)提升公司數據意識和數據產品的可信度
數據有天然門檻和屏障,如何拉齊各方的認知?如何方便用戶去使用數據?當不缺數據的時候,如何有效使用數據?如何給用戶呈現數據?
產品思維,數據是結果但對數據的理解是主觀的。如何直觀、不引導的客觀呈現數據?
(3)解放人力實現自動化
化被動為主動,怎樣從無盡的對數中抽離。能提前識別異常、提示變動、給出對照。數據穩定,線下數據走通后,便可以逐步切線上,固化比對邏輯。

2.3 對數對數,對的是什么

對數就是 實際和預期的彌合 為什么A不是B?A是數據部門輸出的數據,B可能是之前某版本的數據、可能是心理預期、可能是某業務線的手工數據、可能是去年同期數據、可能是上個月的數據...
解決方案有幾種:證實“A是對的”,證否“B是錯的”,證實”A/B都是對的,但有cdef造成了兩者的數據差異”。都要 給出結論、對照和明細憑據


(三)?通用可復制的方法

數據比對是有目的的數據分析 著名的咨詢公司Gartner于2013年總結、歸納、提煉出一套數據分析的框架,Gartner把數據分析分為四個層次,分別是:

聊一聊數據報表/數據分析的【對數】日常

描述性分析(Descriptive Analysis) ?-發生了什么?
診斷性分析(Diagnostic Analysis) ? -為什么會發生?
預測性分析(Predictive Analysis) ? ?-什么可能會發生?
處方性分析(Prescriptive Analysis) -該做些什么?

數據比對是描述性分析,即對數據現狀拆解出數據依據。 那么數據比對的過程,就是描述性數據分析的過程,可按以下順序進行:

    1. 確認分析的目的和思路
    2. 數據準備、處理及分析
    3. 撰寫數據結論及報告
      下面具體說如何操作,讓觀點可執行

3.1 確認分析的目的和思路

3.1.1 假設驗證確認分析思路

(1)明確對照項[A-B]
確定問題,明確目標,得出A、B哪個正確?差異原因。首先明確對照項A、B的定義,判斷其定義、口徑、算法是否一致?
(2)對照指標數據流向及構成
對照數據流向,分析數據構成及計算過程
確認比對項,時間、口徑、統計粒度,度量和維度做篩選還是過濾
(3)收集數據進行證 偽推斷,得出結論
準備基礎明細數據,導入excel,通過vlookup、透視表等關聯分析,關系走通,記錄過程數據,提供結果數據。
Example :統計結果比對(數值1vs數據2,差異值)、12明細、差異明細比較
Tips: 明確分析目的和方案前,別急著到處要數,可能費力要了又用不上

3.1.2 數據一致性驗證方式

(1)基礎認識一致性驗證

指標的設計過程:定義、計算公式、統計維度(時間...)、維度含義、屬性定義

指標的技術屬性:技術方式、數據源、更新時間

Example 1: 實時、離線指標不一致屬于正常情況,可直接解釋原因
    • 更新時間天然不同,離線為批處理定時調度任務模式,而實時對數據的時序性有要????求,在某些場景并不能保證與離線同等的一致性。

    • 計算邏輯無法對齊,離線邏輯相對復雜,支持補償邏輯,實時處理卻相對比較簡單

    • 數據源不一致,比如日志在一些場景不能做到完全一致

Example 2: 回款率單位為%,城市結果值求平均并不等于全國數值,也可直接告知業務原因。

(2)正向驗證

    • 確認是否是業務正常變動,如大促暴漲、廣告行業的1&2月淡季周期性異常。

    • 交叉維度匯總不一致,數據缺失向上匯總記錄的處理方式。

(3)反向驗證

    • 任務是否正常?數據是否更新?集群崩潰、任務失敗、任務超時、源數據系統字段變更...

    • 處理過程是否正常?數據漂移、數據發散、數據傾斜...

    • 業務口徑數據和數據庫數據映射是否一致?不同含義指標取相同名字...

3.2 數據準備、處理及分析

(1)數據準備
在分析思路確定的基礎上,準備收集準備數據,可能是:系統導出、數據提取...
(2)數據處理(清洗、轉化、提取、計算)
基礎數據準備完畢,按既定的思路計算、比對,加工需要的可用于分析的數據
(3)數據分析(數據統計、數據挖掘、數據呈現)
比對后發現并分析差異,用適當的分析方法及工具(極大多數場景Excel足夠),對處理過的數據進行分析,提取有價值的信息,形成有效結論

3.3 數據結論及報告

(1)明確結論
    • 哪個數據是準確的?是什么造成了數據差異,數據差異的構成和占比 差異是否合理?

    • 是否需要進行修正,計劃、難點分別是什么

  • (2)結果呈現

數據比對的報告不需要精致,能夠做到邏輯清晰,圖表搭配,層次分明,讓閱讀者一目了然理解差異和差異構成就可以
    • 結果數值比對,差異明細,對照過程及明細

    • 呈現餅圖 和柱形圖足夠了,柱形圖看差異,餅圖看差異構成

      (四) 數據人的下一步


應對被動的數據比對之后,如何化被動為主動,進行常態化的數據監控,不再耗心費力疲于應對,提升數據健康度,對數據異動監控提示,實現數據可用可查有提示可預警。唯一且艱難的道路:
有數據質量標準是基礎,在制定數據質量計劃的標準上,進行周期性的數據質量盤點和數據治理!
這條道路需要數據團隊有決心、信心,有足夠的耐心和體力,去細致打磨適合企業的數據標準,需要對每個數據域、數據實體、數據項,甚至到字段、屬性,定義數據標準,核實數據質量。

4.1 數據質量

聊一聊數據報表/數據分析的【對數】日常

GB/T 36344-2018 數據質量評價標準

Example:

    • 完整性: 指數據元素和數據記錄完成性,例如:字段是否存在空值,指標數據維度是否足夠支撐業務分析

    • 準確性: 指數據可信度,例如:是否數據正確、格式合規、唯一性、無臟數據

    • 一致性: 指相同數據一致性和關聯數據一致性,如:相同指標在不同場景下數值是否一致

    • 時效性: 指基于時間段的正確性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以內延時,離線能否保證每天9點定時更新

聊一聊數據報表/數據分析的【對數】日常

GB/T 36344-2018 數據質量評價標準-數據質量評價過程

4.2 數據清洗

在建立數據規范的基礎上,就可以進行數據質量提升的行動,也就是“數據清洗”。數據清洗,就是從數據庫表中更正和刪除不準確的數據,
(1)數據清洗
    • 識別數據問題

    • 評估問題及解決方案

    • 清洗計劃:更正、刪除、合并、替換、補齊...

    • 數據應用及周期性質量評估清

(2) 數據清 洗實踐要點
    • 數據問題是業務數據問題,需要多方人員參與,全面的考慮上下游聯動影響,包括產生數據的、使用數據的...

    • 提升源端質量是根本之法,增加系統界面端和數據庫輸入的的限制,如某些字段非空校驗、數據類型校驗、唯一約束等。

    • 做好備份!做好備份!做好備份!

4.3 監控預警

監控預警是化被動為主動的方法,可根據數據質量規則制定監控策略,通過數據質量監控工具來提示數據異常或數據波動,來確保對業務數據穩定的掌控感和保證數據的準確性,問題處理的及時性。
質量規則不再多說,可以聊一聊波動性,什么樣的指標波動可以看作是“異常”呢?
指標波動不可怕,數據波動是業務發生的正常情況,業務產生自然會發生數據變化,比如每周的銷售額肯定不一樣,脫離業務場景沒法談數據波動。但像之前都1000w,這周只有200w,是不是就屬于異常狀態?監控可以根據公司業務情況和數據情況來綜合評定,通過絕對值預警、相對值預警兩方面來設定。
具體的方法有:絕對值、同比環比、周期平滑、假設檢驗(3σ原則)、時間序列、算法模型。

4.4 提前準備

在新需求的設計過程中,就提前準備【數據比對】的工作。評估不同線上線下、離線實時的差異,找出可能產生問題的原因并解決,技術架構方案選擇,或預評估差異。

4.5 一些提醒

(1)再次強調:業務、業務、業務

數據必須和業務結合才有意義,熟悉業務才能看到數據背后隱藏的信息。缺乏對行業、公司業務認知,數據應用和數據分析結果都會出現偏離,變成自嗨或者空中樓閣。要懂上下游數據,也要弄清楚公司所在行業結構,對行業的上游和下游的經營情況有大致的了解。
(2)數據敏感度
數據本身是客觀的,但被解讀出來的數據是主觀的。同樣的數據由不同的人分析很可能得出完全相反的結論,所以一定不能提前帶著觀點去分析。
Example :比如指標預警沒有合適方法,可暫定波動值超過5%預警。如果一個變量符合正態分布,則其95%的值會落到均值左右二個方差內。)
(3)迭代化思維
業務是不斷調整和發展的,依托的系統和數據也是不斷迭代變化,相應指標也需要隨著業務不斷調整,更加精確的度量業務。
(4)精細度控制好,不要追求極細
細分是深入的分析的基礎,但不要追求極細,細分意味著復雜,要判斷公司團隊數據意識和業務精細化管理是否到了匹配的階段。

本文被轉載1次

首發媒體 產品壹佰 | 轉發媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 久久99免费视频 | 亚洲成人第一页 | 国产福利视频深夜福利 | 欧美三级中文字幕 | 亚洲乱码国产乱码精品精98 | 欧美成人四级hd版 | www.天天射 | 久久99精品久久久久久久不卡 | 五月综合激情久久婷婷 | 99网| 久久久婷婷 | 日韩在线一区二区三区免费视频 | 狠狠狠地在啪线香蕉 | 99热久久这里只精品国产ww | 国产成人精品999在线 | xxxx免费国产在线视频 | 亚洲国产成人久久精品动漫 | 日韩啊啊啊 | 国产精品久久久久乳精品爆 | 日韩色在线 | 四虎在线精品免费高清在线 | 亚洲免费中文字幕 | 中国特级黄一级真人毛片 | 国产99区| 免费黄片毛片 | 国产成人精品实拍在线 | 日本一区二区三区在线 观看网站 | 亚洲国产精品看片在线观看 | 久久99热国产这有精品 | 九九热最新视频 | 在线中文字幕日韩 | 久久亚洲精品国产精品婷婷 | 国内精品久久久久激情影院 | 久久精品视频16 | 久草b | 欧美日韩片 | 久久久综合香蕉尹人综合网 | 免费精品久久久视频 | 91在线视屏 | 欧美观看一级毛片 | 狠狠躁夜夜躁人人爽天天3 狠狠躁夜夜躁人人爽天天miya |