數據化運營方法論系列:大道至簡的數據體系構建方法論
導讀: 很多企業已經意識到,一個系統化的數據體系將是數據化運營的核心支柱。那么,企業該如何清晰地打造自己的數據體系呢?作者將根據多年經驗總結用簡樸的語言告訴讀者一套大道至簡的方法論。
本文講的是“不知道該分析什么”的問題,本文更宏觀,站在公司層面進行講解:
與“不知道該怎么分析”一樣,“不知道該分析什么”同樣是很多人常問的問題之一。事實上,如果知道了方法,雖然不能做到沒有一蹴而就,但是也能明晰如何一步步堅實地打造屬于自己的數據體系路徑。
數據體系構建的路徑簡單來講,就是先梳理出數據指標體系,再將其落地到BI(商業智能,其實叫業務智能更對味)系統里。
一、由上至下地梳理數據指標體系
1、確定目標
這是第一個應該問自己的問題。花大力氣做 數據分析 ,最終為了什么呢?如果這都沒想清楚,那數據體系肯定無從下手。
是想提高用戶活躍度、增加用戶、增加銷量,還是別的什么目標?這么一想,好像我都想要。都想要沒有問題,但是會讓工作的邊界無限蔓延,導致事情無法推進。所以,應該從最關心的那個目標/KPI入手。

那么,什么問題才是我們最需要關心的目標呢?
對于不同領域、不同階段的公司和不同角色的用戶而言,這個問題的答案都不一樣。對于很多公司老板來說,利潤就是他們最關心的目標;對于非售賣產品/服務的公司或政府而言,也許客戶滿意度是最關心的目標;對于交易平臺類公司或早期電商公司而言,利潤不是重點,交易量是最關心的目標。
最關心的目標搞定了,下面是不是可以解決都想要的問題了呢?并不是這樣。大數據帶來的最大一個誤區就是數據量和字段數越多越好。但是,在真正解決具體業務問題時,我們一定是從大數據的全集中切出相關的一個子集來使用的。
對于單人而言,無論是老板還是執行層,同時關注的目標/KPI都不宜過多。同時看幾十個KPI,想象一下也知道會很暈,且耗費時間。
對企業而言確實有很多KPI都是非常重要的。這該怎么辦?可以分解到多人,即不同角色一起協作,每個角色關注自己的目標,所有角色合在一起是公司所有目標/KPI的全集。
假設老板最關注的目標是利潤,利潤=收入-成本,可以將這個目標分解為由銷售總監來關注收入,運營總監來關注成本。當然,并不是說老板不能看收入,而是把常規性的關注目標鎖定在一個可行的范圍之內。
2、分解指標
目標確定了,下一步是分解出相關的指標。
針對目標,需要哪些指標來監控或分析能達成目標呢?比如利潤,相關指標就是收入和成本,當然這太粗了,收入有哪幾類,成本有哪幾類,都應該考慮進去。比如對于零售行業的銷售額,可以分解為客流量、進店率、購買率、客單價和復購率等。
所以,分解的方式有很多種,需要遵循MECE原則(完全窮舉,相互獨立)。
3、細化字段
針對指標的計算公式,涉及到哪些字段,分別在哪些庫的哪些表里,是否需要數據清洗,清洗規則是什么等。
比如購買率,是通過公式“購買人數/進店人數”算出來的,購買人數又是對“客戶ID”進行計數計算得出來的,這些指標涉及到的字段對應到數據庫里哪張表的哪個字段,需要梳理清楚,這部分就需要IT人員或數據庫管理員的介入和配合了。
4、非功能需求
上述第3步完成之后,我們其實已經算是梳理完了指標體系,可以落地了,但為了讓最終形成的數據系統更加完備、友好、可用,還需要一些非功能需求的梳理。
UI:偏好什么樣的展示風格,這點看著無關緊要,但實際上用戶每天都會與數據系統打交道,美觀、體驗好的系統UI會讓用戶更加喜歡。
頁面流:哪些相關指標擺放到同一個報告頁面上,頁面之間的層次關系如何,用戶可以在頁面之間如何跳轉。
權限:誰能看哪些數據范圍,誰能看哪些字段和指標,需要有統一的權限控制,避免出現數據安全問題。
ETL:數據從數據源同步到分析系統的頻率如何,規則如何。
集成:是否需要在界面、預警消息等層面與其它系統進行集成。
性能:看不見摸不著,但是直接決定系統可用性。如果數據量大時需要幾分鐘甚至幾十分鐘才能看到結果,相信這個系統就不會有人愿意用了。
5、系統實施
上述4項完成之后,我們就形成了《數據運營系統需求文檔/實施方案》,即可落地到數據運營系統里,然后,再根據報告頁面數量、數據準備復雜度等確定工作量和時間計劃。
二、由下至上地實施落地到BI系統
1、連接數據
根據需求文檔/實施方案,一步步進行系統搭建工作。這個系統有的企業稱之為大數據平臺,有的企業稱之為BI系統。 大數據平臺 的范疇會更廣一些,但對企業數據化運營而言,BI一定是核心構成。

那么,無論是開發還是基于像永洪科技一樣的第三方工具快速實施,系統搭建的第一步都是連接各個數據源,打通和各個數據源之間的通路。
在 企業 里,數據環境往往是異構的,數據源可能包括數據庫、Hadoop系列平臺、Excel文件、日志文件、NoSQL數據庫、第三方接口等,需要對每種數據源都有快速友好的對接方式。
最終,我們在系統里能看到所需要的各個數據源中所有的表格和字段。
2、數據處理
數據源里的數據往往是有或多或少的不規范性存在的,比如有重復記錄,比如有遺漏的空值,比如有明顯不合理的異常值(比如有2020年的成交訂單),還可能有同一個事物在系統中存在多個名稱的情況。
這些數據如果不做一些處理或稱之為清洗的工作,是會對分析的準確性產生很大影響的,所以需要做些預處理。這個過程往往是最耗時、最枯燥的,但也是十分重要的。
作者提醒:這個環節的問題在 《大道至簡的數據治理方法論》 中有深入探討。
3、數據建模
數據處理好了,下一步就該做數據建模了。
一提到建模,非技術背景的用戶就生畏,覺得高深不可理解。其實建出的模是個什么東西呢?
簡單來講,把多張表關聯到一起,就是一個數據模型。

比如,公司要做績效分析,需要員工的工齡、學歷、項目數、項目金額、項目利潤率等指標,其中工齡、學歷在個人信息表里,項目數、項目金額在項目表里,項目利潤率在財務表里,這三張表有個共同字段“員工編號”,通過這個字段把這三張表關聯起來,這就是一個數據模型,一個績效分析主題的數據模型。
4、制作數據報告
基于建好的數據模型,我們就可以開始制作數據報告了。
數據模型提供了基礎數據和字段,按照需求將它們以公式進行組合,用合適的圖表類型進行展示,將相關指標擺放到同一個報告頁面上,配置好頁面之間的層次關系和跳轉關系。以下是基于永洪科技一站式大數據分析平臺制作的Demo。

5、非功能需求實現
經過第4步之后,我們的數據體系已基本成型,剩下的就是實現上述的各個非功能需求了。這樣,一個完備、友好、可用的數據運營系統就上線了。
上線并不是工作的終點,業務需求時刻都會變化或新增,需要能夠快速迭代調整,數據處理、建模、制作數據報告等操作需要高度工具化,以保證靈活可配置。第三方工具對比自開發的優勢也在這點上體現尤為明顯。
歸根結底,做數據的目的要么是為了提升管理(節流),要么是業務創新(開源)。一個系統化的數據體系將是數據化運營的核心支柱。
文/王桐 永洪科技副總裁

個人簡介: 北京航空航天大學工學碩士,擁有8年商業智能領域的產品銷售、市場營銷經驗,此前效力于甲骨文和IBM,均在咨詢、銷售崗位擔任重要職位,曾成功推進多個大型項目的實施,在電商、政府、金融、互聯網等行業積累了豐富經驗。王桐目前主要負責產品銷售和渠道拓展,已為上百家企業用戶提供了完善的數據可視化分析解決方案,這些企業既有寶寶樹等電商領域的明星公司,也有中國移動等傳統巨頭。
作者敬告:
由于時間關系和水平有限,文中或有不妥之處還請讀者多多諒解。歡迎讀者通 [email?protected] _wangtong與本文作者永洪科技副總裁王桐取得聯絡,一起探討數據分析方法論和數據體系構建方法論等相關話題。

責任編輯:王培