欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進(jìn)來看看。  

引言: 數(shù)據(jù)分析師的角色猶如一位大廚,原料有問題,大廚肯定烹飪不出色香味俱佳的大菜,數(shù)據(jù)有問題,數(shù)據(jù)分析師得出的結(jié)論自然也就不可靠。

如果一位大廚,剛剛眉飛色舞地給客人描繪了如何搭配一道色香味俱佳的大菜,甚至連炒菜的手法都一一交代了,當(dāng)大廚備好了各種調(diào)料準(zhǔn)備烹飪時,才發(fā)現(xiàn)所需的主要原料有問題。我們能清晰地看到大廚的臉上的囧字。

數(shù)據(jù)分析師的角色猶如一位大廚,原料有問題,大廚肯定烹飪不出色香味俱佳的大菜,數(shù)據(jù)有問題, 數(shù)據(jù)分析 師得出的結(jié)論自然也就不可靠,再好的數(shù)據(jù)分析方法論也只是建立在失真的數(shù)據(jù)基礎(chǔ)上,苦心構(gòu)建的數(shù)據(jù)體系當(dāng)然也被白白浪費了。

過往的項目中,筆者也時常遇到這樣的情況,客戶用永洪科技的產(chǎn)品做了一些精美專業(yè)的數(shù)據(jù)報告,卻因數(shù)據(jù)不準(zhǔn)而影響了報告的使用價值。

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

本文是重點探討的核心話題是——數(shù)據(jù)治理:

數(shù)據(jù)治理是一項基礎(chǔ)工作,在很多人眼中是一項苦活兒累活兒,但是越是這樣的工作越是不能忽視,基礎(chǔ)打扎實了,上層建筑才會更穩(wěn)固。下面,筆者先從臟數(shù)據(jù)的種類及處理方法談起。

1、臟數(shù)據(jù)的種類及處理方法

首先,我們來了解一下臟數(shù)據(jù)的種類,明白我們可能會面對哪些問題。

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

1. 數(shù)據(jù)缺失:缺一些記錄或一條記錄里缺一些值(空值),或者兩者都缺。原因可能有很多種,系統(tǒng)導(dǎo)致的或人為導(dǎo)致的可能性都存在。如果有空值,為了不影響分析的準(zhǔn)確性,要么不將空值納入分析范圍,要么進(jìn)行補(bǔ)值。前者會減少分析的樣本量,后者需要根據(jù)分析的計算邏輯,選擇用平均數(shù)、零、或者等比例隨機(jī)數(shù)等來填補(bǔ)。如果是缺一些記錄,若業(yè)務(wù)系統(tǒng)中還有這些記錄,則通過系統(tǒng)再次導(dǎo)入,若業(yè)務(wù)系統(tǒng)也沒有這些記錄了,只能手工補(bǔ)錄或者放棄。

2. 數(shù)據(jù)重復(fù):相同記錄出現(xiàn)多條,這種情況相對好處理,去掉重復(fù)記錄即可。但是怕就怕不完全重復(fù),比如兩條會員記錄,其余值都一樣,就是住址不一樣,這就麻煩了,有時間屬性的還能判斷以新值為準(zhǔn),沒有時間屬性的就無從下手了,只能人工判斷處理。

3. 數(shù)據(jù)錯誤:數(shù)據(jù)沒有嚴(yán)格按照規(guī)范記錄。比如異常值,價格區(qū)間明明是100以內(nèi),偏偏有價格=200的記錄;比如格式錯誤,日期格式錄成了字符串;比如數(shù)據(jù)不統(tǒng)一,有的記錄叫北京,有的叫BJ,有的叫beijing。對于異常值,可以通過區(qū)間限定來發(fā)現(xiàn)并排除;對于格式錯誤,需要從系統(tǒng)級別找原因;對于數(shù)據(jù)不統(tǒng)一,系統(tǒng)無能為力,因為它并不是真正的“錯誤”,系統(tǒng)并不知道BJ和beijing是同一事物,只能人工干預(yù),做一張清洗規(guī)則表,給出匹配關(guān)系,第一列是原始值,第二列是清洗值,用規(guī)則表去關(guān)聯(lián)原始表,用清洗值做分析,再好一些的通過近似值算法自動發(fā)現(xiàn)可能不統(tǒng)一的數(shù)據(jù)。

4. 數(shù)據(jù)不可用:數(shù)據(jù)正確,但不可用。比如地址寫成“北京海淀中關(guān)村”,想分析“區(qū)”級別的區(qū)域時還要把“海淀”拆出來才能用。這種情況最好從源頭解決,即數(shù)據(jù)治理。事后補(bǔ)救只能通過關(guān)鍵詞匹配,且不一定能全部解決。

2、BI對數(shù)據(jù)的要求

接下來,我們了解一下BI對數(shù)據(jù)的要求,結(jié)合上面臟數(shù)據(jù)的種類,中間的規(guī)避手段就是數(shù)據(jù)治理。

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

1. 結(jié)構(gòu)化:數(shù)據(jù)必須是結(jié)構(gòu)化的。這可能是句廢話,如果數(shù)據(jù)是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分詞技術(shù)做語義的分析,比如常說的輿情分析。語義分析不像BI的量化分析一樣百分百計算準(zhǔn)確,而是有概率的,人的語言千變?nèi)f化,人自己都不能保證完全理解到位,系統(tǒng)就更不可能了,只能盡可能提高準(zhǔn)確率。

2. 規(guī)范性:數(shù)據(jù)足夠規(guī)范。這么說比較含糊,簡單來講就是解決了上述各類臟數(shù)據(jù)的問題,把所有臟數(shù)據(jù)洗成“干凈數(shù)據(jù)”。

3. 可關(guān)聯(lián):如果想將兩個維度/指標(biāo)做關(guān)聯(lián)分析,這兩個維度/指標(biāo)必須能關(guān)聯(lián)上,要么在同一張表里,要么在兩張有可關(guān)聯(lián)字段的表里。

3、數(shù)據(jù)治理的原則

前面講了臟數(shù)據(jù)的處理方法,但那些都是治標(biāo)不治本的應(yīng)對方法,且需要長期耗費大量時間和人力來做這種痛苦的工作。要想從根本上改善臟數(shù)據(jù)的問題,還是需要做好 數(shù)據(jù) 治理的規(guī)范工作。

簡單來講,數(shù)據(jù)治理就是要約束輸入,規(guī)范輸出。

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

1. 約束輸入:你永遠(yuǎn)想不到用戶會輸入哪些值,所以別給用戶太多發(fā)揮的空間,做好約束工作。該用戶填寫的,系統(tǒng)必須設(shè)置為“必填”;值有固定選項的,一定用列表讓用戶選,別再手工輸入;系統(tǒng)在錄入提交時就做好檢查,格式不對,值不在正常范圍內(nèi),直接報錯的情況必須讓用戶重新輸入;設(shè)計錄入表單時盡量原子化字段,比如上面說的地址,設(shè)計時就分成國家、省、市、區(qū)、詳細(xì)地址等多個字段,避免事后拆分;錄入數(shù)據(jù)保存的數(shù)據(jù)表也盡量統(tǒng)一,不要產(chǎn)生有大量相同數(shù)據(jù)的表,造成數(shù)據(jù)重復(fù)隱患。

2. 規(guī)范輸出:老板看不同人做的報表,同一個“收益率”指標(biāo),每張報表的值都不一樣,老板的內(nèi)心一定是崩潰的,不知該罵誰,只能全罵。排除計算錯誤的情況,一般都是統(tǒng)計口徑不一致造成的。所以要統(tǒng)一語義,做一個公司級別的語義字典(不是數(shù)據(jù)庫的數(shù)據(jù)字典)。所有給人看的報告上的指標(biāo)名稱,都要在語義字典中備案,語義字典明確定義其統(tǒng)計口徑和含義。不同統(tǒng)計口徑的指標(biāo)必須用不同的名詞。如果發(fā)現(xiàn)一個詞已經(jīng)在語義字典中有了,就必須走流程申請注冊一個新詞到語義字典。

4、數(shù)據(jù)治理的落地

臟數(shù)據(jù)的處理需要ETL工具,語義字典不一定要借助系統(tǒng)。事實上,由于這類系統(tǒng)過于復(fù)雜,國內(nèi)鮮見實施成功的案例,用Excel加制度就能達(dá)到很好的效果。

關(guān)于落地推廣策略,說來也簡單,老大拍板說必須實行,再用優(yōu)先話語權(quán)吸引一個部門試點,再橫向擴(kuò)展。哪個部門先落地,哪個部門就能按最符合自己習(xí)慣的用詞來命名指標(biāo),相當(dāng)于占坑。后面的部門都要遵從前人的標(biāo)準(zhǔn),重名但意義不同的指標(biāo)需要另外找詞兒命名。這樣就不怕沒人積極主動。

以上,就是精煉版的數(shù)據(jù)治理方法論。大家都知道這是個苦活,但是筆者還要提醒的是,越晚動手越苦。有了經(jīng)驗以后,做新業(yè)務(wù)系統(tǒng)設(shè)計時,大家就可以充分考慮數(shù)據(jù)治理的規(guī)范了。

文/王桐 永洪科技副總裁

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

個人簡介: 北京航空航天大學(xué)工學(xué)碩士,擁有8年商業(yè)智能領(lǐng)域的產(chǎn)品銷售、市場營銷經(jīng)驗,此前效力于甲骨文和IBM,均在咨詢、銷售崗位擔(dān)任重要職位,曾成功推進(jìn)多個大型項目的實施,在電商、政府、金融、互聯(lián)網(wǎng)等行業(yè)積累了豐富經(jīng)驗。王桐目前主要負(fù)責(zé)產(chǎn)品銷售和渠道拓展,已為上百家企業(yè)用戶提供了完善的數(shù)據(jù)可視化分析解決方案,這些企業(yè)既有寶寶樹等電商領(lǐng)域的明星公司,也有中國移動等傳統(tǒng)巨頭。

作者敬告:

由于時間關(guān)系和水平有限,文中或有不妥之處還請讀者多多諒解。如果希望一起探討數(shù)據(jù)分析方法論和數(shù)據(jù)體系構(gòu)建方法論等相關(guān)話題, [email?protected] [email?protected] ?

數(shù)據(jù)化運營方法論系列:大道至簡的數(shù)據(jù)治理方法論

責(zé)任編輯:王培

隨意打賞

數(shù)據(jù)分析方法論產(chǎn)品運營方法論數(shù)據(jù)化運營分析數(shù)據(jù)化運營運營方法論
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 4hu四虎免费影院www | 国产欧美日韩精品a在线观看 | 国产国产精品人在线视 | 四虎影院网址大全 | 日韩欧美在线播放 | 日日干日日干 | 亚洲精品国产男人的天堂 | 免费看色片 | 91视频国产高清 | 成年人一级毛片 | 五月婷影院 | 888午夜不卡理论久久 | 成人a在线 | 亚洲大胆精品337p色 | 香蕉视频在线观看www | 极品美女aⅴ高清在线观看 极品美女一级毛片 | 一级bbbbbbbbb毛片 | 午夜久久久精品 | 老子影院午夜伦不卡不四虎卡 | 毛片a| 亚洲欧美日韩中文字幕在线一区 | 玖玖草视频 | 五月天婷婷久久 | 亚洲女人逼 | 兽王高清完整在线观看 | 黑人日美女 | 老子影院午夜伦不卡 | 狠狠色婷婷狠狠狠亚洲综合 | 久久影视免费体验区午夜啪啪 | 中文字幕曰韩一区二区不卡 | 免费看黄色片视频 | 日韩一区二区三 | 亚洲黄色在线视频 | 色综合夜夜嗨亚洲一二区 | 偷自拍视频区综合视频区 | 99精品在线免费观看 | 爱爱小视频免费 | 成人国产在线看不卡 | 色综合久久98天天综合 | 久久福利在线 | 欧美高清视频www夜色资源 |