如何做好數據分析讓運營效率提高100倍?
導師:王武佳,擁有十年社交經驗。原51.com副總裁。擅長利用數據分析使運營工作事半功倍。
大家好,今天晚上很高興來到饅頭商學院,跟大家分享一些做互聯網產品的一些心得,特別是數據分析方面的心得體會、還有一些教訓和經驗。
1、第一個故事
我先跟大家分享兩個故事。第一個故事是關于“中國股票研究中心”的故事。故事是這樣的,1月2號的時候,有一個人叫Peter,Peter收到一封來自“中國股票研究中心”的郵件,向他表示這個月市場會上漲。結果市場果然上漲,前段時間股票不錯,很多人不知道在座的大家有多少買過股票。然后Peter收到這封郵件的時候,他不是很在意,因為大家都知道所謂的元月效應這回事,即好幾年來都是一月份的股價漲的多。到了2月1號的時候,他又收到另外一封郵件,向他表示市場即將下跌,這一次,那封信又給說中了!Peter現在終于開始相信這個研究中心真的是有點水平。3月1號的時候,Peter又收到一封信,情形還是一樣的。
Peter覺得很神奇,他主動聯系對方,希望下個月還能收到同樣的郵件,過了一個月,4月1號郵件如期而至,但這時候這個研究中心表示,前幾封郵件預測太準了,結果引起了證監會的高度重視,他們以后不能再像以前那樣大規模的免費發送郵件了,只能對少數有見識的VIP客戶提供投資建議,而你是非常幸運的一名,獲得了有限的100個VIP購買資格。
你是怎么看待這個“中國股票研究中心”呢?
A、這個肯定是有內幕的,否則怎么可能預測得這么準呢?
B、世界上什么樣的人物都有,估計真的是預測水平高吧。
C、不知道怎么回事,既然這么準,要不買個VIP資格試試吧!
連續幾次收到這樣的郵件,我覺得要是換作在座的任何一個人,估計都會很心動。真實的情況是這樣的,這個所謂的“中國股票研究中心”,他向市場上的非特定對象群發了大概1000封的郵件,然后把這1000封里面分為2組,一組是說告訴他接下來股票會漲,另一組告訴他會跌,每次發送的時候,總有一半的人是收到預測是準的郵件,而另一半的人可能就收到預測是錯誤的郵件。接下來循環同樣發送幾次之后,可能每次連續幾次總有幾個人收到的郵件是始終預測正確的,而Peter就是那個始終預測正確中的一個用戶。
這樣的案例可能大家在其他地方也看到過。他告訴我們一個道理,即在數據分析中你有時候會看到一些數據很穩定地朝一個方向變化,并不一定代表著真相就是這樣的。
2第二個故事
第二個故事,這個故事發生在二戰時候。英國,當時盟軍跟德軍在英國上空進行了慘烈的空戰。但是發現空戰的結果是盟軍受到很大的損失,所以盟軍就希望在自己的戰斗機上增加一些裝甲保護,但是大家都知道飛機的裝甲是不可能無限制的加的,因為裝甲越多,飛機一定是飛得越慢,然后耗油量越大。于是,空軍就請來一些專業的統計學家、數學家,一起來分析看看能從現有的飛機的數據上看看在那些部位增加裝甲是最劃算的。
這個故事的主人公沃德教授就跟空軍一起來到了維修基地,大家做了一輪統計下來之后,發現所有盟軍正在維修基地中維修的轟炸機的機翼上,彈孔是分布的最多。但是發動機艙跟駕駛員座艙的彈孔數是最少的。于是,空軍就比較傾向于希望能夠加強機翼部分的裝甲。在這個時候統計學家就有了跟那個空軍完全不一樣的看法,沃德教授就建議,他覺得應該是加強飛行員座艙跟發動機艙的裝甲,因為那里發現的彈孔最少。
如果是你,你是同意沃德教授的看法呢還是同意空軍的看法?我給出的答案是說我同意統計學家的看法,因為這里涉及到我們數據分析中的一個“幸存者偏差”。大家可以看到,雖然我們統計下來是那個機翼上中彈是最多的,但是實際上大家不要忘了這里我們所選取的樣本并不是所有參與戰斗任務的所有的轟炸機,而只是在維修基地中這些能夠幸存下來的飛機。實際上我們在戰斗過程中大量損失的飛機并沒有在這個維修基地中出現,可能在空中就爆炸了或者怎樣。
統計學上把這個叫做“幸存者偏差”。因為我們在分析數據樣本的時候,只關注那些幸存者的數據。所以這個故事也告訴我們一個道理,做數據分析中選擇樣本是非常重要的。你如果只看到幸存者的樣本,導出來的數據跟結論就是有偏差的。
前面講的這幾個案例可能跟我們的互聯網產品工作都相差比較遠。但是,統計分析的道理不僅是在我們的產品設計中有用,實際上在我們工作生活的方方面面,我們只要帶著數據分析的思維,很多情況下都是非常實用的。
3、如何判斷競爭對手數據的真實性?
接下來繼續講一個跟我們產品分析工作比較相近的一個案例,是一個關于情報分析的一個案例。這個案例的對象是一個比較有名的視頻網站。這個網站在財報中披露到他們網站當年的高清視頻服務的收入1.2億,月均活躍付費的用戶超過70萬人。我們怎么確定財報中的這些數據是真實的呢?大家在平時在工作中也會經常遇到各種各樣的數據,聽到各種各樣的八卦數據,到底是不是真實的呢?比如說,大家經常會聽到說那個什么什么APP,它的最近的活躍又有多少啦,注冊用戶又有多少,每天新增多少用戶啦,或者什么什么產品的訂單數最近又有多少啦,這些數據我們是可以通過一些其他的方法來校驗這是不是真實的。
我們就講這個現在要分析的這個視頻網站的案例。我們經過對他的網站進行研究之后,發現他的會員頻道,這個視頻網站的包月會員頻道上有一個欄目,叫做新增會員。連續24小時,每隔一到兩分鐘,我們就把這個網頁刷新一下,并且截圖,然后把所有出現的用戶名錄入這個表格。
大家可以看PPT上的這樣一個樣本,我們把這些東西都記下來,然后把這些東西整理成一個Excel表。這個案例是幾年前的一個案例,當時是在公司內分享,大家可以看一下,其實道理都是類似的。我當時是12年的時候,3月29號,這個是當時在網絡上一個報道取下來的一個東西,就是3月29號的時候,這個報道中的記者,做了一個連續24小時的監測,從當天早上的九點到第二天早上的九點,取了這么多數據之后,我們會發現,這些數據是非常完整的,也 就是說這些數據有極少量的有斷點存在。比如說這次刷新的最后一名,剛好是下一次刷新的第一名,那就是連續的,沒有斷點的。
我們刷新了24小時發現,這種斷點很少,所以說取得的這個數據的質量還是很高的,然后我們把數據串起來放到Excel里面做了一個分析。最后算下來,這個網站每月的包月的付費的人次不過是9000個人,跟這個公司在財報上披露的70萬人其實相差是非常大的。講這個案例的就是跟大家分析一下,其實大家平時聽到的很多數據啊之類的,都可以用類似的分析方法來去分析。比如說你看一個App里面的說活躍數量啊之類的,有些App是有論壇的,你可以看看這個論壇里面的發帖數、回帖數,跟它官方公布的數據做一個比較,就可以發現很多問題。
4、數據的來源渠道
接下來我們講到具體分析的一些方法,首先數據分析講究一個數據的來源。主要有幾大類的來源,一個就是用戶行為的數據,主要有兩類,一個在Web分析上我們把它叫做點擊流數據,其實手機上也是類似的。我們以前在Web上的時候用百度統計,google統計很多,那在手機上大家都用友盟之類的。還有一個就是數據庫。就是我們跟很多業內的朋友交流,也發現很多大家都在自己的公司里面做了很多這種BI系統來跟蹤用戶的一些數據。其他一些是定量或者定性的一些數據,比如說用戶調研的一些數據,問卷啊,包括競爭對手的一些數據,有了這些數據之后,第二步我們就可以開始分析了。在分析之前,我覺得有一個非常重要的事情就是一定要弄清楚,我們分析這些數據的指標的含義是什么。
5、每個數據指標的含義一定要清晰
舉個例子來說,我們發出了1000萬的郵件,到達率是99.99%,打開率是19%,點擊率是19%,那看過信的人都點擊了,說明設計很棒,效果很好。從點擊的情況來看,80%的客戶都是新訪客,說明我們這次活動對抓取新用戶是非常成功的。唯一的缺陷是我們網站的抓住客戶的能力,訪客來到網站之后,平均的訪問時長只有19秒鐘。我們下一次應該進一步優化這個網站,總體來說我們的營銷活動還是非常成功的,投入了只有20萬,但是追蹤到了200萬的銷售額,我們的ROI是1000%。
假如說你的同事給你發來了這樣一封郵件,跟你說總結近期做的一個活動,得出這樣一個結論,你看了之后會有怎樣的感受。你的理解是不是類似這樣的,發了1000萬的郵件,到達率是99.99%,那到達率是99.99%,是不是意味著有999萬的用戶收到了郵件呢?打開率是19%,那是不是意味著190萬的客戶打開了郵件呢?那點擊率也是19%,那也就是說有190萬的用戶點擊了你的郵件,是不是這樣呢?
所以這樣很自然就推出一個結論說我們所有打開了郵件的客戶都點擊了郵件里面的鏈接,這是不是大家理解的東西呢?后面還說這190萬中有80%都是新用戶,我們達到的效果就是原來的190萬的80%,即152萬的人這些新用戶對我們重新有了一個了解。停留時長是19秒,還有200萬的銷售,那毛利率是20%的話,利潤有40萬,我們才花了20萬的成本卻取得了40萬的利潤,那這個效果是太劃算了。
這個理解究竟對不對呢?我們不能望文生義地區理解一些東西,我們得仔細辨別一下我們這些指標的含義。比如說這里面說的到達率是99.99%,這個到達率本身就有很多含義。一般來說,在郵件營銷中,所謂的到達率是指對方郵件服務器沒有拒收的這樣一個信息。但是,沒有拒收,不代表這個用戶真正收到了你的郵件。因為有的時候,對方郵件服務器認為你是垃圾郵件,實際上并沒有把這個東西投遞到你要的收件人手上,但是他也沒有給你返回錯誤,所以說你在這個數據上統計出來就會得到一個偏高的數據。一般來說,實際上真正的到達率是比我們數據上能看到的要低一些了。理解并且弄清楚這個到達率的定義是很重要的。
打開率是怎么定義的?從字面上理解說打開率就是有多少人打開了郵件,這個地方就要說到一個坑了。我們統計打開率的辦法,技術上的原理是在我們郵件的正文頁面中嵌入了一張一個像素并且透明的圖片。在服務器上,我們統計這個圖片被加載的次數。如果我們弄清楚他的原理我們就知道,圖片的加載次數跟真正打開的數據并不會完全吻合。造成這個差距的原因可能是這個用戶打開郵件的時候是用純文本的方式,看不到我們html頁面,或者說我們的圖片服務器加載得比較慢,可能用戶已經看完了郵件,但是這個一像素的圖片還沒加載完。或者其他原因。總體來說我們實際的打開率應該是會比我們統計到的打開率要高一些的。
了解這些指標定義之后,我們會發現這些東西跟我們想像的望文生義、簡單理解的東西還是有點差別的。在數據分析中,用戶的細分是很重要的,你如果沒有細分,就是沒有認知。你雖然投入只有20萬,但是我們可以跟蹤這20萬里面有多少是新用戶產生的,有多少是老用戶產生的,這樣就會更容易了解我們真實產生的利潤是多少。
6、數據分析三步走
再來說說我們做數據分析一般的步驟會有哪幾步。第一步,我們要了解這些指標的含義跟定義,以及統計的方法,然后我們要找到一個比較合適的指標來衡量我們做這種產品,做這個活動希望達成的目的跟效。
第二步就是研究這些數據,把無效的跟虛假的部分剝離,這個做運營或者做推廣的同學可能會更加有感覺一些。包括我們投放廣告,很多的假量啊之類的,這里面要好好去分析跟剝離的。
第三步就是通過測試或者一些輔助性的指標來計算和長期監控這些數據。通過數據來對產品進行改進,對活動的方案進行調整。
第一個就講到說我要了解這個數字的一個含義定義,然后去理解我們真正所做的活動或者產品。講這樣的一個例子,還是說Peter,案例中Peter在新浪微博上看到菲利普空氣炸鍋這樣的一個產品廣告,點進去之后發現這個空氣炸鍋正在做特價促銷,買東西全場免費,還送一堆贈品,他看到這個東西非常激動。于是就記下了這么一回事。過了兩天,他在上班的時候,忽然想到自己要買個電飯煲,就找到了購物搜索的網站去比下價格,看完這個價格之后覺得不錯,決定去買。但是買的時候很不巧,忘記帶U盾了,所以也沒買成。回家之后打開電腦,打開百度,一個個開始去搜索,搜索這個網站的名字跟電飯煲的名稱,點開第一個鏈接,剛好就是你付費關鍵詞的鏈接,把產品買下來了。
我們看這個案例會發現,用戶購買的流程其實有好幾步,在微博上看到,起到一個曝光的作用;第二步,進到比價網站上進到他的官網又詳細了解,第二步可能是詳細了解;第三步才是需要真正激發用戶購買欲望,促使他下單的這種臨門一腳的步驟。在產品傳播的每一個階段,這些渠道對我們產品都是有意義的,不管是微博還是比價網還是各種各樣的百度搜索。我們發現用戶在購買我們產品的時候,都圍繞了這些渠道,但是我們在把每個渠道的數據拿出來單獨去統計的時候,每個渠道效果好像都不是太好。
比如某個用戶在微博上看了之后,當時并沒有去買。因為當時可能還沒下定購買決心,然后在購物搜索引擎去搜索各類產品的時候,打算下單,但是忘了帶U盾,所以又沒買成。類似這樣的一些情況。當然這個案例本身有些極端。但是我們會發現最終用戶下單是在百度上搜索了你網站的名稱,然后進行購買。最終點擊的是百度的那個SEM的付費搜素鏈接。
從最終結果上來看,百度的SEM的轉化率是最高的。因為不管是從哪個渠道過來的用戶,最終都會在百度上搜索以后再購買。很多用戶都會有這樣的行為。最終會導致我們覺得好像微博效果也不咋樣,那我們就不投微博了。最后還是百度的效果最好,那我們就在百度上投放越來越多的廣告,花越來越多的錢。實際上我們會發現有的時候我們把資源投給那些ROI很高的產品或者渠道,我們整體的ROI反而越來越差。
所以我們在統計跟分析數據的時候一定要了解清楚用戶使用的,接觸我們產品的整個流程跟場景,脫離開場景做數據分析,往往可能會得到一些比較可笑的結論。
第二步就是研究數據,把無效的和虛假的部分剝離開來。在這些數據的研究上,有幾類的異常其實是可以重點關注的:一個是時間上的異常,比如說你作為一個電子商務的網站,是賣母嬰用品的網站,結果在凌晨一兩點的時候,購買量特別大,我覺得這個是有問題的。大部分媽媽一兩點的時候都在陪寶寶,不大可能有時間去上網買東西。你要警惕你購買采購的流量質量是不是有問題。比如行為上的異常等等。
你的自然流量,拿現在的APP或者網站注冊來說,我們現在大部分的APP或者網站注冊都流行用手機號注冊,手機注冊一定會遇到有的人注冊碼發不出去或者多次輸入這樣的情況。在自然流量的用戶中,這種指標應該是相對比較穩定的,比如說有百分之一到二的用戶會重復獲取三次以上的驗證碼。但是你往往發現,在一些假的量上面買到的一些渠道,這個指標上的重試次數都是非常整齊劃一的,非常干凈的,都是1,這也是分辨你采購的這個流量是有問題的一個重要指標。當然還有地域上的異常,來源上的異常等。
第三步,還可以通過測試指標跟輔助指標長期監控來分析這些數據的隱性效果和長期效果。我們不管是做產品的還是做市場推廣運營的,往往很難通過一個指標來確定我們的產品或者我們的活動效果是怎樣。大家一定要注意跟蹤多個指標。
我們來看一些比較實戰的案例。第一個案例是你在QQ和新浪上都花同樣的錢投放了廣告,在QQ上一天帶來了7萬個訪客,20個訂單;在新浪上一天大概有6萬個訪客,30個訂單。于是我們就得出了結論:在新浪上投放的性價比比QQ更高。這樣認為一定是正確的嗎?我們來分析一下,從訪客上來說,好像QQ的效果會更好,它帶來了7萬個訪客,新浪只帶來了6萬個訪客。從訂單數來看,新浪帶來的更多,有30個訂單。大家有過數據分析經驗的一些朋友就可以看出光是看這兩個數據我們很難得出精確的判斷。
我們還要對這個數據里面的用戶質量進行分析。這些用戶的質量不是說你一天就能看出來的,7萬個訪客,第二天還在繼續登陸或者繼續使用你網站的人有多少,我們把第一天來訪然后第二天還來登陸的用戶叫做二代用戶。可以看一下,同樣的價錢投放,在新浪、QQ上哪個產生的二代用戶更多。
訂單我們也要具體去分析,這些訂單的總額的話是QQ產生的更多呢還是新浪產生的更多,訂單的分布也是很關鍵的,比如新浪這邊可能有30個訂單,30個訂單總金額也很高,但是可能大部分訂單的金額都產生在其中一兩個客戶身上,其他的用戶都花了很少的錢。這時候我們就要進一步去看這些訂單金額的分布,如果是像剛才說的那樣分布的話,那就要注意可能這個渠道的客戶呈兩極分化。有一些非常高質量的用戶,有些用戶質量就很差。
7、用戶細分非常關鍵
所以在數據分析中我們始終強調的兩個東西,一個就是用戶的細分,另外一個就是后續輔助指標的一些跟蹤,比如說30天的消費率,二次消費率,30天以后的消費率之類的。做綜合分析以及把這些付費的用戶和沒有付費的用戶細分來看。
下面一個案例,有兩個活動頁面,A頁面的跳出率是80%,B頁面的跳出率是90%,而A頁面最終產生了400個訂單,B頁面最終產生了只有200個訂單,所以我們得出怎樣的結論呢?如果說我們得出一個結論A頁面的活動較為吸引人,或者說頁面設計比較好,所以A頁面的效果是比較好的,是這樣嗎?我們可以看一下,這里面說A頁面的跳出率是比較低的,訂單數也比較多,所以A頁面效果比較好。乍一看好像是這樣。但是我們用我們剛才說的細分方式再去跟蹤一下可能會得出不一樣的結論。
我們仔細去分析一下會發現,做一下細分,比較常見的方法是把新用戶和老用戶分開。我們會發現在A頁面上老用戶的占比是比較多的,按照常理來說,新用戶的跳出率肯定是要比老用戶的跳出率高很多,所以說對A頁面來說,這方面其實是比較劃算了,因為A頁面的老用戶會比較多。實際上我們如果把用戶進行一個細分就會發現,如果只看新用戶,新用戶在A頁面跟B頁面,其實跳出率是一樣的,轉換率也是差不多的。B頁面在這方面就不太劃算了,因為B頁面的新用戶比較多,看起來數據就比較難看。
但是如果我們反過來只看老用戶的細分,我們反而會得出一個結論,B頁面它的跳出率其實是更低的,轉化率也就更高。所以,我們從這個案例發現,如果我們不做細分,光看數據,就會發現其實A頁面效果會更好,但是如果我們做了細分,會發現B頁面反而更好,所以說在數據分析中,細分是非常非常重要的。
講到細分,有一個概念叫“平均數陷阱”。不管自己在統計分析中還是看市面上的媒體報道啊之類,經常會講到平均數是多少。在這個平均數中,平均數往往隱藏了很多很多真相,我們自己在分析中要特別注意這一點。
8、平均數陷阱
我舉一個比較極端的例子,這是我之前看到的一個數據。有報告顯示:截止2011年8月,中國家庭的資產平均為121.69萬,城市家庭平均資產為247.6萬,農村家庭平均資產為37.7萬。大家可以看到這個數據來說,感覺好像中國還挺好的嘛,挺富裕的嘛。甚至有人會覺得:哎喲,我又拖大家后腿了,是不是?如果光看平均數的話,確實會得出這樣的一個結論,說中國人好像還是挺富裕的。
但是我覺得在這個過程中,我們不妨看一個中位數。中位數是什么概念呢?比如說我們有五個數,平均數的算法就是把五個數的總和然后除以五。中位數的意義就是取這五位數的中間這個數,五位數的中間這個數就是第三位數,第三位數的數字是多少,這組數的中位數就是多少。也就是說中位數代表著,比如說這組中位數是十,那就是說這組數據中,有一半的樣本是比十要低的,有一半的樣本的指標是要比十要大的。
我們會發現,把中位數拿出來一看,中國家庭的資產的數據其實是不太樂觀的,城市家庭的總資產我們這里顯示的數據是237.5萬,但實際上中位數只有37.3萬,也就是說在中國有一半的城市家庭資產數是低于37.3萬的。我們看平均數就會覺得中國人平均家庭都有兩百多萬,但實際上有一半的家庭他的資產是不足37萬的,所以有時候中位數比平均數更能揭示事實的真相。
我們再設想這樣一個案例,如果你開了一家店,開始興沖沖地分析數據,你會發現你的消費者平均訪問你這家店的間隔是20天。所以我們會得出一個結論:每十天來我店里訪問一趟的人就是我的忠實消費者,每20天來我們店訪問一次的就是一般消費者,如果該客戶一個半月沒來,他可能流失了……那么我得出的一個結論是什么呢?我要按照用戶的生命周期模型來找到容易流失的客戶,給他們每人發10%的優惠券,挽救他們回來。這樣的結論正確嗎?
我給出的建議還是在這基礎上做用戶的細分,我們光是看一個平均數,即你的消費者平均訪問你們店是20天一次,這里面的信息量是不足的。我們發現不同的零售業,他的用戶訪問平均時長是不一樣的,比如說一些五金店,一般人去五金店,家里多長時間才需要買一次鐵釘、鐵錘。
如果你是一個木工或者水泥匠這類的人,你可能光顧五金店的頻率就很高。所以如果你能把你的用戶分為專業顧客跟普通顧客的話,你會發現這兩種類型的細分人群,他們訪問的間隔是完全不一樣的。對于普通的消費者來說,他很少去五金店買,你給他發優惠券,也不會增加他的到店訪問頻率,因為他平時生活中用不著。對于一些專業的消費者來說,他訪問的頻率可能很高,所以他對價格也比較敏感,你給他發優惠券,可能會大大刺激他的消費額或者消費頻率,可見,用戶細分是非常非常重要的。
9、不細分,毋寧死
我們甚至可以提出一個口號叫:“不細分,毋寧死”。有這樣一個案例,在我們的一個產品中共有100萬個用戶,月活躍用戶是10萬,即有10萬人在當月訪問我們的網站或者APP,總共產生了一萬個訂單,平均每十個訪客來產生了一個訂單,所以我們整站的整體活躍率就是10%。活躍率的定義就是月活躍用戶除以總注冊用戶。這是我們整體的一個數據。我們可以按照很多方式來細分我們的產品,可以按照專業用戶跟業余用戶進行細分,也可以按照新用戶、老用戶進行細分。
10、有哪些用戶細分的好方法?
我這里給大家提供一個細分的方法。可以根據客戶累積的購買次數,把用戶列成新注冊用戶、或者首次購買的用戶、二次購買的用戶、或者累積有三次及以上購買的用戶。你會發現如果把這些用戶做這 樣的細分之后,每個群體的購買行為,活躍率都有很大的區別。新注冊用戶的活躍度就很高,這個當然大家可以想象到的,剛來沒多久,活躍率肯定是很高的。同時,三次購買以上的用戶活躍率也很高。
我們不同的細分,甚至可以說是我們認識這個世界的很關鍵的視角,如果沒有細分,我們不知道怎么認識這個世界。所以數據分析其實也是看待世界的角度。
還有其他的細分方法,比如用戶注冊時間。注冊時間可以分為老用戶,當天新注冊用戶,注冊一個月以內的用戶。還有生命周期,可以分為活躍期啊,學習期,衰退期。還有子產品的屬性,你網站上提供很多產品,有的購買消費品,有的購買母嬰用品的,有的購買圖書,不同的用戶群體,他的行為是有非常大的不同的。
我可以給大家簡單歸納一下,今天是一個比較基礎的數據分析的分享。如果大家對數據分析比較有興趣的話,我可以推薦看兩本我覺得確實特別好的兩本書,一本書叫做《統計陷阱》,很薄的一本書,我覺得特別有啟發,列舉了常見統計分析的一些數據陷阱。另一本書叫做《決策與判斷》,那這本書是做行為心理學的很專業的兩個哈佛的教授寫的,特別好。
最后,很高興能在饅頭商學院與大家一起分享這些東西!
來源:饅頭商學院