建模術(shù):數(shù)據(jù)挖掘要還原用戶的生活場(chǎng)景
萬(wàn)物皆數(shù)據(jù),數(shù)據(jù)藏大道。教你Know那些有趣、有用、有逼格的Data!
繼續(xù)“術(shù)”篇,希望能更貼近實(shí)操。
“術(shù)”篇將包含數(shù)據(jù)收集、數(shù)據(jù)管理、建模、網(wǎng)站分析、個(gè)性化推薦、場(chǎng)景應(yīng)用、數(shù)據(jù)升溫理論等,這些都是筆者擅長(zhǎng)的領(lǐng)域,在長(zhǎng)期的實(shí)踐過(guò)程中,形成了個(gè)人獨(dú)特、務(wù)實(shí)的理解和方法。
建模無(wú)疑是大數(shù)據(jù)里面最藝術(shù)的部分,也是最令大數(shù)據(jù)從業(yè)者癡迷、得意的領(lǐng)域,一個(gè)好的模型就是一篇作品,是一首詩(shī),令人心曠神怡。
建模、模型并不是什么新鮮事物,它們?cè)缫殉霈F(xiàn)在很多場(chǎng)合,譬如“產(chǎn)品模型”、“推薦模型”、“營(yíng)銷模型”、“挖掘模型”等等,它們有什么不同?
建模的幻影有千萬(wàn)種,有些人做過(guò),有些人沒(méi)做過(guò),我們?cè)撊绾慰创?/p>
建模是不是需具備很多專業(yè)知識(shí),非專業(yè)人士無(wú)法掌握?
小白楊的所思所想,都在下面的文字。
一、建模并不神秘:讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)
一些建模的觀點(diǎn)已在前面的道與法兩篇體現(xiàn),歸納如下:
建模的本質(zhì)就是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。 人類、智能體的認(rèn)知、行動(dòng)需要用到不同的數(shù)據(jù)(Know->行動(dòng)),如果這個(gè)數(shù)據(jù)沒(méi)有被直接掌握,那就要基于已知的事實(shí)數(shù)據(jù)推測(cè),這個(gè)過(guò)程就是“建?!保玫降慕Y(jié)果就是一個(gè)新的“數(shù)據(jù)”。
建模就是在做偵探, 都是利用已掌握的大量的、不完整的、不一定可信的事實(shí)數(shù)據(jù)推導(dǎo)還原事實(shí)的全部。幾乎所有的領(lǐng)域都涉及建模。
模型分三大類,但萬(wàn)變不離其宗。
第一類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測(cè)相關(guān)聯(lián)的其它事實(shí)數(shù)據(jù),譬如應(yīng)用人的屬性、行為數(shù)據(jù)推測(cè)它的消費(fèi)需求;
第二類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測(cè)規(guī)律性的數(shù)據(jù),譬如基于歷史的購(gòu)買記錄分析商品的銷售趨勢(shì)、細(xì)分比較等;
第三類,利用已知的細(xì)節(jié)事實(shí)數(shù)據(jù)組合建立對(duì)事實(shí)全局的認(rèn)識(shí)(數(shù)據(jù)),譬如從生效時(shí)間、適用區(qū)域及客戶群、定價(jià)等維度建立產(chǎn)品模型,其實(shí)就是綜合這些細(xì)節(jié)數(shù)據(jù)形成了一個(gè)“產(chǎn)品”的“數(shù)據(jù)”。
對(duì)“新”的數(shù)據(jù)的認(rèn)識(shí)不要拘泥于一定要和以前的數(shù)據(jù)不一樣,多個(gè)數(shù)據(jù)組合形成新的含義也是一種新的數(shù)據(jù)。
數(shù)據(jù)是人類對(duì)世界的觀測(cè),把客觀世界抽樣、采集到數(shù)字世界里面,建模就是要在數(shù)字世界里面把客觀事實(shí)還原回來(lái)、預(yù)測(cè)它的發(fā)展。有趣的是,在數(shù)字世界里面,可以打破客觀物質(zhì)的當(dāng)前認(rèn)知局限,任意交叉組合,從而有無(wú)限創(chuàng)新的可能。
總結(jié)一下,建模本質(zhì)就是對(duì)已知數(shù)據(jù)的組合、簡(jiǎn)單或者復(fù)雜的計(jì)算處理,最終轉(zhuǎn)換成一個(gè)新的數(shù)據(jù),從而影響行動(dòng)。
不同類型建模差別很大,接下來(lái)我們將聚焦到數(shù)據(jù)營(yíng)銷領(lǐng)域來(lái)探討,部分觀點(diǎn)不具備普適性。
二、建模的六大誤區(qū)
誤區(qū)一:會(huì)用工具等于會(huì)建模? 數(shù)據(jù)挖掘大多遵循CRISP-DM流程,弄來(lái)很多的數(shù)據(jù)維度(有甚者上百種),選取某一種算法,找來(lái)訓(xùn)練集訓(xùn)練出一堆莫名其妙的規(guī)則,輸出的目標(biāo)用戶特征誰(shuí)也說(shuō)不清楚,只能告訴你支持度、置信度多少。這個(gè)過(guò)程本來(lái)是沒(méi)有問(wèn)題的,前提條件是有明確的挖掘方向。但是很多人都錯(cuò)把業(yè)務(wù)目標(biāo)當(dāng)挖掘方向了。
真正的建模應(yīng)該從業(yè)務(wù)目標(biāo)開(kāi)始,先基于業(yè)務(wù)目標(biāo)理解客戶分解挖掘方向(特征明顯的群體),再找數(shù)據(jù)用算法關(guān)聯(lián)推導(dǎo)。懂工具能很好的完成挖掘方向到目標(biāo)結(jié)果的過(guò)程,但業(yè)務(wù)目標(biāo)到挖掘方向這個(gè)過(guò)程就不是只掌握工具就能夠勝任的了。
敏銳的洞察挖掘方向、正確的數(shù)據(jù)選取是建摸的核心能力,比掌握工具更加重要!
誤區(qū)二:建模不與實(shí)際銷售場(chǎng)景相結(jié)合! 某央企(莫亂猜)各省公司大數(shù)據(jù)成功案例滿天飛,模型成功率動(dòng)輒30-40%。筆者看到的時(shí)候自慚形愧,也一直很納悶,做了這么多年精準(zhǔn)營(yíng)銷,大部分模型的營(yíng)銷成功率都是幾個(gè)百分點(diǎn),兩位數(shù)以上的鳳毛麟角,怎么別人的水平都已經(jīng)趕超美帝了!后來(lái)終于搞明白,原來(lái)他們的目標(biāo)客戶在各種渠道成功下單都算,不管是否施加了營(yíng)銷動(dòng)作,而我們只統(tǒng)計(jì)針對(duì)目標(biāo)用戶采取營(yíng)銷動(dòng)作的直接轉(zhuǎn)化下單。他們得意于挖出目標(biāo)用戶的精準(zhǔn),其實(shí),這些模型的高成功率只能說(shuō)明這批用戶自然轉(zhuǎn)化率高,找出這些用戶并無(wú)實(shí)質(zhì)意義,因?yàn)椴皇┘尤魏蝿?dòng)作用戶就已經(jīng)購(gòu)買了,挖它出來(lái)干嘛?
建模必須與實(shí)際銷售場(chǎng)景結(jié)合,要么找出自然轉(zhuǎn)化率高的用戶采取更低成本的接觸方式轉(zhuǎn)化,要么找出一批用戶施加營(yíng)銷動(dòng)作后較自然轉(zhuǎn)化大大提升!
誤區(qū)三:盲目使用、過(guò)度依賴訓(xùn)練集! 訓(xùn)練集是個(gè)雙刃劍,正確使用能充分發(fā)揮技術(shù)算法的價(jià)值,而濫用則陷入誤區(qū)。前面說(shuō)的某央企案例,其實(shí)訓(xùn)練那些模型并不困難,不就把各渠道成功下單用戶作為訓(xùn)練集嘛,掌握工具的新手都能做出來(lái)。訓(xùn)練集要與準(zhǔn)備施加的營(yíng)銷動(dòng)作一致的才有意義。
訓(xùn)練集還要有代表性,譬如歷史的數(shù)據(jù)是和大客戶談妥對(duì)其所有員工批量轉(zhuǎn)化的,以這些數(shù)據(jù)為訓(xùn)練集就沒(méi)有任何意義。
營(yíng)銷場(chǎng)景初始往往沒(méi)有訓(xùn)練集,必須跳出“訓(xùn)練集”局限。
誤區(qū)四:要相關(guān)不要因果! 《大數(shù)據(jù)時(shí)代》作者提出這個(gè)觀點(diǎn)的時(shí)候,其實(shí)并不是要放棄追求因果,而是找出相關(guān)關(guān)系后,更迫切的是接下來(lái)怎么做,因果關(guān)系可以慢慢研究。這一點(diǎn)被很多人誤讀,世間沒(méi)有無(wú)緣無(wú)故的愛(ài),也沒(méi)有無(wú)緣無(wú)故的恨,兩個(gè)事物相關(guān)度很高,背后必定有一串的因果鏈條,如果找不到,那可能是因?yàn)橛?xùn)練集的問(wèn)題導(dǎo)致偽相關(guān),我們就要警惕了。
誤區(qū)五:過(guò)于迷信算法! 大道至簡(jiǎn),有效的東西一定是簡(jiǎn)單的。非要復(fù)雜,那一定是因?yàn)闆](méi)找到或者沒(méi)掌握關(guān)聯(lián)度更高的原始數(shù)據(jù)。算法并不能解決所有問(wèn)題,沒(méi)有好的數(shù)據(jù)基礎(chǔ),它無(wú)能為力。建模涉及到很多關(guān)鍵要素,比拼的是綜合實(shí)力,在同等條件下,努力提升算法才是有意義的。
誤區(qū)六:盲目追求數(shù)據(jù)精度! 高的精度意味著更高的成本,對(duì)應(yīng)更少的數(shù)據(jù)規(guī)模,如何取舍就要運(yùn)用“法”篇說(shuō)的ROI原則了。
三、建模七術(shù)
1、場(chǎng)景驅(qū)動(dòng)
建模的第一件事情是搞清楚應(yīng)用場(chǎng)景,提煉賣點(diǎn)、利益點(diǎn),哪些是能打動(dòng)用戶的關(guān)鍵要素。從“命中目標(biāo)”和“命中營(yíng)銷特性”這兩個(gè)方面去思考我們要找什么樣的用戶,匹配什么樣的關(guān)鍵特征。
2、迭代建模
建模要用互聯(lián)網(wǎng)思維“小步快跑,快速迭代”,快速對(duì)消費(fèi)者需求做出反應(yīng),否則數(shù)據(jù)會(huì)失去時(shí)效。因此我們應(yīng)從簡(jiǎn)單開(kāi)始入手,采用簡(jiǎn)單算法快速輸出數(shù)據(jù),后續(xù)在實(shí)戰(zhàn)中不斷檢驗(yàn)、修正、迭代優(yōu)化,不斷提升數(shù)據(jù)的精準(zhǔn)性。
3、場(chǎng)景還原
確定業(yè)務(wù)目標(biāo)后,還原用戶的生活場(chǎng)景,設(shè)想用戶的需求場(chǎng)景,再考察數(shù)據(jù)能否關(guān)聯(lián)。
理解生活,數(shù)據(jù)挖掘會(huì)很簡(jiǎn)單。商業(yè)最終解決的是人們的物質(zhì)文化需求,你想挖掘什么樣的群體,先從生活中去理解它,它在什么場(chǎng)景下需要這些產(chǎn)品,有什么行為習(xí)慣,在我們的數(shù)據(jù)中留下了哪些蛛絲馬跡?譬如“外圍女”這個(gè)群體,你too simple對(duì)她們一無(wú)所知,就很難把她們找出來(lái)。為了挖掘“工業(yè)區(qū)人群”,我們特地組織前往廠區(qū)調(diào)研他們購(gòu)買手機(jī)、上網(wǎng)、生活習(xí)慣等情況,為了挖掘“出租車司機(jī)”,我們打車的時(shí)候?qū)λ麄冞M(jìn)行了訪談。
五個(gè)方面理解還原。
身份屬性:譬如商務(wù)精英消費(fèi)能力高使用Iphone手機(jī)比例高
狀態(tài)變化:譬如夜間位置變換,推測(cè)用戶搬家了有寬帶需求
行為表達(dá):譬如在社交網(wǎng)絡(luò)、搜索引擎等互聯(lián)網(wǎng)上表達(dá)了對(duì)目標(biāo)商品的關(guān)注
習(xí)慣偏好:譬如喜歡日本料理、西餐廳的人群超60%使用Iphone手機(jī)
關(guān)系推測(cè):譬如和快遞員交互的用戶,我們推測(cè)它是一個(gè)電商消費(fèi)者
對(duì)于任何一個(gè)業(yè)務(wù)目標(biāo),都可以從上述五個(gè)方面還原與業(yè)務(wù)目標(biāo)相關(guān)聯(lián)的場(chǎng)景,還原足夠多的場(chǎng)景,就可以挖掘出足夠規(guī)模的用戶數(shù)據(jù)。
4、找數(shù)據(jù)關(guān)聯(lián)
還原出場(chǎng)景后,就要找數(shù)據(jù)進(jìn)行關(guān)聯(lián)。有些我們可以基于直接數(shù)據(jù)進(jìn)行輸出,沒(méi)有直接的數(shù)據(jù),則找間接數(shù)據(jù)選取算法進(jìn)行推導(dǎo),而間接數(shù)據(jù)的選取,可繼續(xù)應(yīng)用上述五個(gè)方面場(chǎng)景還原的方法。
至于具體如何清洗數(shù)據(jù)、缺省異常值處理、算法選取、誤差分析等等那些實(shí)操細(xì)節(jié),文章很多。
5、快速收斂
建模是人與機(jī)器協(xié)作的結(jié)果,核心參與者是人,建模方向由人來(lái)確定,數(shù)據(jù)維度的選取主要是人(機(jī)器輔助驗(yàn)證),算法也是人設(shè)計(jì)的,機(jī)器所起的所用是訓(xùn)練迭代,而機(jī)器儲(chǔ)存的數(shù)據(jù)相對(duì)人腦太單一,人對(duì)數(shù)據(jù)結(jié)果、應(yīng)用結(jié)果進(jìn)行解讀,及時(shí)輸入一些理解能加快收斂的速度。
6、少即是多
挖掘的目標(biāo)不僅僅是“有需求”,而是“能轉(zhuǎn)化”,因?yàn)楹玫臓I(yíng)銷場(chǎng)景、文案,能激發(fā)那些原來(lái)看起來(lái)沒(méi)有需求的用戶的購(gòu)買欲望,而即使是有需求的用戶,如果不能直擊它的痛點(diǎn)、愉悅點(diǎn),也難以轉(zhuǎn)化。
好的模型應(yīng)盡量簡(jiǎn)單,很多復(fù)雜規(guī)則的模型有可能命中率高,但實(shí)際營(yíng)銷應(yīng)用的時(shí)候,往往難以與營(yíng)銷特性相匹配,效果不一定好;而簡(jiǎn)單模型特征明顯,全力聚焦用戶特性策劃營(yíng)銷動(dòng)作,更能引起用戶共鳴,產(chǎn)生興趣進(jìn)而購(gòu)買。
7、高質(zhì)量的數(shù)據(jù)才是硬道理
正是因?yàn)槲覀儧](méi)有直接數(shù)據(jù),所以我們只能找其它數(shù)據(jù)間接推導(dǎo),如果我們掌握的數(shù)據(jù)與目標(biāo)關(guān)聯(lián)度很高,那么算法可以很簡(jiǎn)單,否則無(wú)論算法多么的先進(jìn),效果也是有一個(gè)瓶頸的。
與其花大力氣建模,筆者更愿意前瞻性的解決數(shù)據(jù)源問(wèn)題,收集更多更有效的數(shù)據(jù)。
筆者更愿意當(dāng)一個(gè)數(shù)據(jù)架構(gòu)師,也一直自命數(shù)據(jù)架構(gòu)師。
最后總結(jié)一下,建模其實(shí)并不神秘,本質(zhì)上是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。而建模關(guān)鍵是要還原用戶的生活場(chǎng)景,找準(zhǔn)方向,找到合適的數(shù)據(jù)關(guān)聯(lián)推導(dǎo),快速校驗(yàn)迭代收斂。
<完 >
作者:吳顯洋(云中白楊,也稱小白楊):從小愛(ài)數(shù)學(xué),畢業(yè)于清華大學(xué)計(jì)算機(jī)系,曾是系統(tǒng)架構(gòu)師,后回歸數(shù)據(jù),10年大數(shù)據(jù)實(shí)戰(zhàn)經(jīng)驗(yàn),擅長(zhǎng)數(shù)據(jù)化思考、系統(tǒng)性設(shè)計(jì)。愛(ài)徒步、愛(ài)歷史、愛(ài)思考宇宙!信奉道家思想,堅(jiān)信萬(wàn)物皆數(shù)據(jù),數(shù)據(jù)藏大道。
責(zé)任編輯:陳近梅