想學(xué)數(shù)據(jù)分析不知道該讀什么書、從哪本讀,翻遍專業(yè)知識類網(wǎng)站最全的整理!
因工作原因要學(xué)習(xí)一些數(shù)據(jù)的知識,從人人都是產(chǎn)品經(jīng)理網(wǎng)站上并沒有找到一篇從入門到進(jìn)階成體系的文章,且查找的分享都是數(shù)據(jù)體系中一個(gè)分支的分支,整體看起來煙霧繚繞,經(jīng)一位前輩點(diǎn)播還是先從書籍中建立整體的認(rèn)知再看這些碎片化的知識,才能更有體會(手動@前輩譚小超,私聊的感受就是人的超級平易近人,受我一拜orz),故有了這篇內(nèi)容。
文章內(nèi)容整理至知乎,感謝兩位大佬的分享,其中@知乎用戶 張溪夢 Simon、DataCastle(其中大部分內(nèi)容源自Simon,部分屬于DataCastle已標(biāo)注)
part 1 | 入門版
適合對數(shù)據(jù)分析的入門者,對數(shù)據(jù)分析沒有整體概念的人,常見于應(yīng)屆畢業(yè)生,經(jīng)驗(yàn)尚淺的轉(zhuǎn)行者。
HeadFirst類的書籍,一向淺顯易懂形象生動,可以對分析概念有個(gè)全面的認(rèn)知。——Simon
深入淺出數(shù)據(jù)分析 :把這本書放在第一順序,是因?yàn)樗娴暮芎唵危悄軌蜃屇銓?shù)據(jù)分析的一些基本概念有大致的了解。即便是你毫無數(shù)據(jù)分析經(jīng)驗(yàn),一兩天也足夠讀完整本書了。這本書的實(shí)操性并不強(qiáng),所以也不建議你去跟著實(shí)踐,了解作者傳達(dá)出來的數(shù)據(jù)分析基本思想和原則就OK了,這對你建立宏觀的視野,和接下來的學(xué)習(xí)很有幫助。
另外,書中提到的一些案例,比如提升化妝品銷量、分析星巴克銷量、生產(chǎn)線最優(yōu)解、網(wǎng)站ABtest、競品分析、薪資預(yù)測等等,看起來很簡單,但其實(shí)都是工作最常見的一些分析場景。這對數(shù)據(jù)思維的養(yǎng)成,非常有幫助。
個(gè)人覺得書中最有用的一些點(diǎn):
- 統(tǒng)計(jì)學(xué)概念在數(shù)據(jù)分析中的作用:比如方差、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、均方根誤差等; 集中數(shù)據(jù)分析的基本方法:假設(shè)檢驗(yàn)、回歸分析、誤差分析等; 統(tǒng)計(jì)圖形分析:散點(diǎn)圖、直方圖等來探索數(shù)據(jù)中隱藏的規(guī)律; 數(shù)據(jù)庫以及數(shù)據(jù)整理。
這本書很讓你掌握數(shù)據(jù)分析技術(shù),過一遍即可。
誰說菜鳥不會數(shù)據(jù)分析 :不僅講解了一些常見的分析技巧,并附帶excel的一些知識及數(shù)據(jù)分析再公司中所處的位置,對職場了解亦有一定幫助。
赤裸裸的統(tǒng)計(jì)學(xué) :作者年輕時(shí)是個(gè)追求學(xué)習(xí)意義的學(xué)霸,后來自己從統(tǒng)計(jì)學(xué)中發(fā)掘了很多可以應(yīng)用到生活的地方。這也是本書的主旨,結(jié)合生活講解統(tǒng)計(jì)知識,生動有趣。可以避免統(tǒng)計(jì)學(xué)一上來就大講貝葉斯概率和隨機(jī)分析的枯燥。
統(tǒng)計(jì)數(shù)字會撒謊 :知名度高,但是還沒看過…
part 2 | 進(jìn)階版
具有一定的行業(yè)針對性,要求具備一定的分析常識,適合網(wǎng)站分析師,商業(yè)分析師以及數(shù)據(jù)產(chǎn)品經(jīng)理。
深入淺出統(tǒng)計(jì)學(xué) : HeadFirst類書籍,可以幫助你快速了解統(tǒng)計(jì)方面的知識。——Simon
非常非常基礎(chǔ)的統(tǒng)計(jì)書,適合任何一個(gè)沒有基礎(chǔ)的小白,文科生也能看懂。有人說這本書簡直太簡單了,但是對于數(shù)據(jù)分析來說,需要用到的恰好是這些最簡單的東西。比如基本的統(tǒng)計(jì)量,基本上每個(gè)分析項(xiàng)目中都會用到。比如基本的概率分布,總體與樣本的概念、置信區(qū)間、假設(shè)檢驗(yàn)、回歸分析,我去,都是為數(shù)據(jù)分析定制的統(tǒng)計(jì)學(xué)知識。
所以強(qiáng)烈推薦這本,其他的比較深度的書,并不建議在入門的階段去啃,一方面是很多難以理解,二是即便你花大力氣學(xué)習(xí)了,入門的階段你也不怎么能在實(shí)踐中使用。當(dāng)然多學(xué)一些是沒有壞處的,但你需要知道在什么時(shí)候?qū)W習(xí)哪些東西性價(jià)比最高。或者你自我感覺良好,誓要學(xué)最難的,從入門到放棄,得不償失。
總結(jié)起來,需要重點(diǎn)了解的統(tǒng)計(jì)學(xué)知識如下:
- 基本的統(tǒng)計(jì)量:均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差、百分位數(shù)等; 概率分布:幾何分布、二項(xiàng)分布、泊松分布、正態(tài)分布等; 總體和樣本:了解基本概念、抽樣的概念;
這本書非常的簡單,但是基本的數(shù)據(jù)分析的一些方法都有了,你需要做的,是利用之前學(xué)過的Python 的一些庫(pandas、Numpy、matplotlib)來實(shí)現(xiàn)這些數(shù)據(jù)分析的方法、實(shí)現(xiàn)基本的可視化來進(jìn)行圖形化的分析。——DataCastle
MySQL必知必會 :這本也是我當(dāng)年學(xué)習(xí)SQL的入門書,薄冊子一本,看起來很快。SQL是個(gè)性價(jià)比很高的技能,簡單而強(qiáng)大。任何想進(jìn)一步提高自己數(shù)據(jù)分析技能的產(chǎn)品/運(yùn)營/分析師 同學(xué),都建議點(diǎn)亮這個(gè)技能點(diǎn)。——Simon
這本書把SQL寫的非常簡單,沒辦法,SQL確實(shí)也很簡單。其實(shí)pandas 就已可以實(shí)現(xiàn)很多數(shù)據(jù)管理的工作,而了解SQL 的意義在于融入到實(shí)際的數(shù)據(jù)使用的場景。比如企業(yè)的數(shù)據(jù),多是以數(shù)據(jù)庫的形式存儲起來的,那么如果你需要去調(diào)用你需要的那部分?jǐn)?shù)據(jù),那么SQL就是必須的技能。如果你在最開始就想用公司的數(shù)據(jù)來練習(xí),那么你可以把這本書的閱讀放到最前面。(當(dāng)然,如果你不回遇到數(shù)據(jù)提取的問題,SQL這部分也可以暫時(shí)不管,對具體的數(shù)據(jù)分析沒有影響,等到你真正需要用到SQL的時(shí)候再學(xué)習(xí)。)
MySQL本身比較簡單,對于數(shù)據(jù)分析師來說,只需要掌握基本的語句和技巧,能夠進(jìn)行基本的數(shù)據(jù)提取和處理就能夠應(yīng)對一般的數(shù)據(jù)分析需求了。
書中重點(diǎn)掌握以下幾個(gè)點(diǎn):
- SELECT語句:讓你能夠去提取你需要的那部分?jǐn)?shù)據(jù); DELETE和UPDATE:知道怎么實(shí)現(xiàn)數(shù)據(jù)的增、刪、改; 數(shù)據(jù)過濾:where、and、or、通配符等過濾方式; 數(shù)據(jù)的匯總和分組、數(shù)據(jù)庫連接:應(yīng)對更加復(fù)雜的數(shù)據(jù)和相關(guān)聯(lián)的數(shù)據(jù); 子查詢:查詢中的查詢。
當(dāng)然還是希望你去公司的數(shù)據(jù)庫找一些數(shù)據(jù)來進(jìn)行練習(xí),如果不方便的話,也可以直接用上述UCI數(shù)據(jù)集中的數(shù)據(jù)來進(jìn)行實(shí)踐。
如果遇到問題,可以去菜鳥教程查詢相關(guān)操作。
MySQL 教程 | 菜鳥教程
好了,恭喜,你已經(jīng)基本入門了。到此,你就完全可以去進(jìn)行一個(gè)完整的數(shù)據(jù)分析項(xiàng)目了,如果你沒有頭緒,可以去找一些行業(yè)的分析報(bào)告來看看,找一找分析的思路。能夠獨(dú)立完成一些項(xiàng)目,通過數(shù)據(jù)分析能夠得出一些深刻的結(jié)論,能夠給人以可視化的形式將結(jié)果描述出來,能夠基于歷史數(shù)據(jù)對未來的一些情況進(jìn)行預(yù)測,那么一般的數(shù)據(jù)分析崗位,完全可以勝任了。
互聯(lián)網(wǎng)增長的第一本數(shù)據(jù)分析手冊 :GrowingIO出的一本數(shù)據(jù)分析的增長手冊,為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可在GrowingIO技術(shù)論壇中免費(fèi)下載。
利用Python進(jìn)行數(shù)據(jù)分析 :這應(yīng)該是最經(jīng)典的數(shù)據(jù)分析書之一了,作者是pandas 庫的作者WesMcKinney 。所以這本書對于pandas 的理解,應(yīng)該是非常深刻的,而利用梳理介紹的pandas、bumpy、matplotlib 等庫,應(yīng)對一般的數(shù)據(jù)分析,完全足夠了。
書中應(yīng)該重點(diǎn)掌握的一些點(diǎn):
- IPython Notebook 的使用:最適合小白的代碼編寫環(huán)境,非常容易上手; 科學(xué)計(jì)算庫 Numpy:數(shù)組和矢量計(jì)算、學(xué)會利用數(shù)組進(jìn)行數(shù)據(jù)處理; 數(shù)據(jù)處理及分析工具 pandas:數(shù)據(jù)查詢,缺失值、重復(fù)值、異常值的處理,數(shù)據(jù)的合并與規(guī)整化,基本的描述性分析及可視化; 可視化工具 matplotlib:用這個(gè)庫,基本的數(shù)據(jù)可視化問題皆可以解決了。
看上去是不是很簡單,這本書就是教會你如何開始使用Python 進(jìn)行數(shù)據(jù)分析,當(dāng)然首推的就是pandas ,不僅可以做數(shù)據(jù)的預(yù)處理,還能夠做基本的數(shù)據(jù)分析和可視化。這個(gè)庫一定是你開始入門的時(shí)候需要重點(diǎn)學(xué)習(xí)的,其次用Numpy 進(jìn)行數(shù)組的計(jì)算、利用matplotlib 進(jìn)行可視化的描述性分析,也是同步需要掌握的東西。
但是,這個(gè)部分光看書是遠(yuǎn)遠(yuǎn)不夠的,你可以盡量去找一些可以練手的數(shù)據(jù)集,來實(shí)際操作和調(diào)用這些庫的功能,確保熟練數(shù)據(jù)分析中最常用的函數(shù)和模塊。如果糾結(jié)去哪找練手的數(shù)據(jù),推薦 UCI經(jīng)典數(shù)據(jù)集 。
關(guān)于pandas、Numpy、matplotlib 網(wǎng)上應(yīng)該可以搜索到很多有用的資料、教程,可以看一看別人的使用技巧、應(yīng)用場景,并通過練習(xí)轉(zhuǎn)化成自己的經(jīng)驗(yàn)。
因?yàn)镻ython 庫的更新迭代非常快,這本書里額一些內(nèi)容其實(shí)已經(jīng)“過時(shí)”了,這里也非常建議你去查看一些官方的文檔,基本上你需要的都能查到。
pandas 官方教程文檔
Numpy 官方教程文檔
matplotlib 官方推薦教程文檔
另外,在進(jìn)行一些數(shù)據(jù)處理、數(shù)據(jù)分析的時(shí)候,你可能需要去了解一些更細(xì)節(jié)的Python 的用法,這里就不推薦書了,因?yàn)槟銢]必要去系統(tǒng)地學(xué),按照這個(gè)菜鳥教程看看或者查詢相關(guān)的用法就OK了。
Python3 教程 | 菜鳥教程
part 3 | 高階版
更高階的數(shù)據(jù)相對來說專業(yè)性較強(qiáng)了,如涉及到企業(yè)內(nèi)部數(shù)據(jù)治理,數(shù)據(jù)結(jié)合的業(yè)務(wù)分析,數(shù)據(jù)可視化等。當(dāng)然,還有數(shù)據(jù)挖掘算法之類的更深入的東西,這塊沒有研究就不瞎推薦了
精益數(shù)據(jù)分析 :此書優(yōu)勢在于將企業(yè)分成了幾個(gè)大的行業(yè)類別,并分門別類的講解了每個(gè)行業(yè)的商業(yè)模式特點(diǎn)及分析技巧,對使用者的分析能力要求較高,且必須具備相應(yīng)的業(yè)務(wù)知識。——Simon
書中主要講到各種產(chǎn)品中用到的指標(biāo)和模型,這是一本寫給產(chǎn)品經(jīng)理的書,其中并沒有具體的數(shù)據(jù)分析技術(shù),涉及到的更多是數(shù)據(jù)驅(qū)動型產(chǎn)品的一些思路。
比如怎么將數(shù)據(jù)驅(qū)動的產(chǎn)品落地,怎么為產(chǎn)品設(shè)計(jì)數(shù)據(jù)指標(biāo),哪些指標(biāo)對于產(chǎn)品迭代優(yōu)化更有效,如何依靠數(shù)據(jù)分析來驅(qū)動用戶增長等等。——DataCastle
數(shù)據(jù)之美 :本書通過世界上最好的數(shù)據(jù)工作者的示例,向讀者展示處理數(shù)據(jù)的方法。本書使得讀者可以站在優(yōu)秀的數(shù)據(jù)設(shè)計(jì)師、管理者和處理者的肩上,去仔細(xì)審視涉及到數(shù)據(jù)的一些最有趣的項(xiàng)目。
決戰(zhàn)大數(shù)據(jù) :阿里巴巴前數(shù)據(jù)副總裁車品覺老師所著,講解了阿里巴巴在企業(yè)內(nèi)部治理數(shù)據(jù)過程中的新的,所講“存-通-用”數(shù)據(jù)管理三板斧和“從數(shù)據(jù)化運(yùn)營到運(yùn)營數(shù)據(jù)”,字字珠璣,可堪借鑒。
The Wall Street Journal Guide to Information Graphics :華爾街日報(bào)負(fù)責(zé)商業(yè)分析的人做的可視化指南,精華且實(shí)用,之前做的讀書筆記可供參考【 華爾街日報(bào)是這樣做數(shù)據(jù)可視化的(1) 】
數(shù)據(jù)科學(xué)實(shí)戰(zhàn) :這本書應(yīng)該是數(shù)據(jù)分析和數(shù)據(jù)挖掘(機(jī)器學(xué)習(xí))之間的橋梁。從探索性的數(shù)據(jù)分析開始,通過數(shù)據(jù)分析的思維,引出了機(jī)器學(xué)習(xí)的基本算法:回歸分析、k近鄰、k均值。接著通過不同的應(yīng)用場景分別介紹了最常見的機(jī)器學(xué)習(xí)算法,以及在真實(shí)場景的應(yīng)用。
對于做了一段時(shí)間數(shù)據(jù)分析工作的人,這無疑是進(jìn)階更高維度的好書,很難有一本書,能夠讓你從簡單的數(shù)據(jù)分析平滑地渡到機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,這本書我認(rèn)為是這方面做的最好的一本。
所以如果你在做一些探索性的分析遇到瓶頸之后,自然而然會進(jìn)入數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法的坑,因?yàn)橹挥懈呒壍乃惴ê湍P停拍軌蛑未笠?guī)模的數(shù)據(jù)的預(yù)測。
下面列出一些書中有意思也比較有用的點(diǎn):
- 了解探索性數(shù)據(jù)分析,為更高級的需求打好基礎(chǔ); 了解機(jī)器學(xué)習(xí)的基本算法、k近鄰、k均值等; 用樸素貝葉斯方法做垃圾郵件的過濾; 線性回歸和邏輯回歸的分析方法; 如何從數(shù)據(jù)中獲取結(jié)論,從數(shù)據(jù)挖掘競賽開始; 構(gòu)建自己的推薦系統(tǒng); 數(shù)據(jù)泄漏與模型評價(jià),如何篩選模型。
part 4 | 推薦關(guān)注
在知乎上有不少數(shù)據(jù)分析及Growth的大牛,在這里推薦幾位我熟悉的,經(jīng)常會寫一些相關(guān)的文章:
覃超 ,前Facebook 早期工程師,關(guān)于增長黑客寫了許多優(yōu)秀的文章;
鄒昕 ,F(xiàn)acebook 用戶增長數(shù)據(jù)分析,在數(shù)據(jù)分析方面很有見解;
范冰 ,【增長黑客】一書作者,人非常有趣,同事也非常推薦【增長黑客】這本書;
曾加 ,螞蟻金服 BI-數(shù)據(jù)分析,數(shù)學(xué)方面的牛人;
何明科 ,專注于數(shù)據(jù)和互聯(lián)網(wǎng)產(chǎn)品,許多回答很值得細(xì)看
對于推薦的書籍來講,有一位前輩能對這本書有所評價(jià)并告訴后輩的,無異于考試時(shí)書上畫了重點(diǎn),所以,關(guān)于數(shù)據(jù)分析的書,有這么一篇就夠了。
但是關(guān)于產(chǎn)品的書,從網(wǎng)上找到的書單涉及到的書太多,因?yàn)楫a(chǎn)品經(jīng)理需要對各個(gè)方面都有所了解,要對各個(gè)領(lǐng)域都列出個(gè)書單的話,也沒時(shí)間看,畢竟人的精力是有限的,還是要有所選擇。
這里想講一個(gè)選書的方法,將每一位大牛列出的書單視作他們的一個(gè)產(chǎn)品,將產(chǎn)品領(lǐng)域各位大牛的書單做個(gè)競品分析,列出每個(gè)書單的相同點(diǎn),也就是找出每份書單都會出現(xiàn)的書,對于新人來說,從這些書中開始讀,準(zhǔn)沒錯(cuò)。
產(chǎn)品崗位是近幾年才逐漸有了系統(tǒng)化的培訓(xùn),在之前魚龍混雜的時(shí)代有人出了一本書各個(gè)產(chǎn)品人一定都有所涉獵,而那個(gè)時(shí)候產(chǎn)品可選擇的書籍并不多,這些人中又漸漸了出了大神,值得被多位大神站臺的書籍,就是對內(nèi)容最好的保障。
一個(gè)真心喜歡工作的2年產(chǎn)品新人,目前學(xué)習(xí)的方法是通過書籍掌握基礎(chǔ)脈絡(luò)再通過碎片化的文章往不同的方向延伸,期望只通過能力而不通過公司的背景和光環(huán)被人認(rèn)可。