如何成為一名數(shù)據(jù)科學(xué)家?
作者:Alec Smith ?譯者:Blake、高斐
作者Alec Smith是數(shù)據(jù)科學(xué)領(lǐng)域中資深HR,之所以寫這篇文章是因?yàn)榻?jīng)常被問到一個(gè)問題:“如何才能獲得一份數(shù)據(jù)科學(xué)家的職位?” 不僅這個(gè)問題經(jīng)常被問引起了注意,另外問這個(gè)問題的人不同的背景也非常很令人感興趣。作者曾經(jīng)和以下這些職業(yè)的人有過類似對(duì)話:軟件工程師、數(shù)據(jù)庫開發(fā)者、數(shù)據(jù)架構(gòu)師、保險(xiǎn)精算師、數(shù)學(xué)家、學(xué)術(shù)界人士(不同領(lǐng)域)、生物學(xué)家、天文學(xué)家、理論物理學(xué)家—我還能接著往下數(shù)。通過和他們的這些談話,作者發(fā)現(xiàn)在這之中有很大的誤解存在,很多人都非常困惑——為了闖入這個(gè)領(lǐng)域的話,他們需要做些什么?
作者決定深入調(diào)查這個(gè)項(xiàng)目,同時(shí)提供一個(gè)任何想要加入商業(yè)計(jì)算機(jī)科學(xué)都能受益的干貨資料——無論你是剛剛開始,或者早已點(diǎn)滿所有的技能只是沒有相關(guān)的業(yè)界經(jīng)驗(yàn)。因此我打算主要回答這兩個(gè)概覽性的問題:
- 數(shù)據(jù)科學(xué)需要哪些技能?如何才能學(xué)會(huì)這些技能?
- 從求職市場(chǎng)的角度來看的話,怎樣做才能最大化在數(shù)據(jù)科學(xué)崗位上被錄用的機(jī)會(huì)?
- 你可能會(huì)疑惑,憑什么我能回答這些問題?
因?yàn)槲颐刻於己葦?shù)據(jù)科學(xué)家打交道,并且作為一個(gè)資深的HR,我需要了解相關(guān)職業(yè)道路,怎樣才能成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家,以及雇主期望能招到哪一種員工。因此對(duì)于這件事我還是相當(dāng)了解的。但是我也想直接找到那些沿著這條路走下來的人,所以我以不同背景的數(shù)據(jù)科學(xué)家開始,期待能發(fā)掘到不同的東西。這一次我找到了一個(gè)前軟件工程師、前天體物理學(xué)家、甚至還有一個(gè)前粒子物理學(xué)家(這令我非常激動(dòng),因?yàn)樗?jīng)親身參與過21世紀(jì)以來最重大的科學(xué)突破之一)。
?
第一章:什么是數(shù)據(jù)科學(xué)?
你已經(jīng)下定決心要做一名數(shù)據(jù)科學(xué)家了,很好你已經(jīng)開始了。但是現(xiàn)在你有了另外一種選擇:你想做哪一種數(shù)據(jù)額科學(xué)家呢?因?yàn)?認(rèn)識(shí)到這個(gè)很重要)雖然數(shù)據(jù)科學(xué)被承認(rèn)是一種職業(yè)已經(jīng)有很多年了,但是有關(guān)于它到底是什么還沒有一個(gè)大家都認(rèn)可的定義。
在現(xiàn)實(shí)生活,“數(shù)據(jù)科學(xué)家”這個(gè)詞可以指代非常廣泛的工種,因此它存在很多種形式,考慮到工業(yè)界以及商業(yè)界各種需求的不同,還有問題中目標(biāo)與輸出角色的不同。因此,在某些方面擁有技能的話比其他要更好一些,這就是為什么通向數(shù)據(jù)科學(xué)的路徑是不相同的,可以通過多種領(lǐng)域如統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)與其他科學(xué)學(xué)科來實(shí)現(xiàn)。
目的是決定數(shù)據(jù)科學(xué)形式類別的最大因素,這也與相應(yīng)的A類以及B類相關(guān)聯(lián)。廣義上來說,分類可以總結(jié)如下:
- 面向人類的數(shù)據(jù)科學(xué)(A類),舉例:分析支持以證據(jù)為基礎(chǔ)的決策
- 面向軟件的數(shù)據(jù)科學(xué)(B類),舉例:智能推薦系統(tǒng),如Netflix和Spotify
當(dāng)這個(gè)領(lǐng)域越來越成熟之后,我們可以見到這些定義會(huì)愈加完善,在這里我們也要介紹我們第一個(gè)專家:Yanir Seroussi,Yanir目前是Car Next Door的首席數(shù)據(jù)科學(xué)家。
探討職位頭銜
在我們深入研究之前,值得花一點(diǎn)時(shí)間來反思“數(shù)據(jù)科學(xué)”中的“科學(xué)”,因?yàn)樵谀撤N意義上,所有的科學(xué)家都是數(shù)據(jù)科學(xué)家,因?yàn)樗麄兌际桥c各種各樣的數(shù)據(jù)進(jìn)行打交道。但要考慮到通常被認(rèn)為是數(shù)據(jù)科學(xué)的這個(gè)行業(yè),究竟是什么使它成為一門科學(xué)?這個(gè)問題很好!答案應(yīng)該是:“科學(xué)方法”。考慮到科學(xué)的多學(xué)科性,科學(xué)方法是把這些領(lǐng)域結(jié)合在一起。
然而,業(yè)界中職位名稱貌似越來越寬松了,并不是所有的數(shù)據(jù)科學(xué)家都是真正的科學(xué)家。可以這樣問你自己:你能證明自己是一個(gè)科學(xué)家即便你的工作并不包含真正的科學(xué)呢?個(gè)人來說,我不認(rèn)為“分析師”不能作為一個(gè)選項(xiàng) ,或者其他的最合適的也能作為選項(xiàng)。但是這可能只是我個(gè)人意見,也許我最好稱自己為招聘科學(xué)家。
通過討論的方式我們將繼續(xù)探索,哪些領(lǐng)域的專業(yè)知識(shí)你還需要掌握(如果你還沒有的話)。
1. 解決問題
如果這個(gè)不是你清單中的首位的話,馬上去修改。所有科學(xué)核心都是解決問題:一個(gè)偉大的數(shù)據(jù)科學(xué)家也是一個(gè)偉大的問題解決者;就是這么簡(jiǎn)單。需要更進(jìn)一步的證明嗎,基本我在這個(gè)項(xiàng)目中碰到的每一個(gè)人(不管其背景和目前工作環(huán)境如何)都提到數(shù)據(jù)科學(xué)中最重要的因素就是解決問題。
很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統(tǒng)計(jì)/機(jī)器學(xué)習(xí)技術(shù)也可以認(rèn)為是你解決問題的工具。新的技術(shù)出現(xiàn)了,科技進(jìn)步了。唯一不變的就是解決問題。
在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時(shí)有且僅有一個(gè)方式來進(jìn)行提高:那就是練習(xí)、練習(xí)、練習(xí)。在后面我們會(huì)回顧這部分內(nèi)容,但是現(xiàn)在你只需要記住:你只能通過嘗試來掌握某件事情。
2. 統(tǒng)計(jì)/機(jī)器學(xué)習(xí)
看完上面的內(nèi)容,似乎我輕視了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。不過在這里我們并不是討論一個(gè)強(qiáng)力的工具;它們是非常復(fù)雜的(而且在某種程度上是非常深?yuàn)W的領(lǐng)域),如果你沒有專業(yè)的知識(shí),你也不會(huì)很快地解決數(shù)據(jù)科學(xué)問題。
進(jìn)一步對(duì)這些詞進(jìn)行解釋說明,機(jī)器學(xué)習(xí)可以被認(rèn)為是從人工智能/計(jì)算科學(xué)與統(tǒng)計(jì)學(xué)中發(fā)展起來的多學(xué)科領(lǐng)域。它通常被認(rèn)為是人工智能的一個(gè)子領(lǐng)域,這是正確的,但是很重要的是要意識(shí)到?jīng)]有統(tǒng)計(jì)學(xué)的話就沒有機(jī)器學(xué)習(xí)(機(jī)器學(xué)習(xí)非常依賴統(tǒng)計(jì)算法來工作)。很長(zhǎng)一段時(shí)間依賴統(tǒng)計(jì)學(xué)家都被機(jī)器學(xué)習(xí)所輕視,但是在這兩個(gè)領(lǐng)域的合作才造就了最近的發(fā)展(參見統(tǒng)計(jì)學(xué)習(xí)理論),順便提下高維統(tǒng)計(jì)學(xué)習(xí)只有在統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)結(jié)果合作時(shí)才會(huì)有良好的結(jié)果。
3. 計(jì)算
- 編程
對(duì)于我們來說只需要簡(jiǎn)單的接觸程序就行,因?yàn)樗鼞?yīng)該是很直觀的:但是對(duì)數(shù)據(jù)科學(xué)家來說編程是必須要會(huì)的。設(shè)想下如果你不會(huì)編程的話,如何才能通過編寫一段獨(dú)特的算法來實(shí)現(xiàn)你的理論?又或者建立一個(gè)統(tǒng)計(jì)模型?
- 分布式計(jì)算
并不是所有事情都需要超級(jí)大的數(shù)據(jù)組,但是考慮到現(xiàn)代世界的情況,建議在工作中都加上大數(shù)據(jù)。簡(jiǎn)而言之:?jiǎn)我挥?jì)算機(jī)中的主要內(nèi)存并不能實(shí)現(xiàn)大數(shù)據(jù)處理,如果你想同時(shí)在數(shù)百臺(tái)虛擬機(jī)中訓(xùn)練模型的話,你需要能夠使用分布計(jì)算與并行算法。
- 軟件工程
對(duì)于A類數(shù)據(jù)科學(xué)而言,讓我明確一點(diǎn):工程是一門獨(dú)立的學(xué)科。因此如果這是你想成為的數(shù)據(jù)科學(xué)家類型,你其實(shí)不需要成為一個(gè)工程師。然而,如果你想把機(jī)器學(xué)習(xí)算法轉(zhuǎn)化到應(yīng)用中(即B類),那么你將需要一個(gè)強(qiáng)大的軟件工程基礎(chǔ)。
- 手動(dòng)轉(zhuǎn)換數(shù)據(jù)
數(shù)據(jù)清理/準(zhǔn)備是數(shù)據(jù)科學(xué)的重要內(nèi)在組成部分。這將耗費(fèi)你大多數(shù)時(shí)間。倘若你沒有成功地對(duì)數(shù)據(jù)集進(jìn)行降噪(例如,錯(cuò)誤賦值,非標(biāo)準(zhǔn)化分類等),將會(huì)對(duì)建模的準(zhǔn)確性產(chǎn)生影響,最終導(dǎo)致產(chǎn)生錯(cuò)誤的結(jié)論。因此,如果你尚未做好處理數(shù)據(jù)的準(zhǔn)備,這將使你先前的知識(shí)積累顯得無關(guān)重要。
有一點(diǎn)是非常重要的且值得注意的,即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭(zhēng)議的話題,在數(shù)據(jù)儲(chǔ)存方面,許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以,如果你尚未準(zhǔn)備好融入這個(gè)環(huán)境中,想要處理純粹的數(shù)據(jù)集,商業(yè)數(shù)據(jù)科學(xué)可能不是最適合你的選擇。
- 工具與技術(shù)
直至目前,你應(yīng)當(dāng)意識(shí)到,成為一名具備解決問題的能力的數(shù)據(jù)科學(xué)家相比于其他一切條件來講是重中之重:因?yàn)榧夹g(shù)將不斷發(fā)生變化,能夠在相對(duì)較短的時(shí)間內(nèi)得到掌握。但是,我們不能對(duì)其他影響因素置之不理,因而,能夠認(rèn)清楚如今應(yīng)用最廣泛的工具對(duì)于成為一名數(shù)據(jù)科學(xué)家是有用的。
讓我們先從編程語言談起,R與Python是兩種最常用的編程語言,因而,如果能夠選擇的話,希望你選用其中一種語言用于實(shí)驗(yàn)研究。
尤其是在A類數(shù)據(jù)科學(xué)工作領(lǐng)域,具備能夠直觀地觀察數(shù)據(jù)的能力將會(huì)對(duì)與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解,但是如果不能有效地呈現(xiàn)/解釋這些研究成果,那又將有什么用呢?事實(shí)上,你運(yùn)用什么工具實(shí)現(xiàn)數(shù)據(jù)直觀可視化并不重要,可以是通過使用R或Tableau(當(dāng)時(shí)最為流行的編程語言),但是,說實(shí)話,工具是不太重要的。
最后,不論我們所討論的是關(guān)系型數(shù)據(jù)庫,還是運(yùn)用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫,由于SQL是當(dāng)時(shí)產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言,大多數(shù)公司都非常看重SQL這種編程語言。SQL對(duì)于手動(dòng)轉(zhuǎn)換數(shù)據(jù)尤為重要,至少在處理更大規(guī)模的數(shù)據(jù)庫時(shí)。總之,SQL真的值得你花費(fèi)一定的時(shí)間來好好研究應(yīng)用。
- 交流/商業(yè)頭腦
在商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域工作,具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究類型的工作(盡管我們要面對(duì)現(xiàn)實(shí),在產(chǎn)業(yè)界并沒有很多這種類型的工作),絕大多數(shù)數(shù)據(jù)科學(xué)領(lǐng)域的工作都涉及到業(yè)界交流互動(dòng),通常是與非學(xué)者類型的人打交道。
具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計(jì)學(xué)方面的觀點(diǎn)轉(zhuǎn)化為可以想普通大眾推薦的行動(dòng)或啟發(fā)性觀點(diǎn)也是重要的,特別是對(duì)于A類型數(shù)據(jù)科學(xué)領(lǐng)域的工作來講。我曾與Yanir就該話題交談過,他的觀點(diǎn)如下:
“我發(fā)現(xiàn)一種奇怪的現(xiàn)象,當(dāng)一些技術(shù)型人才開始使用行話與人交流時(shí),他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才,的目光早已落到了別處。在交談過程中,能夠設(shè)身處地地為他人著想是重要的。”
搖滾明星
乍看這樣一個(gè)標(biāo)題,你可能會(huì)困惑不解:事實(shí)上,我用這一標(biāo)題暗含諷刺意味。當(dāng)然,數(shù)據(jù)科學(xué)家可不是搖滾明星,忍者,獨(dú)角獸或其他任何一種神秘生物。如果你計(jì)劃視自己為上述任何一種生物,那你可能該對(duì)著鏡子好好大量自己一番。但是,講到這里,我離題了。我想要表達(dá)的觀點(diǎn)是,有一些數(shù)據(jù)科學(xué)家,他們具備頂尖的專業(yè)水平,也可能專業(yè)水平更為高端。在別人眼中,可謂稀有物種,尤為寶貴。如果你有此般天賦或愿望成為其中一員,那簡(jiǎn)直是太棒了。但是,如果你不具備這種才能或愿望,請(qǐng)記得:你可能在數(shù)據(jù)科學(xué)的某些領(lǐng)域做的術(shù)業(yè)有專攻,而且通常,好的團(tuán)隊(duì)是由精通于不同專業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家組成的。決定自己的研究重點(diǎn)在哪一領(lǐng)域,這個(gè)問題有回到我們之前講的個(gè)人興趣和能力這個(gè)話題上,我們將在下一章對(duì)該話題作繼續(xù)討論。
第二章:自我剖析
現(xiàn)在我們正在取得進(jìn)步!成功地消化了第一章的內(nèi)容之后,你現(xiàn)在要做好準(zhǔn)備開始制定個(gè)人目標(biāo)。但是,我們首先要回顧一下——不妨來杯咖啡,尋一隅安靜之所,深思下面的問題:
1.你為什么想要成為一名數(shù)據(jù)科學(xué)家?
2.對(duì)哪一類型的數(shù)據(jù)科學(xué)感興趣?
3.你已經(jīng)具備了哪些天賦或相關(guān)技能?
為什么認(rèn)真思考這些問題是重要的?簡(jiǎn)而言之:數(shù)據(jù)科學(xué)是一個(gè)專業(yè)的研究領(lǐng)域,因而,除非你已經(jīng)掌握了我們?cè)诘谝徽轮刑岬降闹R(shí)與技能,否則從事該領(lǐng)域的研究并不是一種輕松的選擇。講到這里,有一點(diǎn)對(duì)合理解決前兩個(gè)問題尤為重要:你需要為從事數(shù)據(jù)科學(xué)領(lǐng)域的研究找到合理的理由,否則,當(dāng)遇到困難時(shí),很容易半途而廢。
為了詳細(xì)闡釋上面的觀點(diǎn),我們來聽聽Dylan Hogg的見地。Dylan之前是一名軟件工程師,現(xiàn)在是數(shù)據(jù)科學(xué)研究協(xié)會(huì)的領(lǐng)導(dǎo)者,數(shù)據(jù)科學(xué)研究會(huì)為運(yùn)用機(jī)器學(xué)習(xí)(NLP)為雇主和相關(guān)候選人員建立聯(lián)系搭建了一個(gè)平臺(tái)。Dylan是如何從軟件工程師成功地轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的(他仍然處于轉(zhuǎn)型期),下面我們將討論轉(zhuǎn)型過程中應(yīng)當(dāng)具備的條件,他講到:
“不論學(xué)歷高低,經(jīng)歷豐富與否,有一些內(nèi)在的東西尤為重要,那就是一個(gè)人的求知欲、決心和毅力。你會(huì)遇到很多困難:也許是算法方面出錯(cuò),也許是遇到技術(shù)瓶頸。不論遇到什么樣的困難,你都能夠找到最優(yōu)的方法來研究機(jī)器學(xué)習(xí)算法或軟件工程,但是,倘若你的信心不夠堅(jiān)定,你將會(huì)放棄或無法克服遇到的困難。”
這下你會(huì)懂了:在學(xué)習(xí)過程中,你不僅僅會(huì)遇到困難;在工作生活中,你會(huì)接二連三地遇到難題,因而,你最好能夠保證有合理的理由來激勵(lì)自己,而不僅僅因?yàn)槟阌X得擁有“科學(xué)家”這一頭銜有多酷。
但是,我們應(yīng)當(dāng)如何應(yīng)對(duì)第三個(gè)問題?為什么擁有相關(guān)技能是重要的?對(duì),一個(gè)人的起點(diǎn)會(huì)對(duì)選擇最適合自己的數(shù)據(jù)科學(xué)類型及你應(yīng)當(dāng)從自己感興趣的領(lǐng)域?qū)W到的知識(shí)產(chǎn)生影響?為了能夠恰當(dāng)?shù)鼗卮疬@個(gè)問題,有必要探尋通往數(shù)據(jù)科學(xué)領(lǐng)域的典型途徑,我們應(yīng)當(dāng)首先從更為廣闊的科學(xué)領(lǐng)域開始。
注:在許多定量學(xué)科中有許多人具備向數(shù)據(jù)科學(xué)轉(zhuǎn)型的素質(zhì)。在這里我就不一一列舉了,但是,需要強(qiáng)調(diào)的重點(diǎn)是:如果你花費(fèi)時(shí)間來真正理解每種類型數(shù)據(jù)科學(xué)之間存在的細(xì)微差異,不論你的知識(shí)背景如何,你都將會(huì)意識(shí)到自己所具備的相關(guān)技能的重要性。
其他科學(xué)學(xué)科
這不是通往數(shù)據(jù)科學(xué)領(lǐng)域最平凡的道路;我們接下來將要討論統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)在數(shù)據(jù)科學(xué)研究中的重要性。但是,許多領(lǐng)域的科學(xué)家都具有嫻熟的相關(guān)技能(特別是物理學(xué)領(lǐng)域),許多人在這一方面已經(jīng)跳過了。
為了對(duì)此進(jìn)行解釋,請(qǐng)?jiān)试S我介紹Will Hanninger,澳洲聯(lián)邦銀行數(shù)據(jù)科學(xué)家。之前,Will是歐洲核子研究中心的粒子物理學(xué)家,發(fā)現(xiàn)了希格斯玻色子,下面是他的語錄:
“在物理學(xué)界,你能夠自然而然地學(xué)習(xí)到所需要的數(shù)據(jù)科學(xué)領(lǐng)域的知識(shí):編程、操作數(shù)據(jù),獲取原始數(shù)據(jù)并根據(jù)實(shí)用性對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。你能夠?qū)W習(xí)到統(tǒng)計(jì)學(xué)知識(shí),重要的是:你將學(xué)到解決問題的能力。這些是作為一名數(shù)據(jù)科學(xué)家應(yīng)當(dāng)具備的基本技能。”
因此,技能組合具有高度可轉(zhuǎn)換性,最重要的是獲取解決問題的能力。工具與技術(shù)兩者之間將會(huì)產(chǎn)生差異,例如,盡管機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的同義詞,但是,就更為寬泛的科學(xué)而言,這種同義關(guān)系是不常見的。在上述討論中,我們一直談及的是高智商人才,他們具有在短時(shí)間內(nèi)學(xué)會(huì)使用工具與技術(shù)的能力。
下面我們以Sean Farrell的科研經(jīng)歷為例。Sean所學(xué)專業(yè)是天體物理學(xué),之后進(jìn)入澳大利亞商業(yè)數(shù)據(jù)科學(xué)研究領(lǐng)域,在研究過程,他就“為什么科學(xué)家在數(shù)據(jù)科學(xué)領(lǐng)域的損失反而是收獲”這一題目寫了一篇著名的博文。下面這段話尤為中肯:
“至今為止,尚未發(fā)現(xiàn)一種能夠培養(yǎng)出一位數(shù)據(jù)科學(xué)家的正式訓(xùn)練方法。多數(shù)數(shù)據(jù)科學(xué)家都來自統(tǒng)計(jì)學(xué)或計(jì)算機(jī)科學(xué)領(lǐng)域。然而,盡管其他研究領(lǐng)域也能夠培養(yǎng)上述列舉的技能,但是不能涵蓋所有的相關(guān)技能。統(tǒng)計(jì)學(xué)家非常擅長(zhǎng)數(shù)學(xué)和統(tǒng)計(jì),通常在編程這一塊兒的技能稍顯欠缺。計(jì)算機(jī)科學(xué)家非常擅長(zhǎng)編程,但是,在理解統(tǒng)計(jì)學(xué)知識(shí)方面存在難度。兩個(gè)領(lǐng)域的科學(xué)家都具備高水平的(盡管不同的)數(shù)據(jù)分析技能,但是不擅長(zhǎng)創(chuàng)新性地解決問題,這種技能也是難以教會(huì)的。”
為了避免誤解,請(qǐng)記得我們今天討論的上下文語境。Sean的一席話并不意味著來自統(tǒng)計(jì)學(xué)或計(jì)算機(jī)科學(xué)領(lǐng)域的所有數(shù)據(jù)科學(xué)家都缺乏創(chuàng)新性解決問題的能力;他的觀點(diǎn)是:相比統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué),廣泛意義上的科學(xué)對(duì)解決問題的技能要求很高。
統(tǒng)計(jì)學(xué)
談及到科學(xué),應(yīng)當(dāng)仔細(xì)研究統(tǒng)計(jì)學(xué)。近來,許多統(tǒng)計(jì)學(xué)中的分支學(xué)科被重新冠以數(shù)據(jù)科學(xué)之名,因此,在某種程度上,我們好像正在談?wù)撜Z義學(xué)知識(shí)。但是,正如我先前談到的,我認(rèn)為科學(xué)方法應(yīng)當(dāng)被當(dāng)作一門科學(xué):難道提出假設(shè),設(shè)計(jì)可行的實(shí)驗(yàn)方案等研究步驟不能稱得上“方法論”嗎?倘若不是的話,也許像“統(tǒng)計(jì)學(xué)家”或“模型分析師”這樣的頭銜更為貼切。
暫且將這一問題放一放,倘若你是產(chǎn)業(yè)界的一名統(tǒng)計(jì)員或者剛剛從統(tǒng)計(jì)學(xué)專業(yè)畢業(yè),那么你可能已經(jīng)擁有成為一名數(shù)據(jù)科學(xué)家應(yīng)當(dāng)具備的知識(shí)與素養(yǎng)。相關(guān)知識(shí)素養(yǎng)的形成主要依靠以下因素:
- 首先,你在機(jī)器學(xué)習(xí)技能方面有何經(jīng)驗(yàn)?正如我們?cè)诘谝徽绿岬降模y(tǒng)計(jì)建模與機(jī)器學(xué)習(xí)是相互關(guān)聯(lián)的,但是,在應(yīng)用到大型數(shù)據(jù)集中,后者具有更多的優(yōu)勢(shì)。當(dāng)機(jī)器學(xué)習(xí)在產(chǎn)業(yè)界的應(yīng)用越來越受到關(guān)注,實(shí)際上,機(jī)器學(xué)習(xí)已經(jīng)成為各種類型的數(shù)據(jù)科學(xué)。
- 其次,我們?cè)僦貜?fù)一遍,你對(duì)數(shù)據(jù)科學(xué)的哪一領(lǐng)域感興趣?很明顯,擁有統(tǒng)計(jì)學(xué)背景更加有利于你勝任A類型職位,因而,如果你將目標(biāo)設(shè)定為B類型職位,未來還需要學(xué)習(xí)很多知識(shí)。
- 最后,你是否擁有處理數(shù)據(jù)的實(shí)際經(jīng)驗(yàn)?正如我們?cè)诘谝徽轮刑岬降模謩?dòng)轉(zhuǎn)換數(shù)據(jù)是商業(yè)數(shù)據(jù)科學(xué)的重要組成部分,而來自統(tǒng)計(jì)學(xué)領(lǐng)域的科學(xué)家手動(dòng)轉(zhuǎn)換數(shù)據(jù)的能力相對(duì)薄弱。
計(jì)算機(jī)科學(xué)/軟件工程
如果你在人工智能或計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)習(xí)已經(jīng)達(dá)到前沿水平,你極有可能已經(jīng)能夠勝任B類型的數(shù)據(jù)科學(xué)研究工作。但是,我們這里將要考慮一條數(shù)據(jù)科學(xué)家常走的科研道路:一名經(jīng)驗(yàn)豐富的軟件工程師想要轉(zhuǎn)型進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。
一名軟件工程師在機(jī)器學(xué)習(xí)領(lǐng)域可能富有經(jīng)驗(yàn),也可能經(jīng)驗(yàn)甚少。但是,B類型數(shù)據(jù)科學(xué)要求在軟件工程原則方面擁有扎實(shí)的基礎(chǔ),因而,不論怎樣,擁有軟件工程方面的學(xué)術(shù)背景將使你更適合該領(lǐng)域的研究。我曾經(jīng)與澳洲聯(lián)邦銀行高級(jí)數(shù)據(jù)科學(xué)家(先前是一名軟件工程師)就此問題交流過,以下是他的觀點(diǎn):
“大量數(shù)據(jù)科學(xué)工作其實(shí)都涉及到軟件工程方面的知識(shí),不僅僅包括設(shè)計(jì)健全的系統(tǒng),而且包括簡(jiǎn)單地編寫軟件。你可以通過自動(dòng)化完成眾多任務(wù),如果想要開展實(shí)驗(yàn),你需要編寫代碼,如果你能夠快速編碼,將對(duì)實(shí)驗(yàn)進(jìn)展產(chǎn)生重大影響。在攻讀博士學(xué)位過程中,我每天要做成千上萬項(xiàng)實(shí)驗(yàn),如此浩大的工程是不可能通過人工完成的。擁有軟件工程專業(yè)的學(xué)術(shù)背景意味著我能夠快速完成設(shè)定的實(shí)驗(yàn)任務(wù),然而,許多其他學(xué)術(shù)背景的學(xué)生需要費(fèi)力處理基本的軟件問題:他們真的非常擅長(zhǎng)數(shù)學(xué),但是要切實(shí)證明他們的觀點(diǎn)還需要耗費(fèi)大量時(shí)間。”
Dylan對(duì)于該問題補(bǔ)充道:
“如果你想要在生產(chǎn)環(huán)境中高效運(yùn)用機(jī)器學(xué)習(xí)算法,良好的軟件工程實(shí)踐能力是非常寶貴的。這其中涉及到各種各樣的軟件工程知識(shí)——如可維護(hù)的代碼,可供分享的代碼庫,以便于更多的人能夠投入到數(shù)據(jù)科學(xué)領(lǐng)域的研究中,如在計(jì)算機(jī)中記錄信息,排除生產(chǎn)過程中的故障,算法擴(kuò)展,你應(yīng)當(dāng)認(rèn)識(shí)到:一旦這些知識(shí)得到加強(qiáng),你便能夠通過這樣的方式構(gòu)建數(shù)據(jù)科學(xué)領(lǐng)域的知識(shí)框架。因此,如果你正在尋找一份能夠有效利用所掌握的知識(shí)的工作,這將使得軟件工程學(xué)術(shù)背景變得更為重要。”
我認(rèn)為,上述兩名數(shù)據(jù)科學(xué)家已經(jīng)對(duì)如何成功實(shí)現(xiàn)轉(zhuǎn)型這一問題做出了詳細(xì)闡釋,下面由我來總結(jié)如下:如果你是一名軟件工程師,而且很喜歡數(shù)學(xué),這將有助于你成為一名(B類型)數(shù)據(jù)科學(xué)家,前提是你已經(jīng)做好準(zhǔn)備在工作中掌握統(tǒng)計(jì)學(xué)/機(jī)器學(xué)習(xí)領(lǐng)域的知識(shí)。
數(shù)學(xué)
很容易得出這樣一個(gè)結(jié)論:數(shù)學(xué)知識(shí)為數(shù)據(jù)科學(xué)的所有研究領(lǐng)域打下堅(jiān)實(shí)的基礎(chǔ)。因而,期望許多數(shù)學(xué)家從事數(shù)據(jù)科學(xué)家的研究工作是合理的。但是,相對(duì)來講,少之又少的數(shù)學(xué)家成功轉(zhuǎn)型成為數(shù)據(jù)科學(xué)家,這一現(xiàn)象引發(fā)了我濃厚的興趣。
針對(duì)這一現(xiàn)象,有一種解釋:與其他研究領(lǐng)域相比,數(shù)學(xué)(純理論數(shù)學(xué)與應(yīng)用數(shù)學(xué))領(lǐng)域有相對(duì)較少的畢業(yè)生,但是,這種解釋未免顯得牽強(qiáng)。為了深究導(dǎo)致這種現(xiàn)象的原因,我曾經(jīng)同Building IQ(一家新成立的運(yùn)用先進(jìn)的算法優(yōu)化商業(yè)建筑中能源應(yīng)用的公司)首席數(shù)據(jù)科學(xué)家Boris Sackovic交談過。Boris擁有電氣工程與應(yīng)用數(shù)學(xué)雙重學(xué)術(shù)背景,與當(dāng)時(shí)許多數(shù)學(xué)家合作過,以下是他對(duì)該現(xiàn)象的見解:
“許多數(shù)學(xué)家為理論層面的問題,美麗的方程著迷,能夠洞察眾多數(shù)學(xué)原理所蘊(yùn)含的深層意義,當(dāng)時(shí)商業(yè)數(shù)據(jù)科學(xué)研究講求實(shí)證性,涉及到的多種多樣的知識(shí)與能力。一些數(shù)學(xué)家喜歡這種實(shí)證性,而一些則表現(xiàn)出討厭的態(tài)度。真實(shí)的情況更為復(fù)雜,你不能兼顧所有的情況,因而得具備能夠靈活處理所遇到難題的能力。而這是商業(yè)數(shù)據(jù)科學(xué)的重點(diǎn)所在:找到更快更好、切實(shí)可行的掙錢方案。對(duì)于那些具有濃厚數(shù)學(xué)背景或理論背景的科學(xué)家而言,要理解商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域的運(yùn)行模式可能存在不少難題。我曾經(jīng)遇到過很多數(shù)學(xué)專業(yè)的博士,他們?cè)谟蓪W(xué)術(shù)界向商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域過度期間可是吃了不少苦頭。”
需要注意的是,Boris在這里談及的是純理論數(shù)學(xué)家,當(dāng)然,他也補(bǔ)充說,在自己的職業(yè)生涯中也曾與許多優(yōu)秀的應(yīng)用數(shù)學(xué)家打過交道。這樣一來上面的討論便講得通了,因?yàn)榧兝碚摂?shù)學(xué)家可能會(huì)吸引那些熱愛理論的人,而不會(huì)吸引那些熱愛解決實(shí)際問題的人。理論研究工作并未涉及到太多數(shù)據(jù)處理問題,但是,我們都知道數(shù)據(jù)對(duì)于數(shù)據(jù)科學(xué)領(lǐng)域的研究極為重要。
就工作類型匹配度問題,多數(shù)數(shù)學(xué)家可能更適合學(xué)習(xí)A類型數(shù)據(jù)科學(xué)領(lǐng)域的工具和理論。但是,也有一些學(xué)習(xí)計(jì)算機(jī)科學(xué)的(實(shí)質(zhì)上,理論計(jì)算機(jī)科學(xué)屬于數(shù)學(xué)的一個(gè)分支)數(shù)學(xué)家,因此,具備這種學(xué)術(shù)背景的數(shù)學(xué)家可能更適合B類型數(shù)據(jù)科學(xué)領(lǐng)域的工作。
從上述討論結(jié)果中可以得出一條非常重要的觀點(diǎn),即要理解商業(yè)數(shù)據(jù)科學(xué)真正要求數(shù)據(jù)科學(xué)家具備哪些知識(shí)和技能。倘若你能夠真正清楚地認(rèn)識(shí)到面臨的挑戰(zhàn),所需要做的便是為了自己的目標(biāo)努力前行。但是,倘若相比實(shí)際應(yīng)用,你更熱衷于理論研究,你可能要三思而后行。
一塊空白的畫布
如果你剛剛起步,也許你還是一名學(xué)生,喜歡數(shù)學(xué)、科學(xué)與計(jì)算,喜歡數(shù)據(jù)科學(xué),這對(duì)你來講不失為一則好消息:你可以不受先前學(xué)術(shù)背景的限制,選擇屬于自己的科研道路。現(xiàn)在有許多與數(shù)據(jù)科學(xué)相關(guān)的專業(yè)課程,涵蓋計(jì)算機(jī)科學(xué)和數(shù)學(xué)/統(tǒng)計(jì)學(xué)等。當(dāng)然你不可能一夜之間成為一名數(shù)據(jù)科學(xué)家,現(xiàn)階段你需要樹立不斷學(xué)習(xí)的理念,利用各種數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)習(xí)資源, 累積數(shù)據(jù)處理方面的實(shí)際經(jīng)驗(yàn),具備與人交流溝通的能力,積極迎接商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域未來的挑戰(zhàn)!
End.