一篇文章告訴你如何成為數據科學家
通常來說,年輕人都很容易立志成為什么,例如成為一名科學家,然后又很快放棄。這一方面是因為擺在他們面前的誘惑太多,也因為成為一名科學家真的很不容易。
這一點放在數據科學上尤其突出。實際上,近年來隨著數據科學和機器學習的火爆,我們經常能遇到剛畢業的大學生立志成為數據科學家,但很快又放棄的例子。究其原因,我認為在很大程度上是因為要成為一名真正的數據科學家,需要掌握的專業知識實在是太多了:包括計算機科學、編程基礎、數學知識、機器學習算法甚至商業洞察力等等。
看起來這些知識無窮無盡,而且還在不斷地發展和變化,似乎終其一生也無法完全掌握。但實際上并非如此,下文我們整理了成為數據科學家的四個關鍵因素,它們并沒有想象中的龐雜,而且正是由于不斷的發展和變化,因此對于新手來說通常只需要關注其中比較核心的基礎知識就可以了。
成為數據科學家的四個關鍵因素:
- 編程基礎 :例如 R 語言和 Python 語言,這兩種語言是數據科學家們最常使用的數據建模、數據清理和數據管理語言。
- 機器學習核心算法 :例如回歸、樸素貝葉斯、支持向量機 SVM(Support Vector Machine)、隨機森林等,大部分面試官都希望面試者們能了解這些最基本的機器學習算法。
- 在恰當的問題上磨煉自己 :對于數據科學家而言,優秀和偉大之間的一個重要差別就是:找準一個恰當的問題并為之鍥而不舍的能力。
- 能講述一個激動人心的故事 :這將有助于你說服客戶并讓他們最終采納你的意見。
下面我們圍繞這四點展開闡述。
編程語言
與精通一門或者一系列編程語言相比,數據科學家應該更關注編程的靈活性。即他們需要具備遷移學習的能力,將一種語言的編程技巧輕松遷移到當前項目需要的語言中,目標是找到解決問題的最佳方案。
為此,對新手來說最好的辦法是先學習一些應用廣泛的基礎性語言。例如專注于統計計算的 R 語言,以及更具通用性的 Python 語言。一旦你熟悉了這兩種語言,那么學習其他新語言就會容易得多,因為它們之間一定存在一些通用的特性和語法細節。
總之,作為一名數據科學家,編程語言只是一種工具,你并不需要成為編程領域的專家。但你必須熟悉它們,以便于利用這些工具解決一些現實的數據研究問題,以及一些簡單的編碼和調試問題。
機器學習算法
這里首先需要強調的是,在機器學習算法中我們仍然應該專注于基礎知識,避免盲目追求最新技術。
這是因為沒有了基礎的支持,最新的技術成果也將變得毫無意義。一個數據科學家應該關注于技術核心,例如評估機器學習分類算法的優劣,了解客戶更關心哪些分類錯誤等。畢竟,真實成本分析比準確率更有價值。
同樣,懂得各種機器學習算法之間的差異,能夠為模型選擇最恰當的參數也非常重要。一般基礎的機器學習分類器包括邏輯和線性回歸、樸素貝葉斯、隨機森林和 K 均值聚類等。這里需要強調的是:機器學習是一個不斷發展變化的學科,不要試圖一蹴而就。也就是說,作為數據科學初學者,你不應該把太多的精力放在機器學習和人工智能上,而應該多考慮一些非技術的要素。
非技術性要素
認為技術要素是促成最終成功的最大驅動力,是一個非常常見的錯誤,對于數據科學家而言,我認為溝通技巧和解決問題的能力也許更加重要。因為這些能力將有助于你取得諸多具有影響力的成果:包括增加公司收入、創新產品甚至改變整個行業的走向。最終你將從一名普通的 SQL 程序猿成長為一個值得信賴的商業伙伴。下面列出我認為最重要的三點非技術要素。
1. 我認為最關鍵的一個 非技術要素就是“數據直覺”(data intuition) ,即結合領域內的專業知識和商業敏感性,提出最深刻的見解,并能夠快速決策的能力。數據直覺可以讓從業者以多種不同的方式理解數據,找出數據中的異常值,以及最不容易發覺的變化趨勢。
通常情況下我都會把處理數據問題視為一個檸檬,即隨著時間的推移,通過不斷努力,我究竟能從這顆檸檬里榨出多少有價值的果汁。而這也是數據直覺的含義:為了找到最優的解決方案,你已經嘗試了所有可能的方法,從數據中發掘了所有有價值的信息。
當然,培養自己的數據直覺需要時間,也需要實踐的積累。實際上,一個最有效的培養方法就是參與一些與自己的工作和生活息息相關的項目,例如買房子、或者買一輛新的山地自行車。另一個方法是處理與自己的愛好相關的數據。這種方法的優勢是:你對自己喜歡的行業已經有了一定的前期了解,另外你對該問題的結論也具有天然的熱情。最終,在這些項目中總結和積累的“直覺”將被應用于其他的數據分析場景。
2. 我認為第二點非常關鍵的非技術因素是解決問題的能力,也就是將客戶的需求轉化為具體的問題,并將其分解成一系列可以切實執行的解決方案的能力。以下是我在這方面的一些經驗總結,僅供參考:
- 深刻認識問題的內容和意義,只有充分認識了問題,才能解決問題;
- 找到可用數據,如果數據的格式有問題,找出解決辦法;
- 分析數據,并發掘其中決定性的變化趨勢,找到最能說明問題的變量或特征;
- 研究哪種分析算法和模型最高效,并預測、解釋結果;
- 將你的分析結果分享給利益相關者,并向他們征求意見。
3. 最后一點非技術要素:認識到你的工作不僅僅是數據分析,它也包括向非技術人員提供大數據意見指導。因為大多數普通用戶并不會談論數據,他們只關心營收、銷售、推廣和產品。將專業技術轉化為業務支持,這才是作為數據科學家的工作核心。
現在,請牢記上述四個關鍵點,向著數據科學家的目標奮勇前進吧,助你好運!
注:本文來源? medium ,原作者是 UCLA 統計學博士,雷鋒網編譯
End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? 一篇文章告訴你如何成為數據科學家