欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

數據科學家面試常見的77個問題

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

下面是 77 個關于數據分析或者數據科學家招聘的時候會常會的幾個問題,供各位同行參考。

1 、你處理過的最大的數據量?你是如何處理他們的?處理的結果。

2 、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?

3 、什么是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計 2/8 原則?

4 、什么是:協同過濾、 n-grams, map reduce 、余弦距離?

5 、如何讓一個網絡爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的數據庫

6 、如何設計一個解決抄襲的方案?

7 、如何檢驗一個個人支付賬戶都多個人使用?

8 、點擊流數據應該是實時處理?為什么?哪部分應該實時處理?

9 、你認為哪個更好:是好的數據還是好模型?同時你是如何定義“好”?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義并不是那么好?

10 、什么是概率合并( AKA 模糊融合)?使用 SQL 處理還是其它語言方便?對于處理半結構化的數據你會選擇使用哪種語言?

11 、你是如何處理缺少數據的?你推薦使用什么樣的處理技術?

12 、你最喜歡的編程語言是什么?為什么?

13 、對于你喜歡的統計軟件告訴你喜歡的與不喜歡的 3 個理由。

14 SAS, R, Python, Perl 語言的區別是?

15 、什么是大數據的詛咒?

16 、你參與過數據庫與數據模型的設計嗎?

17 、你是否參與過儀表盤的設計及指標選擇?你對于商業智能和報表工具有什么想法?

18 、你喜歡 TD 數據庫的什么特征?

19 、如何你打算發 100 萬的營銷活動郵件。你怎么去優化發送?你怎么優化反應率?能把這二個優化份開嗎?

20 、如果有幾個客戶查詢 ORACLE 數據庫的效率很低。為什么?你做什么可以提高速度 10 倍以上,同時可以更好處理大數量輸出?

21 、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系數據庫更好?

22 、什么是哈希表碰撞攻擊?怎么避免?發生的頻率是多少?

23 、如何判別 mapreduce 過程有好的負載均衡?什么是負載均衡?

24 、請舉例說明 mapreduce 是如何工作的?在什么應用場景下工作的很好?云的安全問題有哪些?

25 、(在內存滿足的情況下)你認為是 100 個小的哈希表好還是一個大的哈希表,對于內在或者運行速度來說?對于數據庫分析的評價?

26 、為什么樸素貝葉斯差?你如何使用樸素貝葉斯來改進爬蟲檢驗算法?

27 、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)

28 、什么是星型模型?什么是查詢表?

29 、你可以使用 excel 建立邏輯回歸模型嗎?如何可以,說明一下建立過程?

30 、在 SQL, Perl, C++, Python 等編程過程上,待為了提升速度優化過相關代碼或者算法嗎?如何及提升多少?

31 、使用 5 天完成 90% 的精度的解決方案還是花 10 天完成 100% 的精度的解決方案?取決于什么內容?

32 、定義: QA (質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?

33 、普通線性回歸模型的缺陷是什么?你知道的其它回歸模型嗎?

34 、你認為葉數小于 50 的決策樹是否比大的好?為什么?

35 、保險精算是否是統計學的一個分支?如果不是,為何如何?

36 、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。

37 、為什么說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?

38 、你如何證明你帶來的算法改進是真的有效的與不做任何改變相比?你對 A/B 測試熟嗎?

39 、什么是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對于在數據集中插入噪聲數據從而來檢驗模型的敏感性的想法如何看?

40 、對于一下邏輯回歸、決策樹、神經網絡。在過去 15 年中這些技術做了哪些大的改進?

41 、除了主成分分析外你還使用其它數據降維技術嗎?你怎么想逐步回歸?你熟悉的逐步回歸技術有哪些?什么時候完整的數據要比降維的數據或者樣本好?

42 、你如何建議一個非參數置信區間?

43 、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?

44 、什么是歸因分析?如何識別歸因與相關系數?舉例。

45 、如何定義與衡量一個指標的預測能力?

46 、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗余、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?

47 、如何創建一個關鍵字分類?

48 、什么是僵尸網絡?如何進行檢測?

49 、你有使用過 API 接口的經驗嗎?什么樣的 API ?是谷歌還是亞馬遜還是軟件即時服務?

50 、什么時候自己編號代碼比使用數據科學者開發好的軟件包更好?

51 、可視化使用什么工具?在作圖方面,你如何評價 Tableau?R?SAS? 在一個圖中有效展現五個維度?

52 、什么是概念驗證?

53 、你主要與什么樣的客戶共事:內部、外部、銷售部門 / 財務部門 / 市場部門 /IT 部門的人?有咨詢經驗嗎?與供應商打過交道,包括供應商選擇與測試。

54 、你熟悉軟件生命周期嗎?及 IT 項目的生命周期,從收入需求到項目維護?

55 、什么是 cron 任務?

56 、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?

57 、是假陽性好還是假陰性好?

58 、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。

59 Zillow's 算法是如何工作的?

60 、如何檢驗為了不好的目的還進行的虛假評論或者虛假的 FB 帳戶?

61 、你如何創建一個新的匿名數字帳戶?

62 、你有沒有想過自己創業?是什么樣的想法?

63 、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什么替代?

64 、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什么樣的場景下?

65 、哪位數據科學有你最佩服?從哪開始?

66 、你是怎么開始對數據科學感興趣的?

67 、什么是效率曲線?他們的缺陷是什么,你如何克服這些缺陷?

68 、什么是推薦引擎?它是如何工作的?

69 、什么是精密測試?如何及什么時候模擬可以幫忙我們不使用精密測試?

70 、你認為怎么才能成為一個好的數據科學家?

71 、你認為數據科學家是一個藝術家還是科學家?

72 、什么是一個好的、快速的聚類算法的的計算復雜度?什么好的聚類算法?你怎么決定一個聚類的聚數?

73 、給出一些在數據科學中“最佳實踐的案例”。

74 、什么讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特征?

75 、你知道使用在統計或者計算科學中的“經驗法則”嗎?或者在商業分析中。

76 、你覺得下一個 20 年最好的 5 個預測方法是?

77 、你怎么馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤,或者是用作支撐作者的論點,而不是僅僅在羅列某個事物的信息?例如,對于每月官方定期在媒體公開發布的失業統計數據,你有什么感想?怎樣可以讓這些數據更加準確?

原文鏈接:

http://www.datasciencecentral.com/profiles/blogs/66-job-interview-questions-for-data-scientists


隨意打賞

如何成為數據科學家首席數據科學家美國數據科學家大數據科學家面試常見問題數據分析師數據科學家
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 色噜噜狠狠色综合久 | 网色视频 | 一级日韩 | 中国一级特黄aa毛片大片 | 欧美白人猛性xxxxx交69 | 天天射狠狠干 | 欧美成人伦理 | 久久国产视频精品 | 三区在线观看 | 91久久亚洲精品国产一区二区 | 国产99在线a视频 | 国产精品视频一 | 97天天干| 久久国产精品免费观看 | 久久久精品免费视频 | 久久精品视频2 | 成 人国产在线观看高清不卡 | 91久久亚洲最新一本 | 久久久久久九九 | 日韩久久免费视频 | 久久久久久久国产精品视频 | 亚洲精品伊人 | 久久精品国产一区二区 | 欧美成人七十二式性视频教程 | 爱我久久视频免费观看影视 | 国产精品欧美一区二区在线看 | 日日噜噜夜夜狠狠视频无 | jizz中国妇女 | 我要看欧美精品一级毛片 | a国产视频 | 久久精品亚洲一级毛片 | 国产成人免费高清视频 | 91视频国产高清 | 日本特级| 中国国语毛片免费观看视频 | 中文字幕亚洲欧美 | 2020年国产高中毛片在线视频 | 国产一级淫片a视频免费观看 | 91精品国产免费久久久久久 | 一级欧美一级日韩毛片99 | 欧美一级毛片在线一看 |