Hadoop哪家強？Hortonworks、Cloudera、MapR案例集錦

36大數(shù)據(jù) ? 9年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發(fā)行版供應(yīng)商的Hadoop應(yīng)用案例，真是各有神通，不服來辯。

Hadoop

Edo Interactive是一家美國市場營銷公司，幫助廣告主連接線上廣告和線下數(shù)據(jù)，提供數(shù)據(jù)驅(qū)動的個性化推薦服務(wù)。不過幾年前，Edo遇到了這樣的問題：數(shù)據(jù)倉庫系統(tǒng)處理信用卡交易數(shù)據(jù)耗時長，不能滿足公司向消費者和餐館進行個性化推薦的業(yè)務(wù)需求。

Edo負責(zé)基礎(chǔ)架構(gòu)和信息系統(tǒng)的高級副總裁Tim Garnto表示：“處理每天的數(shù)據(jù)，要花費27小時，所以，任務(wù)是根本完不成的。”2013年，Edo用Hadoop集群替換了基于PostgreSQL的系統(tǒng)，為公司構(gòu)建了數(shù)據(jù)資源池。

公司每天會收集來自全美5千萬次零售交易，把數(shù)據(jù)放到有20個節(jié)點的Cloudera發(fā)行的Hadoop集群上，使用Pentaho數(shù)據(jù)集成工具。從銀行和信用卡公司收集來的數(shù)據(jù)經(jīng)過處理，通過預(yù)測模型向持有銀行卡或信用卡的用戶推薦優(yōu)惠券等內(nèi)容。優(yōu)惠券信息由Edo的合作伙伴每周向客戶發(fā)送，自動和用戶的消費行為匹配。

Garnto介紹到，因為模型的復(fù)雜度不同，Edo的數(shù)據(jù)分析師可以在幾分鐘或幾小時內(nèi)處理數(shù)據(jù)，這在以前，是做不到的。

不過在數(shù)據(jù)池搭建上，公司也遇到困難，最初，只有一個IT人員有Hadoop和MapReduce編程框架的經(jīng)驗。公司組織了對內(nèi)部員工的培訓(xùn)，但新的MapReduce編程等于讓員工放棄了關(guān)系型數(shù)據(jù)庫的方法，公司在升級流程方面花費了很多時間。

要讓進入系統(tǒng)的生數(shù)據(jù)保持一致性，并生成標(biāo)準(zhǔn)化分析數(shù)據(jù)集也要花費一定的時間。Edo目前擁有的450億條記錄，總量255TB的數(shù)據(jù)對公司來說是核心資產(chǎn)，所以Garnto要倍加小心地管理，增添新的Hadoop生態(tài)系統(tǒng)技術(shù)，因為增加哪怕一項很小的技術(shù)，都會對系統(tǒng)工作的方式產(chǎn)生影響。Garnto因此說，在我們面臨的所有挑戰(zhàn)中，這是最有意思的，我們要富有遠見地規(guī)劃好集群開發(fā)的未來。

Cloudera 中國專區(qū)>>>

Hortonworks：降低硬件成本

收集和處理網(wǎng)絡(luò)、收集和物聯(lián)網(wǎng)活動數(shù)據(jù)的Webtrends是另一個數(shù)據(jù)資源池用戶。這是一家波蘭公司，它在去年7月部署了Hortonworks發(fā)行的Hadoop集群，在今年年初正式運行，最初是為了支持一款叫做Explore的產(chǎn)品，讓公司市場人員對客戶數(shù)據(jù)進行即時分析。公司負責(zé)產(chǎn)品架構(gòu)的總監(jiān)PeterCrossley表示，在60個節(jié)點的集群上，每個quarter上要添加500TB的數(shù)據(jù)，加起來有1.28PB。

Webtrends計劃使用Hadoop平臺替換原有存儲系統(tǒng)，通過使用Kafka信息隊列技術(shù)和自動處理腳本，網(wǎng)絡(luò)點擊數(shù)據(jù)可以進入集群，能夠在20到40毫秒之間進行數(shù)據(jù)分析。報表和分析基本上是實時的，比舊系統(tǒng)要快很多。Hadoop集群也支持更高級的分析，硬件成本要降低25%到50%。

使用Hadoop數(shù)據(jù)資源池，意味著公司管理和使用信息的意識要改變。之前，公司要首先同數(shù)據(jù)倉庫中廣泛的數(shù)據(jù)列中構(gòu)建通用的數(shù)據(jù)報表。

公司還要考慮數(shù)據(jù)資源池架構(gòu)和數(shù)據(jù)治理流程，以更好地管理Hadoop集群的數(shù)據(jù)。進入系統(tǒng)的生數(shù)據(jù)結(jié)構(gòu)松散，但在數(shù)據(jù)治理上有嚴格的規(guī)定。另外，公司將Hadoop集群分成了三個獨立的層，一層負責(zé)生數(shù)據(jù)，第二層負責(zé)增加的日常數(shù)據(jù)集，第三層負責(zé)第三方信息。每一層都有自己的數(shù)據(jù)分類和治理政策，因數(shù)據(jù)集不同而各異。

Hortonworks中國專區(qū)>>>

MapR：有序的數(shù)據(jù)存儲

基于云的預(yù)測分析軟件供應(yīng)商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop數(shù)據(jù)資源池時，也提到了要非常“有紀律、有組織”。如果不然，系統(tǒng)就會變成一個失控的垃圾場。

Razorsight為電信行業(yè)提供云基礎(chǔ)的分析服務(wù)，在2014年第二季度開始使用MapR發(fā)行的Hadoop集群。來自代理的客戶、運營和網(wǎng)絡(luò)數(shù)據(jù)通過自建的提取工具加載進系統(tǒng)，通過Spark處理引擎提供給數(shù)據(jù)科學(xué)家，該集群有5個產(chǎn)品節(jié)點，120TB的存儲容量。

像Webtrends一樣，Razorsight把數(shù)據(jù)資源池分為三個部分，一部分負責(zé)6個月以內(nèi)的數(shù)據(jù)，一部分負責(zé)時間更長但仍然有用的數(shù)據(jù)，最后一部分負責(zé)不再使用但需要保存的數(shù)據(jù)。目前，在前兩個部分，公司有超過20TB的數(shù)據(jù)。為了使系統(tǒng)運行的更順暢，公司聘請了有數(shù)據(jù)治理和分布系統(tǒng)部署經(jīng)驗的新員工，現(xiàn)有員工負責(zé)Hadoop、Spark和相關(guān)技術(shù)。

Hadoop集群每TB數(shù)據(jù)的成本是2千美元，是IBM Netezza數(shù)據(jù)倉庫系統(tǒng)的十分之一，不過Razorsight最開始建立Hadoop集群只是為了數(shù)據(jù)存儲，分析模型和數(shù)據(jù)可視化仍然是在舊系統(tǒng)中完成，部分原因是因為Netezza硬件和IBM的SPSS分析軟件綁定。Nathan預(yù)計今年年底能夠完成可視化層和分析資源池想Hadoop數(shù)據(jù)資源池架構(gòu)的遷移。

MapR 中國專區(qū)>>>

End.