Hadoop哪家強?Hortonworks、Cloudera、MapR案例集錦
本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發(fā)行版供應(yīng)商的Hadoop應(yīng)用案例,真是各有神通,不服來辯。
Cloudera:加速數(shù)據(jù)分析
Edo Interactive是一家美國市場營銷公司,幫助廣告主連接線上廣告和線下數(shù)據(jù),提供數(shù)據(jù)驅(qū)動的個性化推薦服務(wù)。不過幾年前,Edo遇到了這樣的問題:數(shù)據(jù)倉庫系統(tǒng)處理信用卡交易數(shù)據(jù)耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業(yè)務(wù)需求。
Edo負責(zé)基礎(chǔ)架構(gòu)和信息系統(tǒng)的高級副總裁Tim Garnto表示:“處理每天的數(shù)據(jù),要花費27小時,所以,任務(wù)是根本完不成的。”2013年,Edo用Hadoop集群替換了基于PostgreSQL的系統(tǒng),為公司構(gòu)建了數(shù)據(jù)資源池。
公司每天會收集來自全美5千萬次零售交易,把數(shù)據(jù)放到有20個節(jié)點的Cloudera發(fā)行的Hadoop集群上,使用Pentaho數(shù)據(jù)集成工具。從銀行和信用卡公司收集來的數(shù)據(jù)經(jīng)過處理,通過預(yù)測模型向持有銀行卡或信用卡的用戶推薦優(yōu)惠券等內(nèi)容。優(yōu)惠券信息由Edo的合作伙伴每周向客戶發(fā)送,自動和用戶的消費行為匹配。
Garnto介紹到,因為模型的復(fù)雜度不同,Edo的數(shù)據(jù)分析師可以在幾分鐘或幾小時內(nèi)處理數(shù)據(jù),這在以前,是做不到的。
不過在數(shù)據(jù)池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce編程框架的經(jīng)驗。公司組織了對內(nèi)部員工的培訓(xùn),但新的MapReduce編程等于讓員工放棄了關(guān)系型數(shù)據(jù)庫的方法,公司在升級流程方面花費了很多時間。
要讓進入系統(tǒng)的生數(shù)據(jù)保持一致性,并生成標(biāo)準(zhǔn)化分析數(shù)據(jù)集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的數(shù)據(jù)對公司來說是核心資產(chǎn),所以Garnto要倍加小心地管理,增添新的Hadoop生態(tài)系統(tǒng)技術(shù),因為增加哪怕一項很小的技術(shù),都會對系統(tǒng)工作的方式產(chǎn)生影響。Garnto因此說,在我們面臨的所有挑戰(zhàn)中,這是最有意思的,我們要富有遠見地規(guī)劃好集群開發(fā)的未來。
Cloudera 中國專區(qū)>>>
Hortonworks:降低硬件成本
收集和處理網(wǎng)絡(luò)、收集和物聯(lián)網(wǎng)活動數(shù)據(jù)的Webtrends是另一個數(shù)據(jù)資源池用戶。這是一家波蘭公司,它在去年7月部署了Hortonworks發(fā)行的Hadoop集群,在今年年初正式運行,最初是為了支持一款叫做Explore的產(chǎn)品,讓公司市場人員對客戶數(shù)據(jù)進行即時分析。公司負責(zé)產(chǎn)品架構(gòu)的總監(jiān)PeterCrossley表示,在60個節(jié)點的集群上,每個quarter上要添加500TB的數(shù)據(jù),加起來有1.28PB。
Webtrends計劃使用Hadoop平臺替換原有存儲系統(tǒng),通過使用Kafka信息隊列技術(shù)和自動處理腳本,網(wǎng)絡(luò)點擊數(shù)據(jù)可以進入集群,能夠在20到40毫秒之間進行數(shù)據(jù)分析。報表和分析基本上是實時的,比舊系統(tǒng)要快很多。Hadoop集群也支持更高級的分析,硬件成本要降低25%到50%。
使用Hadoop數(shù)據(jù)資源池,意味著公司管理和使用信息的意識要改變。之前,公司要首先同數(shù)據(jù)倉庫中廣泛的數(shù)據(jù)列中構(gòu)建通用的數(shù)據(jù)報表。
公司還要考慮數(shù)據(jù)資源池架構(gòu)和數(shù)據(jù)治理流程,以更好地管理Hadoop集群的數(shù)據(jù)。進入系統(tǒng)的生數(shù)據(jù)結(jié)構(gòu)松散,但在數(shù)據(jù)治理上有嚴格的規(guī)定。另外,公司將Hadoop集群分成了三個獨立的層,一層負責(zé)生數(shù)據(jù),第二層負責(zé)增加的日常數(shù)據(jù)集,第三層負責(zé)第三方信息。每一層都有自己的數(shù)據(jù)分類和治理政策,因數(shù)據(jù)集不同而各異。
Hortonworks中國專區(qū)>>>
MapR:有序的數(shù)據(jù)存儲
基于云的預(yù)測分析軟件供應(yīng)商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop數(shù)據(jù)資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統(tǒng)就會變成一個失控的垃圾場。
Razorsight為電信行業(yè)提供云基礎(chǔ)的分析服務(wù),在2014年第二季度開始使用MapR發(fā)行的Hadoop集群。來自代理的客戶、運營和網(wǎng)絡(luò)數(shù)據(jù)通過自建的提取工具加載進系統(tǒng),通過Spark處理引擎提供給數(shù)據(jù)科學(xué)家,該集群有5個產(chǎn)品節(jié)點,120TB的存儲容量。
像Webtrends一樣,Razorsight把數(shù)據(jù)資源池分為三個部分,一部分負責(zé)6個月以內(nèi)的數(shù)據(jù),一部分負責(zé)時間更長但仍然有用的數(shù)據(jù),最后一部分負責(zé)不再使用但需要保存的數(shù)據(jù)。目前,在前兩個部分,公司有超過20TB的數(shù)據(jù)。為了使系統(tǒng)運行的更順暢,公司聘請了有數(shù)據(jù)治理和分布系統(tǒng)部署經(jīng)驗的新員工,現(xiàn)有員工負責(zé)Hadoop、Spark和相關(guān)技術(shù)。
Hadoop集群每TB數(shù)據(jù)的成本是2千美元,是IBM Netezza數(shù)據(jù)倉庫系統(tǒng)的十分之一,不過Razorsight最開始建立Hadoop集群只是為了數(shù)據(jù)存儲,分析模型和數(shù)據(jù)可視化仍然是在舊系統(tǒng)中完成,部分原因是因為Netezza硬件和IBM的SPSS分析軟件綁定。Nathan預(yù)計今年年底能夠完成可視化層和分析資源池想Hadoop數(shù)據(jù)資源池架構(gòu)的遷移。
MapR 中國專區(qū)>>>
End.