欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Hadoop哪家強?Hortonworks、Cloudera、MapR案例集錦

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

本文綜合了Hortonworks、Cloudera、MapR三家主要的Hadoop發(fā)行版供應(yīng)商的Hadoop應(yīng)用案例,真是各有神通,不服來辯。

Hadoop

Cloudera:加速數(shù)據(jù)分析

Edo Interactive是一家美國市場營銷公司,幫助廣告主連接線上廣告和線下數(shù)據(jù),提供數(shù)據(jù)驅(qū)動的個性化推薦服務(wù)。不過幾年前,Edo遇到了這樣的問題:數(shù)據(jù)倉庫系統(tǒng)處理信用卡交易數(shù)據(jù)耗時長,不能滿足公司向消費者和餐館進行個性化推薦的業(yè)務(wù)需求。

Edo負責(zé)基礎(chǔ)架構(gòu)和信息系統(tǒng)的高級副總裁Tim Garnto表示:“處理每天的數(shù)據(jù),要花費27小時,所以,任務(wù)是根本完不成的。”2013年,Edo用Hadoop集群替換了基于PostgreSQL的系統(tǒng),為公司構(gòu)建了數(shù)據(jù)資源池。

公司每天會收集來自全美5千萬次零售交易,把數(shù)據(jù)放到有20個節(jié)點的Cloudera發(fā)行的Hadoop集群上,使用Pentaho數(shù)據(jù)集成工具。從銀行和信用卡公司收集來的數(shù)據(jù)經(jīng)過處理,通過預(yù)測模型向持有銀行卡或信用卡的用戶推薦優(yōu)惠券等內(nèi)容。優(yōu)惠券信息由Edo的合作伙伴每周向客戶發(fā)送,自動和用戶的消費行為匹配。

Garnto介紹到,因為模型的復(fù)雜度不同,Edo的數(shù)據(jù)分析師可以在幾分鐘或幾小時內(nèi)處理數(shù)據(jù),這在以前,是做不到的。

不過在數(shù)據(jù)池搭建上,公司也遇到困難,最初,只有一個IT人員有Hadoop和MapReduce編程框架的經(jīng)驗。公司組織了對內(nèi)部員工的培訓(xùn),但新的MapReduce編程等于讓員工放棄了關(guān)系型數(shù)據(jù)庫的方法,公司在升級流程方面花費了很多時間。

要讓進入系統(tǒng)的生數(shù)據(jù)保持一致性,并生成標(biāo)準(zhǔn)化分析數(shù)據(jù)集也要花費一定的時間。Edo目前擁有的450億條記錄,總量255TB的數(shù)據(jù)對公司來說是核心資產(chǎn),所以Garnto要倍加小心地管理,增添新的Hadoop生態(tài)系統(tǒng)技術(shù),因為增加哪怕一項很小的技術(shù),都會對系統(tǒng)工作的方式產(chǎn)生影響。Garnto因此說,在我們面臨的所有挑戰(zhàn)中,這是最有意思的,我們要富有遠見地規(guī)劃好集群開發(fā)的未來。

Cloudera 中國專區(qū)>>>

Hortonworks:降低硬件成本

收集和處理網(wǎng)絡(luò)、收集和物聯(lián)網(wǎng)活動數(shù)據(jù)的Webtrends是另一個數(shù)據(jù)資源池用戶。這是一家波蘭公司,它在去年7月部署了Hortonworks發(fā)行的Hadoop集群,在今年年初正式運行,最初是為了支持一款叫做Explore的產(chǎn)品,讓公司市場人員對客戶數(shù)據(jù)進行即時分析。公司負責(zé)產(chǎn)品架構(gòu)的總監(jiān)PeterCrossley表示,在60個節(jié)點的集群上,每個quarter上要添加500TB的數(shù)據(jù),加起來有1.28PB。

Webtrends計劃使用Hadoop平臺替換原有存儲系統(tǒng),通過使用Kafka信息隊列技術(shù)和自動處理腳本,網(wǎng)絡(luò)點擊數(shù)據(jù)可以進入集群,能夠在20到40毫秒之間進行數(shù)據(jù)分析。報表和分析基本上是實時的,比舊系統(tǒng)要快很多。Hadoop集群也支持更高級的分析,硬件成本要降低25%到50%。

使用Hadoop數(shù)據(jù)資源池,意味著公司管理和使用信息的意識要改變。之前,公司要首先同數(shù)據(jù)倉庫中廣泛的數(shù)據(jù)列中構(gòu)建通用的數(shù)據(jù)報表。

公司還要考慮數(shù)據(jù)資源池架構(gòu)和數(shù)據(jù)治理流程,以更好地管理Hadoop集群的數(shù)據(jù)。進入系統(tǒng)的生數(shù)據(jù)結(jié)構(gòu)松散,但在數(shù)據(jù)治理上有嚴格的規(guī)定。另外,公司將Hadoop集群分成了三個獨立的層,一層負責(zé)生數(shù)據(jù),第二層負責(zé)增加的日常數(shù)據(jù)集,第三層負責(zé)第三方信息。每一層都有自己的數(shù)據(jù)分類和治理政策,因數(shù)據(jù)集不同而各異。

Hortonworks中國專區(qū)>>>

MapR:有序的數(shù)據(jù)存儲

基于云的預(yù)測分析軟件供應(yīng)商Razorsight 的CTO Suren Nathan在談到建立和使用Hadoop數(shù)據(jù)資源池時,也提到了要非常“有紀律、有組織”。如果不然,系統(tǒng)就會變成一個失控的垃圾場。

Razorsight為電信行業(yè)提供云基礎(chǔ)的分析服務(wù),在2014年第二季度開始使用MapR發(fā)行的Hadoop集群。來自代理的客戶、運營和網(wǎng)絡(luò)數(shù)據(jù)通過自建的提取工具加載進系統(tǒng),通過Spark處理引擎提供給數(shù)據(jù)科學(xué)家,該集群有5個產(chǎn)品節(jié)點,120TB的存儲容量。

像Webtrends一樣,Razorsight把數(shù)據(jù)資源池分為三個部分,一部分負責(zé)6個月以內(nèi)的數(shù)據(jù),一部分負責(zé)時間更長但仍然有用的數(shù)據(jù),最后一部分負責(zé)不再使用但需要保存的數(shù)據(jù)。目前,在前兩個部分,公司有超過20TB的數(shù)據(jù)。為了使系統(tǒng)運行的更順暢,公司聘請了有數(shù)據(jù)治理和分布系統(tǒng)部署經(jīng)驗的新員工,現(xiàn)有員工負責(zé)Hadoop、Spark和相關(guān)技術(shù)。

Hadoop集群每TB數(shù)據(jù)的成本是2千美元,是IBM Netezza數(shù)據(jù)倉庫系統(tǒng)的十分之一,不過Razorsight最開始建立Hadoop集群只是為了數(shù)據(jù)存儲,分析模型和數(shù)據(jù)可視化仍然是在舊系統(tǒng)中完成,部分原因是因為Netezza硬件和IBM的SPSS分析軟件綁定。Nathan預(yù)計今年年底能夠完成可視化層和分析資源池想Hadoop數(shù)據(jù)資源池架構(gòu)的遷移。

MapR 中國專區(qū)>>>

End.

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 国产片久久 | 4虎永免费最新永久免费地址 | 91精品视频在线看 | 国产欧美日本亚洲精品五区 | 亚洲国产精品日韩高清秒播 | 久久国产影视免费精品 | 橘梨纱视频一区二区在线观看 | 亚洲视频在线免费播放 | 亚洲夂夂婷婷色拍ww47 | 国产偷视频 | chinese性中国女人 | 国产性一交一乱一伦一色一情 | 狠狠狠狼鲁欧美综合网免费 | 色花堂国产精品第二页 | 精品国产96亚洲一区二区三区 | 久久香蕉国产线看观看亚洲片 | 中文字幕欧美日韩久久 | 欧美国产亚洲精品a第一页 欧美国产亚洲精品高清不卡 | 国产区一区二区三区 | 亚洲一区欧美日韩 | 国产a毛片清高视频 | 狠狠涩| 日韩一级欧美一级毛片在 | 一级日本高清视频免费观看 | 日本人69视频页码jlzz | 91在线视频免费播放 | 性欧美日韩 | 久久婷婷午色综合夜啪 | 免费观看毛片视频 | 国产亚洲精品久久久久久久软件 | 久久毛片免费看 | 99精品热视频 | 日本最新在线 | 国产精品人伦久久 | 大色香蕉色视频大全 | 国产精品成人69xxx免费视频 | 久久99久久99精品免观看麻豆 | 老妇毛片久久久久久久久 | 国内自拍在线观看 | 韩国女主播一区二区三区视频 | 爆操在线|