欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Spark 和 Hadoop 是友,非敵

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  

Spark 在 6 月份取得了激動(dòng)人心的成績(jī)。在圣何塞舉辦的 Hadoop 峰會(huì)上,Spark 成了人們經(jīng)常提及的話題和許多演講的主題。IBM 還在 6 月 15 號(hào)宣布,將對(duì) Spark 相關(guān)的技術(shù)進(jìn)行巨額投資。

這一聲明幫助推動(dòng)了舊金山 Spark 峰會(huì) 的召開(kāi)。在這里,人們會(huì)看到有越來(lái)越多的工程師在學(xué)習(xí) Spark,也有越來(lái)越多的公司在試驗(yàn)和采用 Spark。

對(duì) Spark 的投資和采用形成了一個(gè)正向循環(huán),迅速推動(dòng)這一重要技術(shù)的成熟和發(fā)展,讓整個(gè)大數(shù)據(jù)社區(qū)受益。然而,人們對(duì) Spark 的日益關(guān)注讓一些人產(chǎn)生了奇怪、固執(zhí)的誤解:即 Spark 能取代 Hadoop,而不是對(duì) Hadoop 的補(bǔ)充。這一誤解從《 公司紛紛拋棄大數(shù)據(jù)技術(shù) Hadoop 》這樣的新聞標(biāo)題上就能看出來(lái)。

作為大數(shù)據(jù)長(zhǎng)期踐行者、現(xiàn)任大數(shù)據(jù)即服務(wù)公司首席執(zhí)行官,我想就這一誤解發(fā)表看法,進(jìn)行一些澄清。

Spark 和 Hadoop 配合得很好。

Hadoop 正日益成為公司處理大數(shù)據(jù)的企業(yè)平臺(tái)之選。Spark 則是運(yùn)行在 Hadoop 之上的內(nèi)存中處理解決方案。Hadoop 最大的用戶(包括易趣和雅虎)都在自己的 Hadoop 集群中運(yùn)行 Spark。Cloudera 和 Hortonworks 在其 Hadoop 包中也加入了 Spark。我們 Altiscale 的客戶在我們最開(kāi)始推出時(shí)就使用運(yùn)行著 Spark 的 Hadoop。

將 Spark 放到 Hadoop 的對(duì)立面就像是在說(shuō)你的新電動(dòng)車(chē)非常酷,根本不需要電一樣。但事實(shí)上,電動(dòng)車(chē)會(huì)推動(dòng)對(duì)更多電力的需求。

為什么會(huì)產(chǎn)生這種混淆?如今的 Hadoop 由兩大部分組成。第一部分是名為 Hadoop 分布式文件系統(tǒng)(HDFS)的大規(guī)模存儲(chǔ)系統(tǒng),該系統(tǒng)能高效、低成本地存儲(chǔ)數(shù)據(jù),且針對(duì)大數(shù)據(jù)的容量、多樣性和速度進(jìn)行了優(yōu)化。第二部分是名為 YARN 的計(jì)算引擎,該引擎能在 HDFS 存儲(chǔ)的數(shù)據(jù)上運(yùn)行大量并行程序。

YARN 能托管任意多的程序框架。最初的框架是由谷歌發(fā)明的 MapReduce,用來(lái)幫助處理海量網(wǎng)絡(luò)抓取數(shù)據(jù)。Spark 是另一個(gè)這樣的框架,還有一個(gè)名為 Tez 的新框架。當(dāng)人們談?wù)?Spark 與 Hadoop 的“對(duì)決”時(shí),他們實(shí)際上是在說(shuō)現(xiàn)在程序員們更喜歡用 Spark 了,而非之前的 MapReduce 框架。

但是,MapReduce 不應(yīng)該和 Hadoop 等同起來(lái)。MapReduce 只是 Hadoop 集群處理數(shù)據(jù)的諸多方式之一。Spark 可以替代 MapReduce。商業(yè)分析們會(huì)避免使用這兩個(gè)本來(lái)是供程序員使用的底層框架。相反,他們運(yùn)用 SQL 等高級(jí)語(yǔ)言來(lái)更方便地使用 Hadoop。

在過(guò)去四年中,基于 Hadoop 的大數(shù)據(jù)技術(shù)涌現(xiàn)出了讓人目不暇接的創(chuàng)新。Hadoop 從批處理 SQL 進(jìn)化到了交互操作;從一個(gè)框架(MapReduce)變成了多個(gè)框架(如 MapReduce、Spark 等)。

HDFS 的性能和安全也得到了巨大改進(jìn),在這些技術(shù)之上出現(xiàn)了眾多工具,如 Datameer 、 H20 和 Tableau 。這些工具極大地?cái)U(kuò)大了大數(shù)據(jù)基礎(chǔ)設(shè)施的用戶范圍,讓數(shù)據(jù)科學(xué)家和企業(yè)用戶也能使用。

Spark 不會(huì)取代 Hadoop。相反,Hadoop 是 Spark 的基石。隨著各個(gè)組織尋求運(yùn)用范圍最廣、最健壯的平臺(tái)來(lái)將自己的數(shù)據(jù)資產(chǎn)轉(zhuǎn)變?yōu)榭尚袆?dòng)的商業(yè)洞見(jiàn),它們對(duì) Hadoop 和 Spark 技術(shù)的采用也會(huì)越來(lái)越多。

翻譯:1thinc0

Spark And Hadoop Are Friends, Not Foes

本文被轉(zhuǎn)載1次

首發(fā)媒體 TechCrunch | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 五月婷婷开心综合 | 月婷婷色狠狠 | 久久99精品一区二区三区 | 亚洲精品综合网 | 欧美洲大黑香蕉在线视频 | 99ri在线视频| 久久久久久噜噜噜久久久精品 | 怡红院成人永久免费看 | 亚洲va在线va天堂va手机 | 天天干天天曰天天操 | 色婷婷综合激情 | 国产成人毛片亚洲精品不卡 | 久久国产精品老人性 | 日本黄色小视频在线观看 | 99视屏| 久久精品视频久久 | 国产成人aa视频在线观看 | 欧美日韩在线视频播放 | 四虎影视永久免费观看网址 | 日韩城人视频 | 久久亚洲国产成人影院 | 欧美做爱毛片 | 色视频国产 | 欧美三区在线 | 国产国产精品人在线观看 | 成人国产综合 | 九月婷婷综合婷婷 | 欧美精品亚洲精品日韩专 | 亚洲国产精品综合福利专区 | 日本一级毛片一级裸片 | 久久乐国产精品亚洲综合m3u8 | 一 级 黄 色 片生活片 | 成人午夜精品网站在线观看 | 国产精品久久久尹人香蕉 | 色偷偷要色偷偷网站视频在线 | 五月四房婷婷 | 麻豆va一区二区三区久久浪 | 99热黄色| 久久机热re这里只有精品15 | 香蕉色香蕉在线视频 | 欧美精品啪啪 |