欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

大數(shù)據(jù)技術(shù)丨Spark VS Hadoop 兩大大數(shù)據(jù)分析系統(tǒng)解讀

數(shù)據(jù)觀 ? 8年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來(lái)看看。

大數(shù)據(jù)，無(wú)論是從產(chǎn)業(yè)上，還是從技術(shù)上來(lái)看，都是目前的發(fā)展熱點(diǎn)。在中國(guó)，政府控制著80%的數(shù)據(jù)，剩下的多由“BAT”這樣的大公司擁有，中小企業(yè)如何構(gòu)建自己的大數(shù)據(jù)系統(tǒng)？其他企業(yè)如何建設(shè)自己的 大數(shù)據(jù)系統(tǒng) ？

推薦兩大應(yīng)用最廣泛、國(guó)人認(rèn)知最多的Apache開(kāi)源大數(shù)據(jù)框架系統(tǒng)：Spark、Hadoop

大數(shù)據(jù)技術(shù)丨Spark VS Hadoop 兩大大數(shù)據(jù)分析系統(tǒng)解讀

Spark：速度快、易于使用

Spark以性能見(jiàn)長(zhǎng)，但是它也因易用性而小有名氣，原因是它隨帶易于使用的API，支持Scala（原生語(yǔ)言）、Java、Python和Spark SQL。Spark SQL非常類似于SQL 92，所以幾乎不需要經(jīng)歷一番學(xué)習(xí)，馬上可以上手。

Spark是UC Berkeley AMP lab所開(kāi)源的類Hadoop MapReduce的通用的并行計(jì)算框架，Spark基于map reduce算法實(shí)現(xiàn)的分布式計(jì)算，擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)；但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。

Spark還有一種交互模式，那樣開(kāi)發(fā)人員和用戶都可以獲得查詢和其他操作的即時(shí)反饋。MapReduce沒(méi)有交互模式，不過(guò)有了Hive和Pig等附加模塊，采用者使用MapReduce來(lái)得容易一點(diǎn)。

成本上來(lái)看：Spark需要大量?jī)?nèi)存，但是可以使用常規(guī)數(shù)量的常規(guī)轉(zhuǎn)速磁盤。一些用戶抱怨會(huì)產(chǎn)生臨時(shí)文件，需要清理。這些臨時(shí)文件通常保存7天，以便加快針對(duì)同一數(shù)據(jù)集的任何處理。磁盤空間相對(duì)便宜，由于Spark不使用磁盤輸入/輸入用于處理，已使用的磁盤空間可以用于SAN或NAS。

容錯(cuò)上：Spark使用彈性分布式數(shù)據(jù)集（RDD），它們是容錯(cuò)集合，里面的數(shù)據(jù)元素可執(zhí)行并行操作。RDD可以引用外部存儲(chǔ)系統(tǒng)中的數(shù)據(jù)集，比如共享式文件系統(tǒng)、HDFS、HBase，或者提供Hadoop InputFormat的任何數(shù)據(jù)源。Spark可以用Hadoop支持的任何存儲(chǔ)源創(chuàng)建RDD，包括本地文件系統(tǒng)，或前面所列的其中一種文件系統(tǒng)。

Hadoop：分布式文件系統(tǒng)

Hadoop是Apache.org的一個(gè)項(xiàng)目，其實(shí)是一種軟件庫(kù)和框架，以便使用簡(jiǎn)單的編程模型，跨計(jì)算器集群對(duì)龐大數(shù)據(jù)集（大數(shù)據(jù)）進(jìn)行分布式處理。Hadoop可靈活擴(kuò)展，從單一計(jì)算機(jī)系統(tǒng)，到提供本地存儲(chǔ)和計(jì)算能力的數(shù)千個(gè)商用系統(tǒng)，它都能輕松支持。實(shí)際上，Hadoop就是 大數(shù)據(jù)分析 領(lǐng)域的重量級(jí)大數(shù)據(jù)平臺(tái)。

Hadoop由協(xié)同運(yùn)行、構(gòu)建Hadoop框架的多個(gè)模塊組成。Hadoop框架的主要模塊包括如下：

?Hadoop Common

?Hadoop分布式文件系統(tǒng)（HDFS）

?Hadoop YARN

?Hadoop MapReduce

雖然上述四個(gè)模塊構(gòu)成了Hadoop的核心，不過(guò)還有其他幾個(gè)模塊。這些模塊包括：Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume和Sqoop，它們進(jìn)一步增強(qiáng)和擴(kuò)展了Hadoop的功能，得以擴(kuò)大到大數(shù)據(jù)應(yīng)用領(lǐng)域，處理龐大數(shù)據(jù)集。

許多使用大數(shù)據(jù)集和分析工具的公司使用 Hadoop 。它已成為大數(shù)據(jù)應(yīng)用系統(tǒng)中事實(shí)上的標(biāo)準(zhǔn)。設(shè)計(jì)Hadoop的初衷是處理這項(xiàng)任務(wù)：搜尋和搜索數(shù)十億個(gè)網(wǎng)頁(yè)，將這些信息收集到數(shù)據(jù)庫(kù)中。正是由于渴望搜尋和搜索互聯(lián)網(wǎng)，才有了Hadoop的HDFS及分布式處理引擎MapReduce。

成本上：MapReduce使用常規(guī)數(shù)量的內(nèi)存，因?yàn)閿?shù)據(jù)處理基于磁盤，所以公司得購(gòu)買速度更快的磁盤和大量磁盤空間來(lái)運(yùn)行MapReduce。MapReduce還需要更多的系統(tǒng)，將磁盤輸入/輸出分布到多個(gè)系統(tǒng)上。

容錯(cuò)上：MapReduce使用TaskTracker節(jié)點(diǎn)，它為JobTracker節(jié)點(diǎn)提供了心跳（heartbeat）。如果沒(méi)有心跳，那么JobTracker節(jié)點(diǎn)重新調(diào)度所有將執(zhí)行的操作和正在進(jìn)行的操作，交給另一個(gè)TaskTracker節(jié)點(diǎn)。這種方法在提供容錯(cuò)性方面很有效，可是會(huì)大大延長(zhǎng)某些操作（即便只有一個(gè)故障）的完成時(shí)間。

總結(jié)： Spark與MapReduce是一種相互共生的關(guān)系。Hadoop提供了Spark所沒(méi)有的功能特性，比如分布式文件系統(tǒng)，而Spark為需要它的那些數(shù)據(jù)集提供了實(shí)時(shí)內(nèi)存處理。完美的大數(shù)據(jù)場(chǎng)景正是設(shè)計(jì)人員當(dāng)初預(yù)想的那樣：讓Hadoop和Spark在同一個(gè)團(tuán)隊(duì)里面協(xié)同運(yùn)行。

作者： 張景龍，暢移（上海）信息科技有限公司CTO，CCFYOCSEF上海委員，京東今夜酒店特價(jià)APP技術(shù)奠基人和首任CTO，中國(guó)第一代智能手機(jī)開(kāi)發(fā)者。

責(zé)任編輯：王培

本文被轉(zhuǎn)載1次

首發(fā)媒體

| 轉(zhuǎn)發(fā)媒體

隨意打賞

hadoop spark hadoop和spark 大數(shù)據(jù)技術(shù)與應(yīng)用大數(shù)據(jù)技術(shù)架構(gòu)大數(shù)據(jù)分析工具

神策數(shù)據(jù)接入 DeepSeek，AI 賦能數(shù)據(jù)分析與智能運(yùn)營(yíng)

砍柴網(wǎng) ? 1分鐘前

在 AI 技術(shù)迅猛發(fā)展的浪潮下，神策數(shù)據(jù)正在加速推進(jìn)人工智能在數(shù)據(jù)分析和智能運(yùn)營(yíng)領(lǐng)域的深度應(yīng)用。近日，神策數(shù)據(jù)宣布全面體驗(yàn)并接入 DeepSeek，為企業(yè)客戶帶來(lái)更加智能化、高效的數(shù)據(jù)分析與智能運(yùn)營(yíng)服務(wù)。這一舉措展現(xiàn)了神策數(shù)據(jù)在人工智能方向的探索決心。一、神策數(shù)據(jù)?+ AI，探索技術(shù)結(jié)合新可能 AI 技術(shù)的快速
明略科技全域營(yíng)銷分析平臺(tái)：實(shí)時(shí)數(shù)據(jù)智能洞察，AI助力敏捷營(yíng)銷實(shí)效評(píng)估

砍柴網(wǎng) ? 8天前

Gartner在發(fā)布的《2024年中國(guó)數(shù)據(jù)、分析和人工智能技術(shù)成熟度曲線》中,提及了復(fù)合型AI技術(shù)的創(chuàng)新應(yīng)用潛力,認(rèn)為這一技術(shù)將能夠提供更有效的方式以解決更廣泛業(yè)務(wù)問(wèn)題。特別是在營(yíng)銷技術(shù)領(lǐng)域,海量且多元異構(gòu)的客戶數(shù)據(jù)來(lái)源讓企業(yè)在數(shù)據(jù)整合、實(shí)時(shí)分析、快速查詢以及深入洞察方面常常感到力不從心。
谷歌Gemini AI向免費(fèi)版用戶開(kāi)放文件上傳/分析功能

砍柴網(wǎng) ? 27天前

2 月 15 日消息，谷歌 Gemini AI 已開(kāi)始向免費(fèi)版用戶開(kāi)放文件上傳和分析功能，此前該功能僅向 Gemini Advanced 付費(fèi)用戶提供。目前，該功能已在 Gemini 安卓應(yīng)用和網(wǎng)頁(yè)版中上線，海外沒(méi)有訂閱 Gemini 的用戶現(xiàn)在也可以直接從設(shè)備本地或 Google Drive 谷歌云盤中應(yīng)用程序上傳文
有數(shù)ChatBI正式接入DeepSeek大模型，讓數(shù)據(jù)分析更加智能高效

砍柴網(wǎng) ? 29天前

近日，隨著 DeepSeek 爆火全球，網(wǎng)易數(shù)帆展現(xiàn)了敏捷的技術(shù)迭代能力，率先完成有數(shù) ChatBI 與 DeepSeek 大模型的快速適配。作為領(lǐng)先的?AI 驅(qū)動(dòng)型數(shù)據(jù)分析平臺(tái)，有數(shù) ChatBI 核心能力源于兩大創(chuàng)新引擎的深度融合：一是自主研發(fā)的 NL2SQL 私有化模型，通過(guò)持續(xù)微調(diào)訓(xùn)練實(shí)現(xiàn)企業(yè)級(jí)場(chǎng)景的高精度語(yǔ)義
2024 年中國(guó)數(shù)據(jù)中臺(tái)行業(yè)需求市場(chǎng)分析多因素驅(qū)動(dòng)需求增長(zhǎng)

砍柴網(wǎng) ? 1月前

行業(yè)主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網(wǎng)絡(luò)?( 600588.SH ) 、金蝶國(guó)際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數(shù)字企業(yè) ( 0596.HK ) 、普元信息?( 688118.SH ) 、星環(huán)科技 (
諸葛io助力城商行打造用戶行為分析平臺(tái)，斬獲兩項(xiàng)金融數(shù)字化大獎(jiǎng)

砍柴網(wǎng) ? 2月前

諸葛智能與某城商行強(qiáng)強(qiáng)聯(lián)合，共同打造「新一代手機(jī)銀行用戶行為分析平臺(tái)」，該平臺(tái)以出色的實(shí)踐方案和卓越的應(yīng)用效果，成功斬獲了兩項(xiàng) 金融科技領(lǐng)域案例大獎(jiǎng)，彰顯出在行業(yè)內(nèi)強(qiáng)大的影響力和成熟的技術(shù)應(yīng)用實(shí)力。銀行標(biāo)桿案例認(rèn)可愛(ài)分析—金融數(shù)字化最佳實(shí)踐案例為表彰在金融數(shù)字化浪
NeuroBlade在亞馬遜（Amazon） EC2 F2 實(shí)例上加速下一代數(shù)據(jù)分析

砍柴網(wǎng) ? 2月前

2024年12月26日，中國(guó)北京? –數(shù)據(jù)分析加速領(lǐng)域的領(lǐng)導(dǎo)者NeuroBlade宣布其已經(jīng)與亞馬遜云科技（AWS）最新發(fā)布的Amazon?Elastic Compute Cloud (Amazon EC2)?F2實(shí)例實(shí)現(xiàn)集成，該實(shí)例采用了AMD FPGA與EPYC CPU技術(shù)。此次合作通過(guò)
2024 年中國(guó)數(shù)據(jù)中臺(tái)發(fā)展現(xiàn)狀分析實(shí)現(xiàn)數(shù)據(jù)價(jià)值化的重要工具

砍柴網(wǎng) ? 2月前

行業(yè)主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網(wǎng)絡(luò)?( 600588.SH ) 、金蝶國(guó)際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數(shù)字企業(yè) ( 0596.HK ) 、普元信息?( 688118.SH ) 、星
打破數(shù)據(jù)孤島，廣告跨域效果分析與人群包再營(yíng)銷的神奇工具來(lái)了！

砍柴網(wǎng) ? 3月前

隨著線上業(yè)務(wù)和收入的持續(xù)增長(zhǎng),電商銷售已經(jīng)成為眾多品牌的核心業(yè)務(wù)板塊。同時(shí),用戶在眾多APP間的頻繁切換使用,也推動(dòng)品牌主適應(yīng)多渠道、碎片化的營(yíng)銷傳播環(huán)境。在這樣的市場(chǎng)背景下,品牌和電商團(tuán)隊(duì)在工作中經(jīng)常面臨如何平衡品牌廣告投入與電商增長(zhǎng)的挑戰(zhàn)。作為營(yíng)銷負(fù)責(zé)人,確保廣告預(yù)算
品高軟件入選《2024愛(ài)分析·數(shù)據(jù)要素×廠商全景報(bào)告》

砍柴網(wǎng) ? 3月前

近日，中國(guó)數(shù)字化市場(chǎng)專業(yè)服務(wù)平臺(tái)愛(ài)分析正式發(fā)布《2024愛(ài)分析·數(shù)據(jù)要素×廠商全景報(bào)告》。品高軟件憑借在數(shù)據(jù)要素領(lǐng)域過(guò)硬的技術(shù)實(shí)力和多年積累的行業(yè)信息化服務(wù)經(jīng)驗(yàn)，成功入選為區(qū)域協(xié)同治理以及可信數(shù)據(jù)空間兩個(gè)細(xì)分領(lǐng)域的代表廠商。本次報(bào)告中，愛(ài)分析從技術(shù)架構(gòu)角度，將數(shù)據(jù)要素×市場(chǎng)分為兩大層次：技術(shù)支撐層和行業(yè)應(yīng)用層。旨在通過(guò)
Hadoop大數(shù)據(jù)“存算分離”，柏科數(shù)據(jù) ISCloud分布式存儲(chǔ)"提質(zhì)增效"

砍柴網(wǎng) ? 3年前

數(shù)據(jù)湖的發(fā)展契機(jī)，來(lái)源于近年來(lái)的AI熱潮和云計(jì)算、5G的發(fā)展，在日益發(fā)展的海量數(shù)據(jù)時(shí)代，數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)，通過(guò)構(gòu)建適用于大數(shù)據(jù)的底層架構(gòu)，圍繞Hadoop提供語(yǔ)義一致性、數(shù)據(jù)治理和安全性。Hadoop作為數(shù)據(jù)湖最常用的解決方案之一，其的部署和需求仍然很大并且正在增長(zhǎng)。在最近的一項(xiàng)涉及235名受訪者的調(diào)查中，
Hadoop大數(shù)據(jù)存算分離，杉巖MOS知你所想

砍柴網(wǎng) ? 3年前

大數(shù)據(jù)經(jīng)過(guò)了多年的發(fā)展，以Hadoop生態(tài)為核心的大數(shù)據(jù)框架已經(jīng)十分成熟，這個(gè)過(guò)程伴隨著對(duì)存儲(chǔ)需求的不斷變化，從而演進(jìn)出了數(shù)據(jù)湖的概念以及在數(shù)據(jù)湖存儲(chǔ)方面的幾個(gè)新需求特征：如數(shù)據(jù)的分布組織與元數(shù)據(jù)的高效管理；存儲(chǔ)和計(jì)算分離，大幅降低成本；數(shù)據(jù)全生命周期管理；多訪問(wèn)協(xié)議支持達(dá)到All in One的存儲(chǔ)能力；具備數(shù)據(jù)的智
星環(huán)科技孫元浩：用自研框架取代Hadoop，加速實(shí)現(xiàn)基礎(chǔ)軟件國(guó)產(chǎn)化替代數(shù)字觀察

砍柴網(wǎng) ? 5年前

2019年將近尾聲,談到截止目前,2019年星環(huán) 科技所取得成績(jī),創(chuàng)始人孫元浩做了一些簡(jiǎn)單的總結(jié)。 “第一,從產(chǎn)品線來(lái)說(shuō),從2017年開(kāi)始,星環(huán)科技已經(jīng)基本確定三條產(chǎn)品線,大數(shù)據(jù)產(chǎn)品是主要產(chǎn)品線,而人工智能機(jī)器學(xué)習(xí)平臺(tái)和容器的智能大數(shù)據(jù)云平臺(tái),是圍繞客戶在使用大數(shù)據(jù)基礎(chǔ)軟件的基礎(chǔ)需求上
Hadoop，涼了？

億歐網(wǎng) ? 5年前

【編者按】雖然大數(shù)據(jù)依然如日中天，但該領(lǐng)域曾經(jīng)的領(lǐng)頭羊 Cloudera 、Hortonworks 和 MapR 三家公司最近卻步履蹣跚，多少掩蓋了其幾分風(fēng)光。Cloudera 和 Hortonworks 合并，而 MapR 開(kāi)始裁員。與此同時(shí)，大數(shù)據(jù)領(lǐng)域的 Elastic 、Mongo
開(kāi)源平臺(tái)Cloudera暴跌40%，Hadoop不行了嗎？

砍柴網(wǎng) ? 5年前

Tom Reilly, chief executive officer of Cloudera Inc. 今年6月6日，Hadoop 商業(yè) 公司Cloudera突然暴跌了40%，一時(shí)間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點(diǎn)便是Cloudera的暴跌代表著Hadoop的隕落。
開(kāi)源平臺(tái)Cloudera暴跌40%，Hadoop不行了嗎？

鈦媒體 ? 5年前

Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年6月6日，Hadoop商業(yè)公司Cloudera突然暴跌了40%，一時(shí)間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點(diǎn)便是Cloudera的暴跌代表著Hadoop的隕落。但我認(rèn)為Cloudera的暴
技術(shù)干貨：SQL on Hadoop在快手大數(shù)據(jù)平臺(tái)的實(shí)踐與優(yōu)化

創(chuàng)見(jiàn)網(wǎng) ? 5年前

快手大數(shù)據(jù)架構(gòu)工程師鐘靚近日在 A2M 人工智能與機(jī)器學(xué)習(xí)創(chuàng)新峰會(huì)分享了題為《SQL on Hadoop 在快手大數(shù)據(jù)平臺(tái)的實(shí)踐與優(yōu)化》的演講，主要從 SQL on Hadoop 介紹、快手 SQL on Hadoop 平臺(tái)概述、SQL on Hadoop 在快手的使用經(jīng)驗(yàn)和改進(jìn)分析、快手 SQL on Ha
曾推出Hadoop卻迅速消失，雅虎研究院是如何在10年間衰落的？

IT思維 ? 5年前

公眾號(hào)/AI前線策劃編輯｜蔡芳芳作者｜洪亮劼編輯｜Debra AI 前線導(dǎo)讀：雅虎是最早成功的互聯(lián)網(wǎng)公司之一，也是最早意識(shí)到需要把基礎(chǔ)研究，特別是機(jī)器學(xué)習(xí)以及人工智能研究，應(yīng)用到實(shí)際產(chǎn)品中的公司。雅虎從很早就開(kāi)始招聘和培養(yǎng)研究型人才，雅虎研究院就是在這個(gè)過(guò)程中應(yīng)運(yùn)而生的。本文將說(shuō)
螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后

產(chǎn)品壹佰 ? 6年前

HDFS作為Hadoop生態(tài)系統(tǒng)的分布式文件系統(tǒng)，它被設(shè)計(jì)用來(lái)存儲(chǔ)海量數(shù)據(jù)，特別是TB、PB量級(jí)別的數(shù)據(jù)。它的設(shè)計(jì)的初衷也是存儲(chǔ)大文件，而如果HDFS上存在大量的小文件，會(huì)對(duì)系統(tǒng)性能帶來(lái)嚴(yán)重的問(wèn)題。本文想跟大家聊下小文件的處理。本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認(rèn)大小128MB)
Cloudera和Hortonworks合并，Hadoop將走向何方？

億歐網(wǎng) ? 6年前

【編者按】在開(kāi)源已經(jīng)逐漸成為一種政治正確的時(shí)候，開(kāi)源項(xiàng)目最終會(huì)走向哪里？本文針對(duì)Cloudera和Hortonworks的宣布合并一事進(jìn)行發(fā)問(wèn)，回溯 Hadoop 的商業(yè)化和合并前后歷程，試圖尋找這一答案。本文首發(fā)于IT經(jīng)理世界，作者李昊原；

評(píng)論

提交建議