欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Spark VS Hadoop 兩大大數據分析系統(tǒng)深度解讀

36大數據 ? 9年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者：張景龍

摘要：大數據，無論是從產業(yè)上，還是從技術上來看，都是目前的發(fā)展熱點。在中國，政府控制著80%的數據，剩下的多由“BAT”這樣的大公司擁有，中小企業(yè)如何構建自己的大數據系統(tǒng)?其他企業(yè)如何建設自己的大數據系統(tǒng)?

推薦兩大應用最廣泛、國人認知最多的Apache開源大數據框架系統(tǒng)：Spark Hadoop

Spark：速度快、易于使用

Spark以性能見長，但是它也因易用性而小有名氣，原因是它隨帶易于使用的API，支持Scala(原生語言)、Java、Python和Spark SQL。Spark SQL非常類似于SQL 92，所以幾乎不需要經歷一番學習，馬上可以上手。

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架，Spark基于map reduce算法實現的分布式計算，擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的map reduce的算法。

Spark還有一種交互模式，那樣開發(fā)人員和用戶都可以獲得查詢和其他操作的即時反饋。MapReduce沒有交互模式，不過有了Hive和Pig等附加模塊，采用者使用MapReduce來得容易一點。

成本上來看：Spark需要大量內存，但是可以使用常規(guī)數量的常規(guī)轉速磁盤。一些用戶抱怨會產生臨時文件，需要清理。這些臨時文件通常保存7天，以便加快針對同一數據集的任何處理。磁盤空間相對便宜，由于Spark不使用磁盤輸入/輸入用于處理，已使用的磁盤空間可以用于SAN或NAS。

容錯上：Spark使用彈性分布式數據集(RDD)，它們是容錯集合，里面的數據元素可執(zhí)行并行操作。RDD可以引用外部存儲系統(tǒng)中的數據集，比如共享式文件系統(tǒng)、HDFS、HBase，或者提供Hadoop InputFormat的任何數據源。Spark可以用Hadoop支持的任何存儲源創(chuàng)建RDD，包括本地文件系統(tǒng)，或前面所列的其中一種文件系統(tǒng)。

Hadoop：分布式文件系統(tǒng)

Hadoop是Apache.org的一個項目，其實是一種軟件庫和框架，以便使用簡單的編程模型，跨計算器集群對龐大數據集(大數據)進行分布式處理。Hadoop可靈活擴展，從單一計算機系統(tǒng)，到提供本地存儲和計算能力的數千個商用系統(tǒng)，它都能輕松支持。實際上，Hadoop就是大數據分析領域的重量級大數據平臺。

Hadoop由協(xié)同運行、構建Hadoop框架的多個模塊組成。Hadoop框架的主要模塊包括如下：

Hadoop Common
Hadoop分布式文件系統(tǒng)(HDFS)
Hadoop YARN
Hadoop MapReduce

雖然上述四個模塊構成了Hadoop的核心，不過還有其他幾個模塊。這些模塊包括：Ambari、Avro、Cassandra、Hive、Pig、Oozie、Flume和Sqoop，它們進一步增強和擴展了Hadoop的功能，得以擴大到大數據應用領域，處理龐大數據集。

許多使用大數據集和分析工具的公司使用Hadoop。它已成為大數據應用系統(tǒng)中事實上的標準。設計Hadoop的初衷是處理這項任務：搜尋和搜索數十億個網頁，將這些信息收集到數據庫中。正是由于渴望搜尋和搜索互聯(lián)網，才有了Hadoop的HDFS及分布式處理引擎MapReduce。

成本上： MapReduce使用常規(guī)數量的內存，因為數據處理基于磁盤，所以公司得購買速度更快的磁盤和大量磁盤空間來運行MapReduce。MapReduce還需要更多的系統(tǒng)，將磁盤輸入/輸出分布到多個系統(tǒng)上。

容錯上： MapReduce使用TaskTracker節(jié)點，它為JobTracker節(jié)點提供了心跳(heartbeat)。如果沒有心跳，那么JobTracker節(jié)點重新調度所有將執(zhí)行的操作和正在進行的操作，交給另一個TaskTracker節(jié)點。這種方法在提供容錯性方面很有效，可是會大大延長某些操作(即便只有一個故障)的完成時間。

總結

Spark與MapReduce是一種相互共生的關系。Hadoop提供了Spark所沒有的功能特性，比如分布式文件系統(tǒng)，而Spark為需要它的那些數據集提供了實時內存處理。完美的大數據場景正是設計人員當初預想的那樣：讓Hadoop和Spark在同一個團隊里面協(xié)同運行。

作者：張景龍暢移(上海)信息科技有限公司CTO，CCFYOCSEF上海委員，京東今夜酒店特價APP技術奠基人和首任CTO，中國第一代智能手機開發(fā)者。

End.

本文被轉載1次

首發(fā)媒體

| 轉發(fā)媒體

隨意打賞

hadoop spark hadoop和spark 大數據深度學習深度操作系統(tǒng)深度數據深度解讀

內容分發(fā)數據分析哪家強 2025年企業(yè)內容管理廠商的選擇指南

砍柴網 ? 2分鐘前

在當今數字化營銷領域，內容分發(fā)的數據分析已成為品牌增長的關鍵驅動力。品牌每天在多個渠道上發(fā)布大量內容，但并非所有內容都能取得預期效果。內容分發(fā)數據分析通過深入洞察內容的表現，幫助品牌了解哪些內容吸引了目標受眾、哪些渠道最有效，以及如何優(yōu)化內容策略以提高轉化率和 ROI。它不僅能揭示內容的曝
阿里巴巴發(fā)布首個數據分析Agent

i黑馬 ? 14天前

8月28日，阿里巴巴（BABA.US）旗下的瓴羊發(fā)布首個數據分析Agent，QuickBI里的“智能小Q”升級為一名由問數、解讀和報告三大核心Agent組成的“超級數據分析師”，可以幫助用戶快速獲取數據、解讀數據和輸出洞察報告。據官方介紹，以往，在企業(yè)海量分散的數據里，數據分析師可能需要一天時間才能獲取和整理數據，現在
阿里巴巴發(fā)布首個數據分析Agent，讓人人都可擁有AI分析師 | 速途網

速途網 ? 15天前

8月28日，阿里巴巴旗下的瓴羊發(fā)布首個數據分析Agent，Quick BI里的“智能小Q”升級為一名由問數、解讀和報告三大核心Agent組成的“超級數據分析師”，可以幫助用戶快速獲取數據、解讀數據和輸出洞察報告。以往，在企業(yè)海量分散的數據里，數據分析師可能需要一天時間才能獲取和整理數據，現在，最快只需10秒；而即便是一
業(yè)界首個！Aloudata Agent企業(yè)級數據分析智能體面向全行業(yè)公開體驗

砍柴網 ? 23天前

Aloudata 大應科技宣布其自研的分析決策智能體——Aloudata Agent 公開體驗版正式發(fā)布，面向全行業(yè)免費開放體驗。該產品是業(yè)界首個公開版企業(yè)級分析決策智能體，旨在以“NoETL 明細語義層 + 多 Agent”架構為支撐，深度融合專業(yè)領域業(yè)務知識，幫助不同業(yè)務角色在統(tǒng)一數據
2025全球數字經濟大會——萬國數據榮登《算力中心服務商分析報告（2025年）》領航者梯隊榜首

砍柴網 ? 2月前

7月4日，“2025全球數字經濟大會-智能算力創(chuàng)新發(fā)展論壇”成功舉辦。論壇期間，中國信息通信研究院重磅發(fā)布《算力中心服務商分析報告（2025年）》，首次采用“建設布局廣度-技術創(chuàng)新高度-市場經營能力”三維評價模型，對國內算力中心服務商進行系統(tǒng)性評估。萬國數據憑借全球化資源布局、前沿技術研發(fā)
諸葛io Agent：不僅是數據分析工具，更是智能決策助手

砍柴網 ? 2月前

企業(yè)不再滿足于“能查數據”的Data Agent，而是一個能理解業(yè)務語境、深入分析根因、提出可行策略的專家型助手。這正是諸葛智能 Data Insight Agent 所要解決的核心問題。作為國內首批聚焦企業(yè)數據應用的AI智能體，他定位在Data Agent之上的Insight Agent，不僅是數據的搬運工，更是業(yè)務
IDC 技術評估報告重磅揭曉：思邁特在數據分析、AI Agent等七大技術維度全滿分！

砍柴網 ? 2月前

近日，權威機構IDC發(fā)布《2025中國GenBI廠商技術能力評估》報告，對中國生成式商業(yè) 智能（GenBI）主流廠商的技術實力與行業(yè)落地情況進行了全面評估。根據IDC的定義，GenBI 是以 GenAI 為核心驅動力的新一代商業(yè)智能軟件，其本質是通過大語言模型、AI Agent 等先進技術，
大模型驅動數據分析范式重構，騰訊云Data+AI實踐亮相2025數據智能大會

砍柴網 ? 2月前

在6月18日中國通信標準化協(xié)會主辦的2025數據智能大會上，騰訊云大數據TBDS產品中心總經理徐曉敏發(fā)表主題演講，系統(tǒng)闡釋了大模型（LLM）對數據分析范式的深刻變革，并分享了騰訊云在Data+AI融合方向的最新實踐。他表示，大模型正重塑數據處理架構、分析方法、治理需求與運維模式，騰訊云已構建起覆蓋底層存儲到上層應用的完
數勢科技入選 IDC「數據管理分析與生成式AI」中國市場代表廠商

砍柴網 ? 2月前

近期，國際數據公司（IDC）發(fā)布《數據管理分析與生成式AI發(fā)展趨勢及最佳實踐》總結了當前市場核心特點與技術變革影響，并給出技術布局建議以供行業(yè)參考。數勢科技憑借自主研發(fā)的基于大模型的數據分析智能體平臺SwiftAgent，獲評數據分析（Data Analytics）領域代表廠商。 I
商湯小浣熊牽手螞蟻百寶箱，共建 AI+ 數據分析方案

砍柴網 ? 3月前

? ? ? 打開螞蟻百寶箱，跳出一只商湯小浣熊。商湯科技 " 小浣熊家族 " 與螞蟻集團旗下智能體開發(fā)平臺 "螞蟻百寶箱" 正式達成生態(tài)合作，雙方聯(lián)合打造 "AI 數據分析助手 "，為百寶箱廣大用戶提供大模型服務，
Hadoop大數據“存算分離”，柏科數據 ISCloud分布式存儲"提質增效"

砍柴網 ? 4年前

數據湖的發(fā)展契機，來源于近年來的AI熱潮和云計算、5G的發(fā)展，在日益發(fā)展的海量數據時代，數據已成為企業(yè)發(fā)展的核心資產，通過構建適用于大數據的底層架構，圍繞Hadoop提供語義一致性、數據治理和安全性。Hadoop作為數據湖最常用的解決方案之一，其的部署和需求仍然很大并且正在增長。在最近的一項涉及235名受訪者的調查中，
Hadoop大數據存算分離，杉巖MOS知你所想

砍柴網 ? 4年前

大數據經過了多年的發(fā)展，以Hadoop生態(tài)為核心的大數據框架已經十分成熟，這個過程伴隨著對存儲需求的不斷變化，從而演進出了數據湖的概念以及在數據湖存儲方面的幾個新需求特征：如數據的分布組織與元數據的高效管理；存儲和計算分離，大幅降低成本；數據全生命周期管理；多訪問協(xié)議支持達到All in One的存儲能力；具備數據的智
星環(huán)科技孫元浩：用自研框架取代Hadoop，加速實現基礎軟件國產化替代數字觀察

砍柴網 ? 5年前

2019年將近尾聲,談到截止目前,2019年星環(huán) 科技所取得成績,創(chuàng)始人孫元浩做了一些簡單的總結。 “第一,從產品線來說,從2017年開始,星環(huán)科技已經基本確定三條產品線,大數據產品是主要產品線,而人工智能機器學習平臺和容器的智能大數據云平臺,是圍繞客戶在使用大數據基礎軟件的基礎需求上
Hadoop，涼了？

億歐網 ? 6年前

【編者按】雖然大數據依然如日中天，但該領域曾經的領頭羊 Cloudera 、Hortonworks 和 MapR 三家公司最近卻步履蹣跚，多少掩蓋了其幾分風光。Cloudera 和 Hortonworks 合并，而 MapR 開始裁員。與此同時，大數據領域的 Elastic 、Mongo
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

砍柴網 ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc. 今年6月6日，Hadoop 商業(yè) 公司Cloudera突然暴跌了40%，一時間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

鈦媒體 ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年6月6日，Hadoop商業(yè)公司Cloudera突然暴跌了40%，一時間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。但我認為Cloudera的暴
技術干貨：SQL on Hadoop在快手大數據平臺的實踐與優(yōu)化

創(chuàng)見網 ? 6年前

快手大數據架構工程師鐘靚近日在 A2M 人工智能與機器學習創(chuàng)新峰會分享了題為《SQL on Hadoop 在快手大數據平臺的實踐與優(yōu)化》的演講，主要從 SQL on Hadoop 介紹、快手 SQL on Hadoop 平臺概述、SQL on Hadoop 在快手的使用經驗和改進分析、快手 SQL on Ha
曾推出Hadoop卻迅速消失，雅虎研究院是如何在10年間衰落的？

IT思維 ? 6年前

公眾號/AI前線策劃編輯｜蔡芳芳作者｜洪亮劼編輯｜Debra AI 前線導讀：雅虎是最早成功的互聯(lián)網公司之一，也是最早意識到需要把基礎研究，特別是機器學習以及人工智能研究，應用到實際產品中的公司。雅虎從很早就開始招聘和培養(yǎng)研究型人才，雅虎研究院就是在這個過程中應運而生的。本文將說
螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

產品壹佰 ? 6年前

HDFS作為Hadoop生態(tài)系統(tǒng)的分布式文件系統(tǒng)，它被設計用來存儲海量數據，特別是TB、PB量級別的數據。它的設計的初衷也是存儲大文件，而如果HDFS上存在大量的小文件，會對系統(tǒng)性能帶來嚴重的問題。本文想跟大家聊下小文件的處理。本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認大小128MB)
Cloudera和Hortonworks合并，Hadoop將走向何方？

億歐網 ? 6年前

【編者按】在開源已經逐漸成為一種政治正確的時候，開源項目最終會走向哪里？本文針對Cloudera和Hortonworks的宣布合并一事進行發(fā)問，回溯 Hadoop 的商業(yè)化和合并前后歷程，試圖尋找這一答案。本文首發(fā)于IT經理世界，作者李昊原；

評論

提交建議

<dd id="qsq6s"></dd>