欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

什么是 Apache Spark？大數據分析平臺如是說

36大數據 ? 7年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者： ? Ian Pointer

自從?Apache Spark?2009 年在 U.C. Berkeley 的 AMPLab 默默誕生以來，它已經成為這個世界上最重要的分布式大數據框架之一。Spark 可以用多種方式部署，它為 Java、Scala、Python，和 R 編程語言提供了本地綁定，并且支持 SQL、流數據、機器學習，和圖處理。你將會發現它被銀行、電信公司、游戲公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨頭公司使用。

非常好，Spark 可以運行在一個只需要在你集群中的每臺機器上安裝 Apache Spark 框架和 JVM 的獨立集群模式。然而，你將更有可能做的是，希望利用資源或集群管理系統來幫你按需分配工作。在企業中，這通常意味著在?Hadoop YARN?（這是 ?Cloudera?和?Hortonworks?分配運行 Spark 任務的方式）上運行。盡管?work?是在增加了本地支持的?Kubernetes?上執行，但是 Apache Spark 也可以在?Apache Mesos?上運行。

如果你追求一個有管理的解決方案，那么可以發現 Apache Spark 已作為?Amazon EMR、Google Cloud Dataproc, 和?Microsoft Azure HDInsight?的一部分。雇傭了 Apache Spark 創始人的公司?Databricks?也提供了?Databricks 統一分析平臺，這個平臺是一個提供了 Apache Spark 集群，流式支持，集成了基于 Web 的筆記本開發，和在標準的 Apache Spark 分布上優化了云的 I/O 性能的綜合管理服務。

值得一提的是，拿 Apache Spark 和?Apache Hadoop?比是有點不恰當的。目前，在大多數 Hadoop 發行版中都包含 Spark 。但是由于以下兩大優勢，Spark 在處理大數據時已經成為首選框架，超越了使 Hadoop 騰飛的舊 MapReduce 范式。

第一個優勢是速度。Spark 的內存內數據引擎意味著在某些情況下，它執行任務的速度比 MapReduce 快一百倍，特別是與需要將狀態寫回到磁盤之間的多級作業相比時更是如此。即使 Apache Spark 的作業數據不能完全包含在內存中，它往往比 MapReduce 的速度快10倍左右。

第二個優勢是對開發人員友好的 Spark API 。與 Spark 的加速一樣重要的是，人們可能會認為 Spark API 的友好性更為重要。

Spark Core

與 MapReduce 和其他 Apache Hadoop 組件相比，Apache Spark API 對開發人員非常友好，在簡單的方法調用后面隱藏了分布式處理引擎的大部分復雜性。其中一個典型的例子是幾乎要 50 行的 MapReduce 代碼來統計文檔中的單詞可以縮減到幾行 Apache Spark 實現（下面代碼是 Scala 中展示的）：

				val?textFile?=?sparkSession.sparkContext.textFile(“hdfs:
				///tmp/words”)
				val?counts?=?textFile.flatMap(line?=>?line.split(“?“))
				??????????????????????.map(word?=>?(word,?
				1
				))
				??????????????????????.reduceByKey(_?+?_)
				counts.saveAsTextFile(“hdfs:
				///tmp/words_agg”)

通過提供類似于 Python、R 等數據分析流行語言的綁定，以及更加對企業友好的 Java 和 Scala ，Apache Spark 允許應用程序開發人員和數據科學家以可訪問的方式利用其可擴展性和速度。

Spark RDD

Apache Spark 的核心是彈性分布式數據集（Resilient Distributed Dataset，RDD）的概念，這是一種編程抽象，表示一個可以在計算集群中分離的不可變對象集合。 RDD 上的操作也可以跨群集分割，并以批處理并行方式執行，從而實現快速和可擴展的并行處理。

RDD 可以通過簡單的文本文件、SQL 數據庫、NoSQL 存儲（如 Cassandra 和 MongoDB ）、Amazon S3 存儲桶等等創建。Spark Core API 的大部分是構建于 RDD 概念之上，支持傳統的映射和縮減功能，還為連接數據集、過濾、采樣和聚合提供了內置的支持。

Spark 是通過結合驅動程序核心進程以分布式方式運行的，該進程將 Spark 應用程序分解成任務，并將其分發到完成任務的許多執行程序的進程中。這些執行程序可以根據應用程序的需要進行擴展和縮減。

Spark SQL

Spark SQL 最初被稱為 Shark，Spark SQL?對于 Apache Spark 項目開始變得越來越重要。它就像現在的開發人員在開發應用程序時常用的接口。Spark SQL 專注于結構化數據的處理，借用了 R 和 Python 的數據框架（在 Pandas 中）。不過顧名思義，Spark SQL 在查詢數據時還兼容了 SQL2003 的接口，將 Apache Spark 的強大功能帶給分析師和開發人員。

除了支持標準的 SQL 外，Spark SQL 還提供了一個標準接口來讀寫其他數據存儲，包括 JSON，HDFS，Apache Hive，JDBC，Apache Parquet，所有這些都是可以直接使用的。像其他流行的存儲工具 —— Apache Cassandra、MongoDB、Apache HBase 和一些其他的能夠從 Spark Packages 生態系統中提取出來單獨使用的連接器。

下邊這行簡單的代碼是從數據框架中選擇一些字段：

citiesDF.select(“name”,?“pop”)

要使用 SQL 接口，首先要將數據框架注冊成一個臨時表，之后我們就可以使用 SQL 語句進行查詢：

				citiesDF.createOrReplaceTempView(“cities”)
				spark.sql(“SELECT?name,?pop?FROM?cities”)

在后臺，?Apache Spark 使用名為?Catalyst?的查詢優化器來檢查數據和查詢，以便為數據局部性和計算生成有效的查詢計劃，以便在集群中執行所需的計算。在 Apache Spark 2.x 版本中，Spark SQL 的數據框架和數據集的接口（本質上是一個可以在編譯時檢查正確性的數據框架類型，并在運行時利用內存并和計算優化）是推薦的開發方式。RDD 接口仍然可用，但只有無法在 Spark SQL 范例中封裝的情況下才推薦使用。

Spark MLib

Apache Spark 還有一個捆綁許多在大數據集上做數據分析和機器學習的算法的庫 (Spark MLib) 。Spark MLlib?包含一個框架用來創建機器學習管道和在任何結構化數據集上進行特征提取、選擇、變換。MLLib 提供了聚類和分類算法的分布式實現，如 k 均值聚類和隨機森林等可以在自定義管道間自由轉換的算法。數據科學家可以在 Apache Spark 中使用 R 或 Python 訓練模型，然后使用 MLLib 存儲模型，最后在生產中將模型導入到基于 Java 或者 Scala 語言的管道中。

需要注意的是 Spark MLLib 只包含了基本的分類、回歸、聚類和過濾機器學習算法，并不包含深度學建模和訓練的工具(更多內容?InfoWorld’s Spark MLlib review?)。提供深度學習管道的工作正在進行中。

Spark GraphX

Spark GraphX?提供了一系列用于處理圖形結構的分布式算法，包括?Google 的 PageRank 實現。這些算法使用 Spark Core 的 RDD 方法來建模數據；GraphFrames?包允許您對數據框執行圖形操作，包括利用 Catalyst 優化器進行圖形查詢。

Spark Streaming

Spark Streaming?是 Apache Spark 的一個新增功能，它幫助在需要實時或接近實時處理的環境中獲得牽引力。以前，Apache Hadoop 世界中的批處理和流處理是不同的東西。您可以為您的批處理需求編寫 MapReduce 代碼，并使用?Apache Storm?等實時流媒體要求。這顯然導致不同的代碼庫需要保持同步的應用程序域，盡管是基于完全不同的框架，需要不同的資源，并涉及不同的操作問題，以及運行它們。

Spark Streaming 將 Apache Spark 的批處理概念擴展為流，將流分解為連續的一系列微格式，然后使用 Apache Spark API 進行操作。通過這種方式，批處理和流操作中的代碼可以共享（大部分）相同的代碼，運行在同一個框架上，從而減少開發人員和操作員的開銷。每個人都能獲益。

對 Spark Streaming 方法的一個批評是，在需要對傳入數據進行低延遲響應的情況下，批量微操作可能無法與 Apache Storm，Apache Flink?和?Apache Apex?等其他支持流的框架的性能相匹配，所有這些都使用純粹的流媒體方法而不是批量微操作。

Structured Streaming

Structured Streaming（在 Spark 2.x 中新增的特性）是針對 Spark Streaming 的，就跟 Spark SQL 之于 Spark 核心 API 一樣：這是一個更高級別的 API，更易于編寫應用程序。在使用 Structure Streaming 的情況下，更高級別的 API 本質上允許開發人員創建無限流式數據幀和數據集。它還解決了用戶在早期的框架中遇到的一些非常真實的痛點，尤其是在處理事件時間聚合和延遲傳遞消息方面。對 Structured Streaming 的所有查詢都通過 Catalyst 查詢優化器，甚至可以以交互方式運行，允許用戶對實時流數據執行 SQL 查詢。

Structured Streaming 在 Apache Spark 中仍然是一個相當新的部分，已經在 Spark 2.2 發行版中被標記為產品就緒狀態。但是，Structure Streaming 是平臺上流式傳輸應用程序的未來，因此如果你要構建新的流式傳輸應用程序，則應該使用 Structure Streaming。傳統的 Spark Streaming API 將繼續得到支持，但項目組建議將其移植到 Structure Streaming 上，因為新方法使得編寫和維護流式代碼更加容易。

Apache Spark 的下一步是什么?

盡管結構化數據流為 Spark Streaming 提供了高級改進，但它目前依賴于處理數據流的相同微量批處理方案。然而， Apache Spark 團隊正在努力為平臺帶來連續的流媒體處理，這應該能夠解決許多處理低延遲響應的問題（聲稱大約1ms，這將會非常令人印象深刻）。更好的是，因為結構化流媒體是建立在 Spark SQL 引擎之上的，所以利用這種新的流媒體技術將不需要更改代碼。

除此之外，Apache Spark 還將通過?Deep Learning Pipelines?增加對深度學習的支持。使用 MLlib 的現有管線結構，您將能夠在幾行代碼中構建分類器，并將自定義?Tensorflow?圖形或?Keras?模型應用于傳入數據。這些圖表和模型甚至可以注冊為自定義的 Spark SQL UDF（用戶定義的函數），以便深度學習模型可以作為 SQL 語句的一部分應用于數據。

這些功能目前都無法滿足生產的需求，但鑒于我們之前在 Apache Spark 中看到的快速發展，他們應該會在2018年的黃金時段做好準備。

End.

轉載請注明來自36大數據（36dsj.com)： 36大數據 ? 什么是 Apache Spark？大數據分析平臺如是說

隨意打賞

大數據智能分析平臺大數據spark 阿里數據分析平臺大數據分析平臺 hadoop 數據分析平臺 apache spark 數據分析師

神策數據接入 DeepSeek，AI 賦能數據分析與智能運營

砍柴網 ? 1分鐘前

在 AI 技術迅猛發展的浪潮下，神策數據正在加速推進人工智能在數據分析和智能運營領域的深度應用。近日，神策數據宣布全面體驗并接入 DeepSeek，為企業客戶帶來更加智能化、高效的數據分析與智能運營服務。這一舉措展現了神策數據在人工智能方向的探索決心。一、神策數據?+ AI，探索技術結合新可能 AI 技術的快速
明略科技全域營銷分析平臺：實時數據智能洞察，AI助力敏捷營銷實效評估

砍柴網 ? 8天前

Gartner在發布的《2024年中國數據、分析和人工智能技術成熟度曲線》中,提及了復合型AI技術的創新應用潛力,認為這一技術將能夠提供更有效的方式以解決更廣泛業務問題。特別是在營銷技術領域,海量且多元異構的客戶數據來源讓企業在數據整合、實時分析、快速查詢以及深入洞察方面常常感到力不從心。
谷歌Gemini AI向免費版用戶開放文件上傳/分析功能

砍柴網 ? 27天前

2 月 15 日消息，谷歌 Gemini AI 已開始向免費版用戶開放文件上傳和分析功能，此前該功能僅向 Gemini Advanced 付費用戶提供。目前，該功能已在 Gemini 安卓應用和網頁版中上線，海外沒有訂閱 Gemini 的用戶現在也可以直接從設備本地或 Google Drive 谷歌云盤中應用程序上傳文
有數ChatBI正式接入DeepSeek大模型，讓數據分析更加智能高效

砍柴網 ? 29天前

近日，隨著 DeepSeek 爆火全球，網易數帆展現了敏捷的技術迭代能力，率先完成有數 ChatBI 與 DeepSeek 大模型的快速適配。作為領先的?AI 驅動型數據分析平臺，有數 ChatBI 核心能力源于兩大創新引擎的深度融合：一是自主研發的 NL2SQL 私有化模型，通過持續微調訓練實現企業級場景的高精度語義
2024 年中國數據中臺行業需求市場分析多因素驅動需求增長

砍柴網 ? 1月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星環科技 (
諸葛io助力城商行打造用戶行為分析平臺，斬獲兩項金融數字化大獎

砍柴網 ? 2月前

諸葛智能與某城商行強強聯合，共同打造「新一代手機銀行用戶行為分析平臺」，該平臺以出色的實踐方案和卓越的應用效果，成功斬獲了兩項金融科技領域案例大獎，彰顯出在行業內強大的影響力和成熟的技術應用實力。銀行標桿案例認可愛分析—金融數字化最佳實踐案例為表彰在金融數字化浪
NeuroBlade在亞馬遜（Amazon） EC2 F2 實例上加速下一代數據分析

砍柴網 ? 2月前

2024年12月26日，中國北京? –數據分析加速領域的領導者NeuroBlade宣布其已經與亞馬遜云科技（AWS）最新發布的Amazon?Elastic Compute Cloud (Amazon EC2)?F2實例實現集成，該實例采用了AMD FPGA與EPYC CPU技術。此次合作通過
2024 年中國數據中臺發展現狀分析實現數據價值化的重要工具

砍柴網 ? 2月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星
打破數據孤島，廣告跨域效果分析與人群包再營銷的神奇工具來了！

砍柴網 ? 3月前

隨著線上業務和收入的持續增長,電商銷售已經成為眾多品牌的核心業務板塊。同時,用戶在眾多APP間的頻繁切換使用,也推動品牌主適應多渠道、碎片化的營銷傳播環境。在這樣的市場背景下,品牌和電商團隊在工作中經常面臨如何平衡品牌廣告投入與電商增長的挑戰。作為營銷負責人,確保廣告預算
品高軟件入選《2024愛分析·數據要素×廠商全景報告》

砍柴網 ? 3月前

近日，中國數字化市場專業服務平臺愛分析正式發布《2024愛分析·數據要素×廠商全景報告》。品高軟件憑借在數據要素領域過硬的技術實力和多年積累的行業信息化服務經驗，成功入選為區域協同治理以及可信數據空間兩個細分領域的代表廠商。本次報告中，愛分析從技術架構角度，將數據要素×市場分為兩大層次：技術支撐層和行業應用層。旨在通過
TECNO全新發布SPARK 20 Pro 5G，帶來5G影音娛樂全方位升級體驗

砍柴網 ? 6月前

6月17日,創新科技品牌TECNO全新發布SPARK 20 Pro 5G,為SPARK 20系列首款5G 手機。TECNO SPARK 20 Pro 5G搭載極速 5G 芯片和108MP超清主攝像頭,采用極簡“拉梅曲線(Lamé Curve)“ 相機島全新時尚設計, 全能
SPARK2024 騰訊游戲發布會：逾30款產品及多個游戲科技項目發布最新進展

砍柴網 ? 6月前

5月28日， SPARK2024 騰訊游戲發布會在線上舉行，帶來34款產品的最新動態，及“數字中軸·小宇宙”“數字藏經洞”“全動飛行模擬機視景系統”“全變源追蹤獵人星座計劃”等游戲科技項目的最新進展，旨在為用戶帶來更多元的游戲
SPARK2024騰訊游戲發布會舉辦游戲科技項目公布最新進展

砍柴網 ? 6月前

5月28日，SPARK 2024 騰訊游戲發布會在線上舉行。發布會上，在“游戲科技應用”篇章，騰訊游戲分享了“數字中軸·小宇宙”“數字藏經洞”“全動飛行模擬機視景系統”“全變源追蹤獵人星座計劃”四個項目的最新進展，展現了生發于游戲的游戲科技，在“數字文?！?、“民用航空”
TECNO SPARK 20 Pro+ 斬獲2024年度法國設計獎兩項鉑金大獎

砍柴網 ? 10月前

近日,2024年度法國設計獎(French Design Awards)首批獲獎作品公布。傳音TECNO最新上市的SPARK 20 Pro+憑借其精致簡約的外觀與創新的人體工學設計,斬獲2024法國設計獎產品設計類別下的兩項鉑金大獎,分別為手機、平板電腦和可穿戴設備(Mobile Phon
Check Point 推出中小企業高級網絡安全解決方案：Quantum Spark 1900、2000

砍柴網 ? 10月前

創新型下一代防火墻可提供高達 5 Gbps 的增強型 AI 威脅防御性能，對零日惡意軟件、網絡釣魚和勒索軟件的攔截率高達 99.8%2024 年 2 月，領先的云端 AI 網絡安全平臺提供商?Check Point? 軟件技術有限公司（納斯達克股票代碼：CHKP）宣布推出 Check Point Quantum Sp
Check Point推出 Infinity Spark，通過企業級防護和連接能力保護中小型企業

砍柴網 ? 1年前

Check Point Infinity Spark 在一個簡單的平臺上跨網絡、電子郵件、辦公室、端點及移動設備提供行業領先的威脅防御2023 年 2 月 ,全球領先的網絡安全解決方案提供商 Check Point 軟件技術有限公司（納斯達克股票代碼：CHKP）今日宣布推出 Check Point Infinity S
騰訊游戲開發首個虛擬探索空間《代號：Spark》，“內測”版本亮相ChinaJoy

砍柴網 ? 2年前

作為全球數字娛樂領域最具知名度和影響力的年度盛會之一，2022年的ChinaJoy成為國內首個試水元宇宙的游戲展。 8月27日，騰訊游戲開發的首個以品牌logo命名的虛擬探索空間“代號：Spark”亮相本次ChinaJoy線上展。騰訊游戲以“Spark?無限”為理念，并將“∞”符合融
背靠億級流量，SPARK2022騰訊先鋒打造云游戲互動直播

砍柴網 ? 2年前

如何讓每年一度的發布會更加深入人心?在今年6月27日的SPARK2022騰訊游戲發布會上,我們就看到了不同往年的一幕: 在今年騰訊游戲發布會官方視頻號直播過程中,騰訊先鋒為用戶提供直播+云游戲的體驗方式,讓所有在線觀看發布會的玩家,都能夠在觀看直播的同時,一鍵暢快體驗游戲大作。背靠億
2022 SIGMOD 系統獎花落 Apache Spark，網易數帆燕青貢獻獲表彰

砍柴網 ? 2年前

美國計算機協會（ACM）數據管理專業委員會（SIGMOD）近日公布了2022年 ACM SIGMOD 獎結果，2022年ACM SIGMOD 系統獎授予"Apache Spark"，表彰了 Spark 社區的一眾大神，其中包括了Apache Spark 發明者 Matei Zaharia，Datab
傳音 Tecno Spark 8 手機在印度發布：指紋傳感器位置奇特

砍柴網 ? 3年前

11 月 11 日消息，中國智能手機公司傳音控股旗下 Tecno 品牌在印度推出了一款 Spark 8 手機，定位入門機型。 Tecno Spark 8 采用了雙后置攝像頭，提供了一個 1600 萬像素的主傳感器，具有 f/1.8 光圈，支持 AI 美顏、微笑拍攝、AI 人像、HDR

評論

提交建議