欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

Spark Streaming vs. Kafka Stream 哪個更適合你-36大數據

36大數據 ? 7年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者：Mahesh Chand Kandpal
翻譯：雁驚寒

譯者注：本文介紹了兩大常用的流式處理框架，Spark Streaming和Kafka Stream，并對他們各自的特點做了詳細說明，以幫助讀者在不同的場景下對框架進行選擇。以下是譯文。流式處理的需求每天都在增加，僅僅對大量的數據進行處理是不夠的。數據必須快速地得到處理，以便企業能夠實時地對不斷變化的業務環境做出反應。流式處理是持續而又并發地對數據進行實時處理。流式處理是處理數據流或傳感器數據的理想平臺，而“復雜事件處理”（CEP）則利用了逐個事件處理和聚合等技術。對于實時數據處理功能，我們有很多選擇可以來實現，比如Spark、Kafka Stream、Flink、Storm等。在這個博客中，我將討論Apache Spark和Kafka Stream的區別。

Apache Spark

Apache Spark是大規模數據處理的通用框架，支持多種不同的編程語言和概念，例如MapReduce、內存處理、流式處理、圖形處理和機器學習。它也可以用于Hadoop的頂層。數據可以從多種來源（例如Kafka、Flume、Kinesis或TCP套接字）獲取，并且使用一些復雜的算法（高級功能，例如映射、歸約、連接和窗口等）對數據進行處理。

Spark Streaming vs. Kafka Stream 哪個更適合你-36大數據

在框架內部，它的工作原理如下圖。 Spark Streaming接收實時輸入數據流，并將數據分成多個批次，然后由Spark引擎對其進行處理，批量生成最終的結果流。

Spark Streaming vs. Kafka Stream 哪個更適合你-36大數據

Spark Streaming提供了一個被稱為離散化數據流（discretized stream，縮寫為DStream）的高級抽象，它代表了一個持續的數據流。DStream可以從諸如Kafka、Flume或Kinesis等來源的輸入數據流中創建，或者通過對其他DStream執行高級操作來創建。在框架內部，DStream可以看成是一系列的RDD（Resilient Distributed Datasets，彈性分布式數據集）。

Kafka Stream

Kafka Streams是一個用于處理和分析數據的客戶端庫。它先把存儲在Kafka中的數據進行處理和分析，然后將最終所得的數據結果回寫到Kafka或發送到外部系統去。它建立在一些非常重要的流式處理概念之上，例如適當區分事件時間和處理時間、窗口支持，以及應用程序狀態的簡單（高效）管理。同時，它也基于Kafka中的許多概念，例如通過劃分主題進行擴展。此外，由于這個原因，它作為一個輕量級的庫可以集成到應用程序中去。這個應用程序可以根據需要獨立運行、在應用程序服務器中運行、作為Docker容器，或通過資源管理器（如Mesos）進行操作。

Kafka Streams直接解決了流式處理中的很多困難問題：

毫秒級延遲的逐個事件處理。
有狀態的處理，包括分布式連接和聚合。
方便的DSL。
使用類似DataFlow的模型對無序數據進行窗口化。
具有快速故障切換的分布式處理和容錯能力。
無停機滾動部署。

Apache Spark可以與Kafka一起使用來傳輸數據，但是如果你正在為新應用程序部署一個Spark集群，這絕對是一個復雜的大問題。

為了克服這個復雜性，我們可以使用完整的流式處理框架，Kafka streams正是實現這個目的的最佳選擇。

Spark Streaming vs. Kafka Stream 哪個更適合你-36大數據

我們的目標是簡化流式處理，使之成為異步服務的主流應用程序編程模型。這是我知道的第一個庫，它充分利用了Kafka，而不僅僅把Kafka當做是一個信息中介。

Streams建立在KTables和KStreams的概念之上，這有助于他們提供事件時間處理。

給出一個與Kafka的核心抽象高度集成的處理模型，能夠減少流式架構中移動件的總數。

將狀態表與事件流完全整合起來，并在單個概念框架中提供這兩個東西，這使得Kafka Streams完全成為一個嵌入式的庫，而不是流式處理集群（只是Kafka和你的應用程序）。當你向應用程序加入了一個新的實例，或者現有的實例發生崩潰的時候，它能夠自動均衡負載，并維護表的本地狀態，使得系統能夠從故障中恢復出來。

Kafka Streams具備低延遲的特點，并且支持易于使用的事件時間。它是一個非常重要的庫，非常適合某些類型的任務。這也是為什么一些設計可以針對Kafka的工作原理進行深入地優化的原因。你不需要設置任何種類的Kafka Streams集群，也沒有集群管理器。如果你需要實現一個簡單的Kafka的主題到主題的轉換、通過關鍵字對元素進行計數、將另一個主題的數據加載到流上，或者運行聚合或只執行實時處理，那么Kafka Streams適合于你。

如果事件時間不相關，并且秒級的延遲可以接受，那么Spark是你的第一選擇。它相當穩定，并且可以很容易地集成到幾乎任何類型的系統中去。此外，每個Hadoop發行版都包含它。而且，用于批處理應用程序的代碼也可以用于流式應用程序，因為API是相同的。

結論

我認為，Kafka Streams最適用于“Kafka > Kafka”場景，而Spark Streaming可用于“Kafka > 數據庫”或“Kafka > 數據科學模型“這樣的場景。

End.

轉載請注明來自36大數據（36dsj.com)： 36大數據 ? Spark Streaming vs. Kafka Stream 哪個更適合你

隨意打賞

36大數據

我來數科：通過大數據與人工智能技術打造安全便捷的金融服務平臺

砍柴網 ? 3分鐘前

在金融科技加速變革下，風控體系成為金融機構發展的關鍵支撐。隨著監管政策趨嚴，個人信息保護、數據安全、機構合規性等要求不斷提升，促使行業進一步加強風控體系的構建與升級。我來數科作為深耕金融科技領域的平臺，始終走在風控技術前沿，以大數據和人工智能為核心，打造全方位的風險管理體系，為用
市場監管總局回應大數據殺熟

i黑馬 ? 3天前

3月5日，國家市場監督管理總局局長羅文表示，今年將著力優化監管方式方法，大力促進平臺經濟健康發展。當前，外賣騎手等新就業群體和消費者都反映，平臺企業存在三個問題。一是算法不透明，二是大數據殺熟，三是刷單炒信。針對上述問題，市場監管部門將積極配合有關部門，加強綜合治理，督促平臺企業提高算法透明度，優化算法規則，切實有力地
貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓

數據觀 ? 4天前

為全面提升貴陽貴安數治能力和水平，建設更高水平的數字貴陽貴安，推動人工智能賦能在全省走前列、作表率。3月4日，貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓，邀請貴州大數據集團云智事業部副總經理陸嘉達博士作“大模型DeepSeek的技術與應用”專題培訓。貴陽市大數據局副局長徐先文主持會議，各區（市、縣、開發區
白鴿在線攜手鹽城大數據集團以科技守護百姓財產安全

砍柴網 ? 6天前

信息化時代,電信網絡詐騙案件持續多發高發,手段日益復雜、新騙術層出不窮,給人民群眾的財產安全帶來了巨大威脅,加強反詐宣傳工作亟不可待。為守護百姓的“錢袋子”,近日, 白鴿在線聯合鹽城市大數據集團、鹽城市公安局鹽南分局及華農財險,共同發起“數智反詐守護幸福”大型反詐公益項目 ,攜手構建“政企保
醫渡科技六度蟬聯醫療大數據企業榜首，以“YiduCore+DeepSeek”重構醫療智能生態

砍柴網 ? 6天前

近日,《2024醫療大數據企業排行榜》發布,醫渡科技連續第六年摘得行業榜首桂冠,再次證明了其在中國醫療人工智能和大數據領域的優勢地位。該榜單由中國科學院主管的權威媒體《互聯網周刊》聯合德本咨詢、中國社會科學院信息化研究中心每年評選,具有極高的權威性和
加和科技受邀出席中國信通院“卓信大數據計劃”2025年度會議

砍柴網 ? 11天前

2025年2月21日，中國信通院“卓信大數據計劃”2025年度會議在北京召開。加和科技作為特邀參展商參會，與行業精英共同聚焦大模型時代的數據安全挑戰與機遇。自2021年啟動以來，“卓信大數據計劃”致力于構建數據安全基礎設施，完善保障體系，匯聚產業力量，推動應用創新。此次大
2025中國國際大數據產業博覽會年度主題征集公告

數據觀 ? 11天前

中國國際大數據產業博覽會（以下簡稱數博會），是全球首個以大數據為主題的國際性博覽會，由國家數據局主辦，貴州省人民政府承辦，經過十年積累沉淀，已經成為數據領域引領創新趨勢、展示行業成果、促進開放合作的重要載體。2025數博會籌備工作已啟動，為全方位展現本屆數博會國際性、權威性平臺形象，提高大眾參與度，現面向全社會公開征集
“浪潮卓數大數據”完成B輪融資

i黑馬 ? 1月前

據浪潮卓數消息，“浪潮卓數大數據”宣布完成B輪融資。本輪融資由中泰創投領投，東營財金、浪潮產投等機構跟投，公司估值較上輪增長167%。本次融資將助力浪潮卓數大數據進一步加強研發投入、引進優秀人才、塑造產業優勢，加快科技創新成果轉化。文章評價匿名用戶發布發布
酷克數據榮膺多項行業大獎，引領大數據與計算產業創新發展

砍柴網 ? 1月前

新年伊始，酷克數據在大數據與計算產業領域捷報頻傳，榮譽入選第八屆大數據“星河(Galaxy)”數據庫潛力案例，更被權威收錄入《2024年度全球計算產業案例匯編(GMVPS)》，彰顯實力。同時，酷克數據還榮膺IT168頒發的2024年度技術卓越獎，以及InfoQ授予的2024年度技術生態構建品牌殊榮。這一系列輝煌榮譽，不
云知聲 Atlas 超算平臺入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》

砍柴網 ? 2月前

在大數據與人工智能領域日新月異的今天，高效、可靠的分布式文件系統及其計算加速方案已成為眾多企業和科研機構關注的焦點。云知聲的Atlas超算平臺以其“基于Fluid + Alluxio的計算加速實踐”，榮耀入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》。這一榮譽不僅彰顯了云知聲在技術創新方面的實力，也
TECNO全新發布SPARK 20 Pro 5G，帶來5G影音娛樂全方位升級體驗

砍柴網 ? 6月前

6月17日,創新科技品牌TECNO全新發布SPARK 20 Pro 5G,為SPARK 20系列首款5G 手機。TECNO SPARK 20 Pro 5G搭載極速 5G 芯片和108MP超清主攝像頭,采用極簡“拉梅曲線(Lamé Curve)“ 相機島全新時尚設計, 全能
SPARK2024 騰訊游戲發布會：逾30款產品及多個游戲科技項目發布最新進展

砍柴網 ? 6月前

5月28日， SPARK2024 騰訊游戲發布會在線上舉行，帶來34款產品的最新動態，及“數字中軸·小宇宙”“數字藏經洞”“全動飛行模擬機視景系統”“全變源追蹤獵人星座計劃”等游戲科技項目的最新進展，旨在為用戶帶來更多元的游戲
SPARK2024騰訊游戲發布會舉辦游戲科技項目公布最新進展

砍柴網 ? 6月前

5月28日，SPARK 2024 騰訊游戲發布會在線上舉行。發布會上，在“游戲科技應用”篇章，騰訊游戲分享了“數字中軸·小宇宙”“數字藏經洞”“全動飛行模擬機視景系統”“全變源追蹤獵人星座計劃”四個項目的最新進展，展現了生發于游戲的游戲科技，在“數字文保”、“民用航空”
TECNO SPARK 20 Pro+ 斬獲2024年度法國設計獎兩項鉑金大獎

砍柴網 ? 10月前

近日,2024年度法國設計獎(French Design Awards)首批獲獎作品公布。傳音TECNO最新上市的SPARK 20 Pro+憑借其精致簡約的外觀與創新的人體工學設計,斬獲2024法國設計獎產品設計類別下的兩項鉑金大獎,分別為手機、平板電腦和可穿戴設備(Mobile Phon
Check Point 推出中小企業高級網絡安全解決方案：Quantum Spark 1900、2000

砍柴網 ? 10月前

創新型下一代防火墻可提供高達 5 Gbps 的增強型 AI 威脅防御性能，對零日惡意軟件、網絡釣魚和勒索軟件的攔截率高達 99.8%2024 年 2 月，領先的云端 AI 網絡安全平臺提供商?Check Point? 軟件技術有限公司（納斯達克股票代碼：CHKP）宣布推出 Check Point Quantum Sp
Check Point推出 Infinity Spark，通過企業級防護和連接能力保護中小型企業

砍柴網 ? 1年前

Check Point Infinity Spark 在一個簡單的平臺上跨網絡、電子郵件、辦公室、端點及移動設備提供行業領先的威脅防御2023 年 2 月 ,全球領先的網絡安全解決方案提供商 Check Point 軟件技術有限公司（納斯達克股票代碼：CHKP）今日宣布推出 Check Point Infinity S
騰訊游戲開發首個虛擬探索空間《代號：Spark》，“內測”版本亮相ChinaJoy

砍柴網 ? 2年前

作為全球數字娛樂領域最具知名度和影響力的年度盛會之一，2022年的ChinaJoy成為國內首個試水元宇宙的游戲展。 8月27日，騰訊游戲開發的首個以品牌logo命名的虛擬探索空間“代號：Spark”亮相本次ChinaJoy線上展。騰訊游戲以“Spark?無限”為理念，并將“∞”符合融
背靠億級流量，SPARK2022騰訊先鋒打造云游戲互動直播

砍柴網 ? 2年前

如何讓每年一度的發布會更加深入人心?在今年6月27日的SPARK2022騰訊游戲發布會上,我們就看到了不同往年的一幕: 在今年騰訊游戲發布會官方視頻號直播過程中,騰訊先鋒為用戶提供直播+云游戲的體驗方式,讓所有在線觀看發布會的玩家,都能夠在觀看直播的同時,一鍵暢快體驗游戲大作。背靠億
2022 SIGMOD 系統獎花落 Apache Spark，網易數帆燕青貢獻獲表彰

砍柴網 ? 2年前

美國計算機協會（ACM）數據管理專業委員會（SIGMOD）近日公布了2022年 ACM SIGMOD 獎結果，2022年ACM SIGMOD 系統獎授予"Apache Spark"，表彰了 Spark 社區的一眾大神，其中包括了Apache Spark 發明者 Matei Zaharia，Datab
傳音 Tecno Spark 8 手機在印度發布：指紋傳感器位置奇特

砍柴網 ? 3年前

11 月 11 日消息，中國智能手機公司傳音控股旗下 Tecno 品牌在印度推出了一款 Spark 8 手機，定位入門機型。 Tecno Spark 8 采用了雙后置攝像頭，提供了一個 1600 萬像素的主傳感器，具有 f/1.8 光圈，支持 AI 美顏、微笑拍攝、AI 人像、HDR

評論

提交建議