欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

除Apache Spark外的三種新興開源數據分析工具

數據觀 ? 8年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

這些 數據分析 項目大行其道：Apache Grappa、Apache Drill和Apache Kafka。

在數據分析方面，影響深遠的變化正在醞釀之中，而開源工具在引領許多變化。當然，你可能已熟悉這個領域的一些明星開源項目，比如Hadoop和Apache Spark，不過現在出現了強烈的要求，需要全面完善數據分析生態系統的新工具。值得注意的是，許多這些工具是為了處理流數據而定制的。

物聯網帶來了眾多傳感器及其他設備，它們在生成源源不斷的數據流，而物聯網只是推動市場需要新型分析工具的重大趨勢之一。比如需要流數據分析工具來改善藥物發現，美國宇航局和搜尋外星文明研究所(SETI)甚至在開展合作，分析數TB復雜的外太空無線電信號流。

雖然Apache Spark在數據分析領域搶走了許多風頭，那是由于IBM及其他公司在這方面投入了數十億美元的研發資金，但幾個藉藉無名的開源項目也在迅速崛起。下面是值得探討的三種新興的數據分析工具。

1.Grappa

大大小小的企業組織正在致力于研究從數據流提取寶貴信息的新方法，其中許多在處理集群上生成的數據，而且在日益處理商用硬件上生成的數據。這樣一來，成本合理的、以數據為中心的方法受到了重視，這種方法可以改善MapReduce、甚至Spark等工具的性能和功能。Grappa開源項目這時候閃亮登場了，它可以在大眾化集群上擴展數據密集型應用程序，并且提供了一種新型的抽象機制，比經典的分布式共享內存(DSM)系統更勝一籌。

你可以在此獲得Grappa的源代碼，并找到關于它的更多信息。Grappa的起源是這樣的：一群在克雷(Cray)系統上運行 大數據 任務方面有著豐富經驗的工程師想，是不是可以與克雷系統在現成商用硬件上能夠實現的分析功能一較高下。

正如開發人員特別指出：“Grappa在足夠高級的層面提供了抽象，因而包括數據密集型平臺所常見的許多性能優化。然而，其相對低級的接口又提供了一種方便的抽象，以便在此基礎上構建數據密集型框架。(簡化版)MapReduce、GraphLab和關系查詢引擎的原型實現就建立在Grappa的基礎上，它們的性能比原有系統更勝一籌。”

采用BSD許可證的Grappa在GitHub上可以免費獲取。如果你有興趣看看Grappa是怎么實際運行的，可以在應用程序的README文件中遵照通俗易懂的快速啟動說明，構建Grappa應用程序，并在集群上運行。想了解如何編寫自己的Grappa應用程序，不妨閱讀這個教程。

2.Apache Drill

Apache Drill項目在大數據領域帶來了重大的影響，以至于MapR等公司甚至把它納入到其Hadoop發行版中。它是Apache的一個頂級項目，與Apache Spark一同應用于許多流數據場景。

比如說，在今年1月份召開的紐約Apache Drill大會上，MapR的系統工程師展示了Apache Spark和Drill如何可以協同用于涉及數據包捕獲和近實時查詢及搜索的一種使用場合下。

Drill在流數據應用程序中之所以如此出名，是因為它是一種分布式、無模式(schema-free)的SQL引擎。開發運維和IT人員可以使用Drill，以交互方式探索Hadoop及其他NoSQL數據庫(比如HBase和MongoDB)中的數據。不需要明確定義和維護模式，因為Drill可以自動充分利用嵌入到數據中的結構。它能夠在操作員之間的內存中流式傳輸數據，并且盡量減少使用完成查詢所需的磁盤。

3.Apache Kafka

Apache Kafka項目已憑借實時數據跟蹤功能儼然成為一顆明星。它提供了處理實時數據的功能，具有統一、高吞吐量、低延遲等優點。Confluent及其他組織還開發了自定義工具，以便Kafka與數據流結合使用。

Apache Kafka最初由LinkedIn開發，后來在2011年年初開放了源代碼。它是一種經過加固和測試的工具，許多企業組織要求員工擁有Kafka方面的知識。使用Kafka的知名公司包括思科、網飛、貝寶、優步和Spotify。

LinkedIn當初開發Kafka的那些工程師還成立了Confluent，它專注于Kafka。Confluent大學為Kafka開發人員以及操作員/管理員提供培訓課程。現場課程和公開課程都有提供。

By.SAM DEAN

編譯丨布加迪

責任編輯：王培

隨意打賞

spark大數據大數據分析工具 spark開源數據分析工具

神策數據接入 DeepSeek，AI 賦能數據分析與智能運營

砍柴網 ? 1分鐘前

在 AI 技術迅猛發展的浪潮下，神策數據正在加速推進人工智能在數據分析和智能運營領域的深度應用。近日，神策數據宣布全面體驗并接入 DeepSeek，為企業客戶帶來更加智能化、高效的數據分析與智能運營服務。這一舉措展現了神策數據在人工智能方向的探索決心。一、神策數據?+ AI，探索技術結合新可能 AI 技術的快速
明略科技全域營銷分析平臺：實時數據智能洞察，AI助力敏捷營銷實效評估

砍柴網 ? 8天前

Gartner在發布的《2024年中國數據、分析和人工智能技術成熟度曲線》中,提及了復合型AI技術的創新應用潛力,認為這一技術將能夠提供更有效的方式以解決更廣泛業務問題。特別是在營銷技術領域,海量且多元異構的客戶數據來源讓企業在數據整合、實時分析、快速查詢以及深入洞察方面常常感到力不從心。
谷歌Gemini AI向免費版用戶開放文件上傳/分析功能

砍柴網 ? 27天前

2 月 15 日消息，谷歌 Gemini AI 已開始向免費版用戶開放文件上傳和分析功能，此前該功能僅向 Gemini Advanced 付費用戶提供。目前，該功能已在 Gemini 安卓應用和網頁版中上線，海外沒有訂閱 Gemini 的用戶現在也可以直接從設備本地或 Google Drive 谷歌云盤中應用程序上傳文
有數ChatBI正式接入DeepSeek大模型，讓數據分析更加智能高效

砍柴網 ? 29天前

近日，隨著 DeepSeek 爆火全球，網易數帆展現了敏捷的技術迭代能力，率先完成有數 ChatBI 與 DeepSeek 大模型的快速適配。作為領先的?AI 驅動型數據分析平臺，有數 ChatBI 核心能力源于兩大創新引擎的深度融合：一是自主研發的 NL2SQL 私有化模型，通過持續微調訓練實現企業級場景的高精度語義
2024 年中國數據中臺行業需求市場分析多因素驅動需求增長

砍柴網 ? 1月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星環科技 (
諸葛io助力城商行打造用戶行為分析平臺，斬獲兩項金融數字化大獎

砍柴網 ? 2月前

諸葛智能與某城商行強強聯合，共同打造「新一代手機銀行用戶行為分析平臺」，該平臺以出色的實踐方案和卓越的應用效果，成功斬獲了兩項金融科技領域案例大獎，彰顯出在行業內強大的影響力和成熟的技術應用實力。銀行標桿案例認可愛分析—金融數字化最佳實踐案例為表彰在金融數字化浪
NeuroBlade在亞馬遜（Amazon） EC2 F2 實例上加速下一代數據分析

砍柴網 ? 2月前

2024年12月26日，中國北京? –數據分析加速領域的領導者NeuroBlade宣布其已經與亞馬遜云科技（AWS）最新發布的Amazon?Elastic Compute Cloud (Amazon EC2)?F2實例實現集成，該實例采用了AMD FPGA與EPYC CPU技術。此次合作通過
2024 年中國數據中臺發展現狀分析實現數據價值化的重要工具

砍柴網 ? 2月前

行業主要上市公司：阿里巴巴 ( 9988.HK ) 、騰訊控股?( 0700.HK ) 、用友網絡?( 600588.SH ) 、金蝶國際?( 0268.HK ) 、亞信科技 ?( 1675.HK ) 、浪潮數字企業 ( 0596.HK ) 、普元信息?( 688118.SH ) 、星
打破數據孤島，廣告跨域效果分析與人群包再營銷的神奇工具來了！

砍柴網 ? 3月前

隨著線上業務和收入的持續增長,電商銷售已經成為眾多品牌的核心業務板塊。同時,用戶在眾多APP間的頻繁切換使用,也推動品牌主適應多渠道、碎片化的營銷傳播環境。在這樣的市場背景下,品牌和電商團隊在工作中經常面臨如何平衡品牌廣告投入與電商增長的挑戰。作為營銷負責人,確保廣告預算
品高軟件入選《2024愛分析·數據要素×廠商全景報告》

砍柴網 ? 3月前

近日，中國數字化市場專業服務平臺愛分析正式發布《2024愛分析·數據要素×廠商全景報告》。品高軟件憑借在數據要素領域過硬的技術實力和多年積累的行業信息化服務經驗，成功入選為區域協同治理以及可信數據空間兩個細分領域的代表廠商。本次報告中，愛分析從技術架構角度，將數據要素×市場分為兩大層次：技術支撐層和行業應用層。旨在通過

評論

提交建議