欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后

產(chǎn)品壹佰 ? 6年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點(diǎn)擊進(jìn)來看看。

HDFS作為Hadoop生態(tài)系統(tǒng)的分布式文件系統(tǒng)，它被設(shè)計用來存儲海量數(shù)據(jù)，特別是TB、PB量級別的數(shù)據(jù)。它的設(shè)計的初衷也是存儲大文件，而如果HDFS上存在大量的小文件，會對系統(tǒng)性能帶來嚴(yán)重的問題。本文想跟大家聊下小文件的處理。

本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認(rèn)大小128MB)小的多的文件。在HDFS中，文件元信息，例如位置、大小、分塊信息等這些存儲在Namenode的內(nèi)存中，每一個object占用150 bytes的內(nèi)存。文件個數(shù)越多相應(yīng)的也會占用Namenode更多的內(nèi)存。何況HDFS主要是為了流式的訪問大文件而設(shè)計的，讀取眾多的小文件顯然也是非常低效的。

▌Hadoop小文件的3類常見情況的處理

1、HDFS中存儲包含了大量小文件

現(xiàn)象：在HDFS上已經(jīng)存在了大量的小文件和目錄。

方案：通過調(diào)用HDFS的sync()方法和append()方法，將小文件和目錄每隔一定時間生成一個大文件，或者可以通過寫程序來合并這些小文件。

2、MapReduce的輸入包含大量小文件

現(xiàn)象：輸入文件中存在大量的小文件

MapReduce程序的Map任務(wù)（task）一次可以處理一個塊（block）大小的輸入數(shù)據(jù)（默認(rèn)使用FileInputFormat）。如果一個輸入文件的大小大于block，那么會拆成兩個或多個task進(jìn)行處理；如果小于block，也會用一個task處理該文件。需要處理的數(shù)據(jù)如果分散存儲在許多小文件中，就會產(chǎn)生大量的map task，如果小文件個數(shù)非常多，這會使處理時間變的很慢。

方案：有3種

1）Hadoop Archive:

Hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠?qū)⒃S多小文件打包成一個HAR文件，這樣會同時減少Namenode的內(nèi)存使用。

2）Sequence File：

Sequence File由一系列的二進(jìn)制key/value組成，如果key為小文件名，value為文件內(nèi)容，則可以將大批小文件合并成一個大文件。

1）和2）這里不做介紹，可以參考 ??

http://blog.cloudera.com/blog/2009/02/the-small-files-problem

3）CombineFileInputFormat：

Hadoop有一個專門的類CombineFileInputFormat?來處理小文件，它根據(jù)一定的規(guī)則，將HDFS上多個小文件合并到一個InputSplit中，同時啟動適量的Map來處理這里面的文件，以減少M(fèi)R整體作業(yè)的運(yùn)行時間。CombineFileInputFormat類繼承FileInputFormat，主要重寫了ListgetSplits(JobContext var1)方法，我們可以設(shè)置mapreduce.input.fileinputformat.split.minsize.per.node、mapreduce.input.fileinputformat.split.minsize.per.rack和mapreduce.input.fileinputformat.split.maxsize?參數(shù)的設(shè)置來合并小文件。其中mapreduce.input.fileinputformat.split.maxsize參數(shù)至關(guān)重要，如果沒有設(shè)置這個參數(shù)（默認(rèn)沒設(shè)置），那么同一個機(jī)架上的所有小文件將組成一個InputSplit，最終由一個Map Task來處理。如果設(shè)置了這個參數(shù)，那么同一個節(jié)點(diǎn)（node）上的文件將會組成一個InputSplit。

InputSplit包含的HDFS塊信息存儲在CombineFileSplit?類中。該類包含了每個塊文件的路徑、起始偏移量、相對于原始偏移量的大小和這個文件的存儲節(jié)點(diǎn)。CombineTextInputFormat告訴MR程序如何讀取組合的InputSplit，具體如何解析CombineFileSplit中的文件主要在CombineFileRecordReader中實(shí)現(xiàn)。該類封裝了TextInputFormat的RecordReader，并對CombineFileSplit中的多個文件循環(huán)遍歷并讀取其中的內(nèi)容。

樣例代碼如下：螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后日志輸出：
可以從日志中很清楚的看出input文件數(shù)為Total input paths to process : 152，通過CombineFileInputFormat處理后splits為mapreduce.JobSubmitter: number of splits:1，map數(shù)為Launched map tasks=1。可以修改mapreduce.input.fileinputformat.split.maxsize參數(shù)，觀察Map Task的個數(shù)變化。

3、Hive小文件問題

現(xiàn)象1：?hive輸入的文件過多

方案：設(shè)置mapper?輸入文件合并參數(shù)

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后

現(xiàn)象2：hive執(zhí)行中間過程生成的文件過多

方案：設(shè)置中間過程合并參數(shù)，盡量避免小文件螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后

現(xiàn)象3：hive輸出結(jié)果生成的文件過多

方案：一種是調(diào)整reducer個數(shù)，另一種是調(diào)整reducer大小螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數(shù)據(jù)的后

/ 參考文章 /

1、https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

2、https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

3、http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

隨意打賞

大數(shù)據(jù)展示大數(shù)據(jù)采集

共筑智算新高地，九章云極攜手揚(yáng)州大數(shù)據(jù)集團(tuán)、揚(yáng)州廣陵新城投資發(fā)展集團(tuán)達(dá)成戰(zhàn)略合作

砍柴網(wǎng) ? 6分鐘前

近日，由揚(yáng)州市國資委、廣陵區(qū)委、區(qū)政府聯(lián)合主辦的“科創(chuàng)揚(yáng)杭?商旅未來”揚(yáng)州（杭州）產(chǎn)業(yè)專題招商合作交流會在杭州舉行。大會現(xiàn)場，九章云極DataCanvas公司與揚(yáng)州大數(shù)據(jù)集團(tuán) 、揚(yáng)州廣陵新城投資發(fā)展集團(tuán)正式簽署戰(zhàn)略合作協(xié)議。三方將攜手打造具備高性能、高可用、高易用的
水滴信用：專業(yè)企業(yè)大數(shù)據(jù)MCP服務(wù)商提供多類型多數(shù)據(jù)維度企業(yè)信息MCP

砍柴網(wǎng) ? 21天前

當(dāng)前是信息爆炸的數(shù)字經(jīng)濟(jì) 時代，工商變更、司法風(fēng)險、知識產(chǎn)權(quán)布局、招投標(biāo)動態(tài)、經(jīng)營狀況……這些關(guān)鍵信息往往沉睡在彼此割裂的系統(tǒng)中，如何將這些流動的戰(zhàn)略資產(chǎn)看透、研究透、運(yùn)用好是各行業(yè)都在思考的問題。水滴信用作為官方備案的企業(yè)征信機(jī)構(gòu)，專業(yè)的企業(yè)信息商查平臺，憑借深厚的數(shù)據(jù)底蘊(yùn)與前沿的大模型技
王宏主持召開2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會及近期重點(diǎn)文體旅活動籌備工作調(diào)度會

數(shù)據(jù)觀 ? 23天前

8月24日，市委副書記、市長王宏主持召開2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會及近期重點(diǎn)文體旅活動籌備工作調(diào)度會。他強(qiáng)調(diào)，要深入學(xué)習(xí)貫徹習(xí)近平總書記在貴州考察時的重要講話精神，認(rèn)真落實(shí)全省數(shù)字經(jīng)濟(jì)發(fā)展推進(jìn)大會安排部署，科學(xué)統(tǒng)籌、精益求精、抓實(shí)抓細(xì)，全力以赴做好籌備工作，確保各項(xiàng)活動安全順利精彩舉辦。市人大常委會副主任劉俐莎，
2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會籌備工作調(diào)度會召開

數(shù)據(jù)觀 ? 1月前

8月12日，2025中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會籌備工作調(diào)度會召開。省委常委、市委書記胡忠雄主持，副省長羅強(qiáng)講話。省大數(shù)據(jù)局局長朱宗堯，省委宣傳部副部長、省政府新聞辦主任陳本榮，省外事辦黨組成員、省對外友協(xié)專職副會長蔣紅，省大數(shù)據(jù)局黨組成員、省信息中心黨委書記焦德祿，市領(lǐng)導(dǎo)劉本立、劉俐莎、付濤參加。胡忠雄指出，數(shù)博會籌備工
賣家精靈8月底將亮相長沙&鄭州跨境展會，以AI+大數(shù)據(jù)賦能華中跨境新機(jī)遇！

樂購科技 ? 1月前

用AI賦能選品決策，用定制水傳遞品牌溫度，賣家精靈始終與跨境賣家并肩同行。據(jù)悉，8月底跨境電商行業(yè)將迎來兩場重量級盛會——2025中國（鄭州）國際跨境電商展覽會和湖南（長沙）跨境電商交易會。作為亞馬遜官方認(rèn)證的SPN/TSPN服務(wù)商，賣家精靈將深度參與這兩場展會，為現(xiàn)場賣家?guī)碜钚翧I功能、數(shù)據(jù)化運(yùn)營解決方案及行業(yè)趨勢
每日互動AI一體機(jī)GAI Station：安全融合大模型與大數(shù)據(jù) 高效驅(qū)動企業(yè)業(yè)務(wù)增長

砍柴網(wǎng) ? 1月前

當(dāng)前，大模型從技術(shù)熱點(diǎn)邁向產(chǎn)業(yè)應(yīng)用，真正的挑戰(zhàn)浮出水面：高昂的私有化部署成本令人卻步，云端調(diào)用又使敏感數(shù)據(jù)如履薄冰。企業(yè)渴望深度融入大模型能力，卻常遭遇“水土不服”。如何將海量、分散的企業(yè)數(shù)據(jù)安全高效地轉(zhuǎn)化為智能生產(chǎn)力？每日互動推出GAI Station個知·智能工作站，基于20年數(shù)據(jù)智能服務(wù)經(jīng)驗(yàn)與行業(yè)Know-How
每日互動聯(lián)手濟(jì)南大數(shù)據(jù)集團(tuán) 共筑數(shù)據(jù)要素安全流通新生態(tài)

砍柴網(wǎng) ? 2月前

7月7日,每日互動股份有限公司與濟(jì)南大數(shù)據(jù)集團(tuán)有限公司正式簽署戰(zhàn)略合作協(xié)議,在共建濟(jì)南城市可信數(shù)據(jù)空間,打造“濟(jì)南發(fā)數(shù)站”,推動數(shù)據(jù)要素市場化運(yùn)營等方面達(dá)成戰(zhàn)略合作。濟(jì)南能源集團(tuán)黨委書記、董事長兼濟(jì)南大數(shù)據(jù)集團(tuán)董事長潘世英,濟(jì)南能源集團(tuán)黨委委員、副總經(jīng)理兼濟(jì)南大數(shù)據(jù)集團(tuán)總經(jīng)理劉英華,每日互動董事長方毅,每日互動首席數(shù)據(jù)
深挖大數(shù)據(jù)價值，共探數(shù)智新未來——2025全球數(shù)字經(jīng)濟(jì)大會大數(shù)據(jù)創(chuàng)新應(yīng)用論壇成功召開

雷鋒網(wǎng) ? 2月前

雷峰網(wǎng)訊 7月2日，以“深挖大數(shù)據(jù)價值激發(fā)數(shù)字經(jīng)濟(jì)新動能”為主題的2025全球數(shù)字經(jīng)濟(jì)大會大數(shù)據(jù)創(chuàng)新應(yīng)用論壇在北京國家會議中心成功召開。作為2025大會的重要組成部分，大數(shù)據(jù)創(chuàng)新應(yīng)用論壇匯聚了政產(chǎn)學(xué)研用多方力量，全面圍繞人工智能驅(qū)動的大模型應(yīng)用、隱私計算與數(shù)據(jù)安全治理、大數(shù)據(jù)賦能產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型等議題展開深入研討，為構(gòu)
重磅發(fā)布 | 城農(nóng)商數(shù)字化指南：擁抱AI+大數(shù)據(jù)，7天裝上營銷大腦！

砍柴網(wǎng) ? 2月前

此前，中國人民銀行等七部門聯(lián)合印發(fā)《推動數(shù)字金融高質(zhì)量發(fā)展行動方案》，明確指出要以數(shù)據(jù)要素和數(shù)字技術(shù)為關(guān)鍵驅(qū)動，加快推進(jìn)金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型，2027年底基本建成與數(shù)字經(jīng)濟(jì) 發(fā)展高度適應(yīng)的金融體系，金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型取得積極成效，數(shù)字化經(jīng)營管理能力明顯增強(qiáng)。
中國—上合組織大數(shù)據(jù)合作中心“中國廣州數(shù)字技術(shù)培訓(xùn)基地”落戶Coremail

砍柴網(wǎng) ? 2月前

6月17日，中國—上海合作組織數(shù)字技術(shù)合作發(fā)展論壇在新疆維吾爾自治區(qū)克拉瑪依市舉行。來自中國及上合組織國家的政府官員、專家學(xué)者和企業(yè)代表等參與，與會嘉賓共同探討數(shù)字技術(shù)發(fā)展新路徑，為上合組織國家數(shù)字化合作擘畫藍(lán)圖。論壇上，中國—上海合作組織大數(shù)據(jù)合作中心正式授牌設(shè)立“哈薩克斯坦數(shù)字技術(shù)交流基地”“中國廣州數(shù)字技術(shù)培訓(xùn)基
Hadoop大數(shù)據(jù)“存算分離”，柏科數(shù)據(jù) ISCloud分布式存儲"提質(zhì)增效"

砍柴網(wǎng) ? 4年前

數(shù)據(jù)湖的發(fā)展契機(jī)，來源于近年來的AI熱潮和云計算、5G的發(fā)展，在日益發(fā)展的海量數(shù)據(jù)時代，數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)，通過構(gòu)建適用于大數(shù)據(jù)的底層架構(gòu)，圍繞Hadoop提供語義一致性、數(shù)據(jù)治理和安全性。Hadoop作為數(shù)據(jù)湖最常用的解決方案之一，其的部署和需求仍然很大并且正在增長。在最近的一項(xiàng)涉及235名受訪者的調(diào)查中，
Hadoop大數(shù)據(jù)存算分離，杉巖MOS知你所想

砍柴網(wǎng) ? 4年前

大數(shù)據(jù)經(jīng)過了多年的發(fā)展，以Hadoop生態(tài)為核心的大數(shù)據(jù)框架已經(jīng)十分成熟，這個過程伴隨著對存儲需求的不斷變化，從而演進(jìn)出了數(shù)據(jù)湖的概念以及在數(shù)據(jù)湖存儲方面的幾個新需求特征：如數(shù)據(jù)的分布組織與元數(shù)據(jù)的高效管理；存儲和計算分離，大幅降低成本；數(shù)據(jù)全生命周期管理；多訪問協(xié)議支持達(dá)到All in One的存儲能力；具備數(shù)據(jù)的智
星環(huán)科技孫元浩：用自研框架取代Hadoop，加速實(shí)現(xiàn)基礎(chǔ)軟件國產(chǎn)化替代數(shù)字觀察

砍柴網(wǎng) ? 5年前

2019年將近尾聲,談到截止目前,2019年星環(huán) 科技所取得成績,創(chuàng)始人孫元浩做了一些簡單的總結(jié)。 “第一,從產(chǎn)品線來說,從2017年開始,星環(huán)科技已經(jīng)基本確定三條產(chǎn)品線,大數(shù)據(jù)產(chǎn)品是主要產(chǎn)品線,而人工智能機(jī)器學(xué)習(xí)平臺和容器的智能大數(shù)據(jù)云平臺,是圍繞客戶在使用大數(shù)據(jù)基礎(chǔ)軟件的基礎(chǔ)需求上
Hadoop，涼了？

億歐網(wǎng) ? 6年前

【編者按】雖然大數(shù)據(jù)依然如日中天，但該領(lǐng)域曾經(jīng)的領(lǐng)頭羊 Cloudera 、Hortonworks 和 MapR 三家公司最近卻步履蹣跚，多少掩蓋了其幾分風(fēng)光。Cloudera 和 Hortonworks 合并，而 MapR 開始裁員。與此同時，大數(shù)據(jù)領(lǐng)域的 Elastic 、Mongo
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

砍柴網(wǎng) ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc. 今年6月6日，Hadoop 商業(yè) 公司Cloudera突然暴跌了40%，一時間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點(diǎn)便是Cloudera的暴跌代表著Hadoop的隕落。
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

鈦媒體 ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年6月6日，Hadoop商業(yè)公司Cloudera突然暴跌了40%，一時間引發(fā)了大家激烈的討論，在這些討論之中，最具代表性的觀點(diǎn)便是Cloudera的暴跌代表著Hadoop的隕落。但我認(rèn)為Cloudera的暴
技術(shù)干貨：SQL on Hadoop在快手大數(shù)據(jù)平臺的實(shí)踐與優(yōu)化

創(chuàng)見網(wǎng) ? 6年前

快手大數(shù)據(jù)架構(gòu)工程師鐘靚近日在 A2M 人工智能與機(jī)器學(xué)習(xí)創(chuàng)新峰會分享了題為《SQL on Hadoop 在快手大數(shù)據(jù)平臺的實(shí)踐與優(yōu)化》的演講，主要從 SQL on Hadoop 介紹、快手 SQL on Hadoop 平臺概述、SQL on Hadoop 在快手的使用經(jīng)驗(yàn)和改進(jìn)分析、快手 SQL on Ha
曾推出Hadoop卻迅速消失，雅虎研究院是如何在10年間衰落的？

IT思維 ? 6年前

公眾號/AI前線策劃編輯｜蔡芳芳作者｜洪亮劼編輯｜Debra AI 前線導(dǎo)讀：雅虎是最早成功的互聯(lián)網(wǎng)公司之一，也是最早意識到需要把基礎(chǔ)研究，特別是機(jī)器學(xué)習(xí)以及人工智能研究，應(yīng)用到實(shí)際產(chǎn)品中的公司。雅虎從很早就開始招聘和培養(yǎng)研究型人才，雅虎研究院就是在這個過程中應(yīng)運(yùn)而生的。本文將說
Cloudera和Hortonworks合并，Hadoop將走向何方？

億歐網(wǎng) ? 6年前

【編者按】在開源已經(jīng)逐漸成為一種政治正確的時候，開源項(xiàng)目最終會走向哪里？本文針對Cloudera和Hortonworks的宣布合并一事進(jìn)行發(fā)問，回溯 Hadoop 的商業(yè)化和合并前后歷程，試圖尋找這一答案。本文首發(fā)于IT經(jīng)理世界，作者李昊原；

評論

提交建議