国产另类ts人妖一区二区_欧美肥老太做爰视频_快穿高h肉_国产欧美综合在线

當前位置: 首頁 / 技術(shù)干貨 / 正文
好程序員大數(shù)據(jù)培訓(xùn)分享Hadoop的shuffle過程

2020-11-05

Hadoop 大數(shù)據(jù)培訓(xùn)

  好程序員大數(shù)據(jù)培訓(xùn)分享Hadoopshuffle過程,對大數(shù)據(jù)感興趣想要學(xué)習(xí)或者是想要加入到大數(shù)據(jù)行業(yè)的小伙伴們就隨小編一起來看一下吧。

 

  Hadoopshuffle過程就是從map端輸出到reduce端輸入之間的過程,這一段應(yīng)該是Hadoop中最核心的部分,因為涉及到Hadoop中最珍貴的網(wǎng)絡(luò)資源,所以shuffle過程中會有很多可以調(diào)節(jié)的參數(shù),也有很多策略可以研究。這里沒有對shuffle做深入的分析,也沒有讀源代碼,只是根據(jù)資料和使用的一些理解。

  map端:

  map過程的輸出是寫入本地磁盤而不是HDFS,但是一開始數(shù)據(jù)并不是直接寫入磁盤而是緩沖在內(nèi)存中,緩存的好處就是減少磁盤I/O的開銷,提高合并和排序的速度。默認的內(nèi)存緩沖大小是100M(可以配置),所以在書寫map函數(shù)的時候要盡量減少內(nèi)存的使用,為shuffle過程預(yù)留更多的內(nèi)存,因為該過程是最耗時的過程。

  當緩沖的內(nèi)存大小使用超過一定的閾值(默認80%),一個后臺的線程就會啟動把緩沖區(qū)中的數(shù)據(jù)寫入(spill)到磁盤中,往內(nèi)存中寫入的線程繼續(xù)寫入知道緩沖區(qū)滿,緩沖區(qū)滿后線程阻塞直至緩沖區(qū)被清空。

好程序員

  在數(shù)據(jù)spill到磁盤的過程中會有一些額外的處理,調(diào)用partition函數(shù)、combine函數(shù)(如果設(shè)置)、對數(shù)據(jù)進行排序(key排序)。如果發(fā)生多次磁盤的溢出寫,會在磁盤上形成幾個溢出寫文件,在map過程結(jié)束時,要將這些文件進行合并生成一個大的分區(qū)的排序的文件(比較繞)

  另外在寫磁盤的時候才用壓縮的方式將map的輸出結(jié)果進行壓縮是減少網(wǎng)絡(luò)開銷很有效的方法。

  reduce端:

  reduce端可能從nmap的結(jié)果中獲取數(shù)據(jù),而這些map的執(zhí)行速度不盡相同,當其中一個map運行結(jié)束時,reduce就會從jobtractor中獲取該信息。map運行結(jié)束后tasktractor會得到消息,進而將消息匯報給jobtractorreduce定時從jobtractor獲取該信息,reduce端默認有5個線程從map端拖拉數(shù)據(jù)。

  同樣從map端拖來的數(shù)據(jù)(pull)先寫到reduce端的緩存中,同樣緩存占用到達一定閾值后會將數(shù)據(jù)寫到磁盤中,同樣會進行partitioncombine、排序等過程。如果形成多個磁盤文件還會進行合并最后一次合并的結(jié)果作為reduce的輸入而不是寫入到磁盤中。

  reduce的結(jié)果將會寫入到HDFS,如果執(zhí)行任務(wù)的節(jié)點也是HDFS的一個節(jié)點,本地會保存一個副本。

  關(guān)于Hadoopshuffle過程好程序員大數(shù)據(jù)小編就先給大家介紹這些,希望對小伙伴們有所幫助,想要了解更多內(nèi)容的小伙伴可以登錄好程序員大數(shù)據(jù)培訓(xùn)官網(wǎng)咨詢。

好程序員公眾號

  • · 剖析行業(yè)發(fā)展趨勢
  • · 匯聚企業(yè)項目源碼

好程序員開班動態(tài)

More+
  • HTML5大前端 <高端班>

    開班時間:2021-04-12(深圳)

    開班盛況

    開班時間:2021-05-17(北京)

    開班盛況
  • 大數(shù)據(jù)+人工智能 <高端班>

    開班時間:2021-03-22(杭州)

    開班盛況

    開班時間:2021-04-26(北京)

    開班盛況
  • JavaEE分布式開發(fā) <高端班>

    開班時間:2021-05-10(北京)

    開班盛況

    開班時間:2021-02-22(北京)

    開班盛況
  • Python人工智能+數(shù)據(jù)分析 <高端班>

    開班時間:2021-07-12(北京)

    預(yù)約報名

    開班時間:2020-09-21(上海)

    開班盛況
  • 云計算開發(fā) <高端班>

    開班時間:2021-07-12(北京)

    預(yù)約報名

    開班時間:2019-07-22(北京)

    開班盛況
IT培訓(xùn)IT培訓(xùn)
在線咨詢
IT培訓(xùn)IT培訓(xùn)
試聽
IT培訓(xùn)IT培訓(xùn)
入學(xué)教程
IT培訓(xùn)IT培訓(xùn)
立即報名
IT培訓(xùn)

Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號-5 京公網(wǎng)安備 11010802035720號