IT|軟體|分散式運算|Hadoop 在樹莓派運行
2016年4月26日 Hadoop 介紹資料
Hadoop 2.x和1.x已經大不相同了,應該說對於存儲計算都更加通用了。Hadoop 2.x實現了用來管理集群資源的YARN框架,可以面向任何需要使用基於HDFS存儲來計算的需要,當然MapReduce現在已經作為外圍的插件式的計算框架,你可以根據需要開發或者選擇合適的計算框架。目前,貌似對MapReduce支持還是比較好的,畢竟MapReduce框架已經還算成熟。其他一些基於YARN框架的標準也在開發中。
YARN框架的核心是資源的管理和分配調度,它比Hadoop 1.x中的資源分配的粒度更細了,也更加靈活了,它的前景應該不錯。由於極大地靈活性,所以在使用過程中由於這些配置的靈活性,可能使用的難度也加大了一些。另外,我個人覺得,YARN畢竟還在發展之中,也有很多不成熟的地方,各種問題頻頻出現,資料也相對較少,官方文檔有時更新也不是很及時,如果我選擇做海量數據處理,可能YARN還不能滿足生產環境的需要。如果完全使用MapReduce來做計算,還是選擇相對更加成熟的Hadoop 1.x版本用於生產環境。
2016年5月5日 MapReduce 概念
數錢幣故事來解釋MapReduce
MapReduce的基本概念其實不難懂,用一個真實的數錢幣故事來解釋。有位企業主為了刁難銀行,用50元硬幣和10元硬幣償還316萬元的貸款,數萬枚硬幣重達1公噸,還得找來吊車才能送到銀行,幾位行員七手八腳花了好幾個小時才清點完畢。銀行只要不斷加派人手,就能縮短清點時間,例如能立即找到100個人手,10分鐘內就能完成,不會影響到正常銀行運作。
就像這個不斷加派人手來清點錢幣的做法一樣,MapReduce可以不斷增加更多伺服器來提高運算能力,增加可承載的運算量。透過Map程式將資料切割成不相關的區塊,分配給大量電腦處理,再透過Reduce程式將結果彙整,輸出開發者需要的結果。
1.Map程式將資料切割成不相關的區塊,分配給大量電腦處理
2.透過Reduce程式將結果彙整
2016年4月22日 Raspberry Pi 安裝 Hadoop
Hadoop 安裝與配置
2016年5月13日 網路資源
留言
張貼留言