IT|軟體|分散式運算|Hadoop 在樹莓派運行


2016年4月26日 Hadoop 介紹資料

Hadoop 2.x1.x已經大不相同了,應該說對於存儲計算都更加通用了。Hadoop 2.x實現了用來管理集群資源的YARN框架,可以面向任何需要使用基於HDFS存儲來計算的需要,當然MapReduce現在已經作為外圍的插件式的計算框架,你可以根據需要開發或者選擇合適的計算框架。目前,貌似對MapReduce支持還是比較好的,畢竟MapReduce框架已經還算成熟。其他一些基於YARN框架的標準也在開發中。
YARN框架的核心是資源的管理和分配調度,它比Hadoop 1.x中的資源分配的粒度更細了,也更加靈活了,它的前景應該不錯。由於極大地靈活性,所以在使用過程中由於這些配置的靈活性,可能使用的難度也加大了一些。另外,我個人覺得,YARN畢竟還在發展之中,也有很多不成熟的地方,各種問題頻頻出現,資料也相對較少,官方文檔有時更新也不是很及時,如果我選擇做海量數據處理,可能YARN還不能滿足生產環境的需要。如果完全使用MapReduce來做計算,還是選擇相對更加成熟的Hadoop 1.x版本用於生產環境。


2016年5月5日  MapReduce 概念

數錢幣故事來解釋MapReduce
MapReduce的基本概念其實不難懂,用一個真實的數錢幣故事來解釋。有位企業主為了刁難銀行,用50元硬幣和10元硬幣償還316萬元的貸款,數萬枚硬幣重達1公噸,還得找來吊車才能送到銀行,幾位行員七手八腳花了好幾個小時才清點完畢。銀行只要不斷加派人手,就能縮短清點時間,例如能立即找到100個人手,10分鐘內就能完成,不會影響到正常銀行運作。

就像這個不斷加派人手來清點錢幣的做法一樣,MapReduce可以不斷增加更多伺服器來提高運算能力,增加可承載的運算量。透過Map程式將資料切割成不相關的區塊,分配給大量電腦處理,再透過Reduce程式將結果彙整,輸出開發者需要的結果。

1.Map程式將資料切割成不相關的區塊,分配給大量電腦處理
2.透過Reduce程式將結果彙整


2016年4月22日 Raspberry Pi  安裝 Hadoop

Hadoop 安裝與配置

2016年5月13日 網路資源


留言

這個網誌中的熱門文章

IoT|硬體|樹莓派|外接麥克風及喇叭設置

成長|語文|學習-英文 持續更新!

IoT|硬體|通訊|Arduino 使用 SoftwareSerial Library 與電腦通訊