發表文章

目前顯示的是 4月, 2016的文章

IT|軟體|分散式運算|Hadoop 在樹莓派運行

2016年4月26日 Hadoop 介紹資料 Hadoop 2.x 和 1.x 已經大不相同了,應該說對於存儲計算都更加通用了。 Hadoop 2.x 實現了用來管理集群資源的 YARN 框架,可以面向任何需要使用基於 HDFS 存儲來計算的需要,當然 MapReduce 現在已經作為外圍的插件式的計算框架,你可以根據需要開發或者選擇合適的計算框架。目前,貌似對 MapReduce 支持還是比較好的,畢竟 MapReduce 框架已經還算成熟。其他一些基於 YARN 框架的標準也在開發中。 YARN 框架的核心是資源的管理和分配調度,它比 Hadoop 1.x 中的資源分配的粒度更細了,也更加靈活了,它的前景應該不錯。由於極大地靈活性,所以在使用過程中由於這些配置的靈活性,可能使用的難度也加大了一些。另外,我個人覺得, YARN 畢竟還在發展之中,也有很多不成熟的地方,各種問題頻頻出現,資料也相對較少,官方文檔有時更新也不是很及時,如果我選擇做海量數據處理,可能 YARN 還不能滿足生產環境的需要。如果完全使用 MapReduce 來做計算,還是選擇相對更加成熟的 Hadoop 1.x 版本用於生產環境。 2016年5月5日   MapReduce 概念 數錢幣故事來解釋MapReduce MapReduce的基本概念其實不難懂,用一個真實的數錢幣故事來解釋。有位企業主為了刁難銀行,用50元硬幣和10元硬幣償還316萬元的貸款,數萬枚硬幣重達1公噸,還得找來吊車才能送到銀行,幾位行員七手八腳花了好幾個小時才清點完畢。銀行只要不斷加派人手,就能縮短清點時間,例如能立即找到100個人手,10分鐘內就能完成,不會影響到正常銀行運作。 就像這個不斷加派人手來清點錢幣的做法一樣,MapReduce可以不斷增加更多伺服器來提高運算能力,增加可承載的運算量。透過Map程式將資料切割成不相關的區塊,分配給大量電腦處理,再透過Reduce程式將結果彙整,輸出開發者需要的結果。 1.Map程式將資料切割成不相關的區塊,分配給大量電腦處理 2.透過Reduce程式將結果彙整 2016年4月22日 Raspberry Pi  安裝 Hadoop Hadoop 安裝與配置 2016年5月1