關於hadoop是什麼

生活範例常識
關注：2.49W次

Hadoop的框架最核心的設計就是：HDFS和MapReduce。下面本站小編為大家收集整理的相關資料。歡迎大家閲讀!!!

關於hadoop是什麼

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用户可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。 Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System)，簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據，適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求，可以以流的形式訪問(streaming access)文件系統中的數據。

hadoop優點

Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外，Hadoop 依賴於社區服務器，因此它的'成本比較低，任何人都可以使用。

Hadoop是一個能夠讓用户輕鬆架構和使用的分佈式計算平台。用户可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

Hadoop 3.0新特性預覽

1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的，而JDK 1.7在2015年4月已停止更新，這直接迫使Hadoop社區基於JDK 1.8重新發佈一個新的Hadoop版本，而這正是hadoop 3.0。

Hadoop 3.0的alpha版預計今年夏天發佈，GA版本11月或12月發佈。

Hadoop 3.0中引入了一些重要的功能和優化，包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的內存和磁盤IO隔離、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和性能方面，對hadoop內核進行了多項重大改進，主要包括：

2.1 Hadoop Common

(1)精簡Hadoop內核，包括剔除過期的API和實現，將默認組件實現替換成最高效的實現(比如將FileOutputCommitter缺省實現換為v2版本，廢除hftp轉由webhdfs替代，移除Hadoop子實現序列化庫rds

(2)Classpath isolation以防止不同版本jar包衝突，比如google Guava在混合使用Hadoop、HBase和Spark時，很容易產生衝突。()

(3)Shell腳本重構。 Hadoop 3.0對Hadoop的管理腳本進行了重構，修復了大量bug，增加了新特性，支持動態命令等。

2.2 Hadoop HDFS

(1)HDFS支持數據的擦除編碼，這使得HDFS在不降低可靠性的前提下，節省一半存儲空間。()

(2)多NameNode支持，即支持一個集羣中，一個active、多個standby namenode部署方式。注：多ResourceManager特性在hadoop 2.0中已經支持。()

2.3 Hadoop MapReduce

(1)Tasknative優化。為MapReduce增加了C/C++的map output collector實現(包括Spill，Sort和IFile等)，通過作業級別參數調整就可切換到該實現上。對於shuffle密集型應用，其性能可提高約30%。()

(2)MapReduce內存參數自動推斷。在Hadoop 2.0中，為MapReduce作業設置內存參數非常繁瑣，涉及到兩個參數：mapreduce.{map,reduce}和mapreduce.{map,reduce}，一旦設置不合理，則會使得內存資源浪費嚴重，比如將前者設置為4096MB，但後者卻是“-Xmx2g”，則剩餘2g實際上無法讓java heap使用到。()

2.4 Hadoop YARN

(1)基於cgroup的內存隔離和IO Disk隔離()

(2)用curator實現RM leader選舉()

(3)containerresizing()

(4)Timelineserver next generation ()

3. Hadoop3.0總結

Hadoop 3.0的alpha版預計今年夏天發佈，GA版本11月或12月發佈。

Hadoop 3.0中引入了一些重要的功能和優化，包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的內存和磁盤IO隔離、YARN container resizing等。

標籤： hadoop

文章版權屬於文章作者所有，轉載請註明 https://xuewengu.com/flsh/changshi/l3jk43.html

當前位置：學問谷 >

生活範例 >生活範例常識 >

關於hadoop是什麼

相關內容

熱門文章

猜你喜歡