當前位置:學問谷 >

生活範例 >生活範例常識 >

關於hadoop是什麼

關於hadoop是什麼

Hadoop的框架最核心的設計就是:HDFS和MapReduce。下面本站小編為大家收集整理的相關資料。歡迎大家閲讀!!!

關於hadoop是什麼
關於hadoop是什麼

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用户可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。 Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。

hadoop優點

Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的'成本比較低,任何人都可以使用。

Hadoop是一個能夠讓用户輕鬆架構和使用的分佈式計算平台。用户可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

Hadoop 3.0新特性預覽

1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的,而JDK 1.7在2015年4月已停止更新,這直接迫使Hadoop社區基於JDK 1.8重新發佈一個新的Hadoop版本,而這正是hadoop 3.0。

Hadoop 3.0的alpha版預計今年夏天發佈,GA版本11月或12月發佈。

Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的內存和磁盤IO隔離、YARN container resizing等。

2. Hadoop 3.0新特性

Hadoop 3.0在功能和性能方面,對hadoop內核進行了多項重大改進,主要包括:

2.1 Hadoop Common

(1)精簡Hadoop內核,包括剔除過期的API和實現,將默認組件實現替換成最高效的實現(比如將FileOutputCommitter缺省實現換為v2版本,廢除hftp轉由webhdfs替代,移除Hadoop子實現序列化庫rds

(2)Classpath isolation以防止不同版本jar包衝突,比如google Guava在混合使用Hadoop、HBase和Spark時,很容易產生衝突。()

(3)Shell腳本重構。 Hadoop 3.0對Hadoop的管理腳本進行了重構,修復了大量bug,增加了新特性,支持動態命令等。

2.2 Hadoop HDFS

(1)HDFS支持數據的擦除編碼,這使得HDFS在不降低可靠性的前提下,節省一半存儲空間。()

(2)多NameNode支持,即支持一個集羣中,一個active、多個standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已經支持。()

2.3 Hadoop MapReduce

(1)Tasknative優化。為MapReduce增加了C/C++的map output collector實現(包括Spill,Sort和IFile等),通過作業級別參數調整就可切換到該實現上。對於shuffle密集型應用,其性能可提高約30%。()

(2)MapReduce內存參數自動推斷。在Hadoop 2.0中,為MapReduce作業設置內存參數非常繁瑣,涉及到兩個參數:mapreduce.{map,reduce}和mapreduce.{map,reduce},一旦設置不合理,則會使得內存資源浪費嚴重,比如將前者設置為4096MB,但後者卻是“-Xmx2g”,則剩餘2g實際上無法讓java heap使用到。()

2.4 Hadoop YARN

(1)基於cgroup的內存隔離和IO Disk隔離()

(2)用curator實現RM leader選舉()

(3)containerresizing()

(4)Timelineserver next generation ()

3. Hadoop3.0總結

Hadoop 3.0的alpha版預計今年夏天發佈,GA版本11月或12月發佈。

Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的內存和磁盤IO隔離、YARN container resizing等。

標籤: hadoop
  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flsh/changshi/l3jk43.html