Hadoop模式架構(gòu)是怎么樣的

161次閱讀

沒有評(píng)論

共計(jì) 8270 個(gè)字符，預(yù)計(jì)需要花費(fèi) 21 分鐘才能閱讀完成。

這篇文章主要介紹 Hadoop 模式架構(gòu)是怎么樣的，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

一、Hadoop 1.0 的模型：

|

split 0- map-[sort]- [1,3..]| /merge

| == reducer– part 0= HDFS replication

split 1- map-[sort]- [2,6..]|—————————————

| == reducre— part 1 = HDFS replication

split 2- map-[sort]- [4,2..]|

|

//INPUT HDFS| //output HDFS

// 啟動(dòng)有 3 個(gè) map，reducer 只啟動(dòng)了 2 個(gè),sort: 本地排序后發(fā)送給 reducer

相同的 key 發(fā)送到同一個(gè) reducer

//merge: 把多個(gè)數(shù)據(jù)流整合為一個(gè)數(shù)據(jù)流

工作流程：

Client— Job— Hadoop MapReduce master

|

V

/ \

Job parts Job parts

| |

VV

[Input]– map1reduceA—- [Output][Data]—map2 =》reduceB—- [Data]

\__map3

// 其中 map1,2,3 和 reduceA,B 是交叉使用的。也就是說 map1 可以同時(shí)對(duì)應(yīng) reduceA 和 reduceB，其他的也都可以

//MapReduce 將需要處理的任務(wù)分成兩個(gè)部分，Map 和 Reduce

Client App

(MapReduce Client)—- Job Tracker

|

____________________|_____________________________

[task tracker1] [task tracker1] [task tracker1]

map reduce reduce reduce map map reduce map

JobTracker: 有任務(wù)列表，以及狀態(tài)信息

JobA—- [map task1]

JobB[map task2]

JobC[map task3]

…[reduce task 1][reduce task 2]

// 任何一個(gè) task tracker 能夠運(yùn)行的任務(wù)數(shù)量是有限的，可以進(jìn)行定義

// 任務(wù)槽：決定可以運(yùn)行多少個(gè) job

Jobtracker：

1. 負(fù)責(zé)任務(wù)分發(fā)

2. 檢查 Task tracker 狀態(tài)，tracker 故障重啟等

3. 監(jiān)控任務(wù)的狀態(tài)

Job tracker 存在單點(diǎn)故障的問題，在 hadoop2.0 后這幾個(gè)功能分別實(shí)現(xiàn)了

Mapreduce 2.0 之后切割為兩部分

二、HadooP 1.0 和 2.0

1.0: pig:data flow,Hive:sql ,

2.0: MR:batch 批處理,Pig:data flow,Hive:sql

RT:stream graph: 實(shí)時(shí)流式圖形處理

Tez:execution engine// 執(zhí)行引擎

MRv1:cluster resouce manager,Data procession

MRV2:

1.YARN:Cluster resource manager

Yet Another Resource Negotiator，另一種資源協(xié)調(diào)者

2.MRv2:Data procession

MR:batch 作業(yè)

Tez:execution engine // 提供運(yùn)行時(shí)環(huán)境

可以直接在 YARN 之上的程序有：

MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave

Hadoop2.0

clinet– RM— node1/node2/node n…

Resouce Manager: RM 是獨(dú)立的

node 上運(yùn)行的有 [node manager+App Master+ Container]

Node manager:NM，運(yùn)行在各 node 上，周期向 RM 報(bào)告 node 信息，

clinet 請(qǐng)求作業(yè)：node 上的 Application master 決定要啟動(dòng)幾個(gè) mapper 幾個(gè) reducer

mapper 和 reducer 稱為 Container // 作業(yè)都在容器內(nèi)運(yùn)行。

Application master 只有一個(gè)，且同一個(gè)任務(wù)的 APP M 只在一個(gè)節(jié)點(diǎn)上，但是 Container 會(huì)分別運(yùn)行在多個(gè)節(jié)點(diǎn)上，并周期向 APP M 報(bào)告其處理狀態(tài)

APP M 向 RM 報(bào)告任務(wù)運(yùn)行狀況，在任務(wù)執(zhí)行完畢后，RM 會(huì)把 APP M 關(guān)閉

某一個(gè)任務(wù)故障后，由 App M 進(jìn)行管理，而不是 RM 管理

2.0 工作模型

A 【NM/Container 1/APP M(B)】

\/

【RM】 — 【NM/Container 2/APP M(A)】

/\

B 【NM/Container 3 /A A 】

// 任務(wù) A 運(yùn)行了 3 個(gè) container, 在兩個(gè)節(jié)點(diǎn)上

// 任務(wù) B 運(yùn)行了 1 個(gè) container，在一個(gè)節(jié)點(diǎn)上

Mapreduce status：container 向 APP M 報(bào)告 //container 包括 map 和 reducer 任務(wù)

Job submission：

node status：NM 周期向 RM 報(bào)告

Resouce Request：由 App M 向 RM 申請(qǐng)，然后 APP M 就可以使用其他 node 的 container

client 請(qǐng)求 – RM 查找空閑 node，空閑 node 上運(yùn)行 APP M– APP M 向 RM 申請(qǐng)運(yùn)行 container 資源，RM 向 NM 提請(qǐng) container，RM 分配好 coantainer 后，告訴給 APP M

APP M 使用 container 運(yùn)行任務(wù)。Container 在運(yùn)行過程中，不斷向 APP M 反饋?zhàn)约旱臓顟B(tài)和進(jìn)度，APP M 向 RM 報(bào)告運(yùn)行狀態(tài)。

APP M 報(bào)告運(yùn)行完成，RM 收回 container 和關(guān)閉 APP M

RM:resource manager

NM:node manager

AM:application master

container:mr 任務(wù)運(yùn)行

Hadoop 發(fā)展路線：

2003 nutch // 蜘蛛程序

2004-2006：Mapreduce + GFS, 論文

2011：hadoop 1.0.0

2013：hadoop 2.0

http://hadoop.apache.org/

可以直接在 YARN 之上的程序有：

MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave

三、Hadoop 2.0 生態(tài)系統(tǒng)與基本組件

// 在 YARN 之上是依賴于 YARN 的，其他的都是可以獨(dú)立使用的

2、HDFS（Hadoop 分布式文件系統(tǒng)）

源自于 Google 的 GFS 論文，發(fā)表于 2003 年 10 月，HDFS 是 GFS 克隆版。

HDFS 是 Hadoop 體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng)，能檢測(cè)和應(yīng)對(duì)硬件故障，用于在低成本的通用硬件上運(yùn)行。

HDFS 簡(jiǎn)化了文件的一致性模型，通過流式數(shù)據(jù)訪問，提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能，適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

它提供了一次寫入多次讀取的機(jī)制，數(shù)據(jù)以塊的形式，同時(shí)分布在集群不同物理機(jī)器上。

3、Mapreduce（分布式計(jì)算框架）

源自于 google 的 MapReduce 論文，發(fā)表于 2004 年 12 月，Hadoop MapReduce 是 google MapReduce 克隆版。

MapReduce 是一種分布式計(jì)算模型，用以進(jìn)行大數(shù)據(jù)量的計(jì)算。它屏蔽了分布式計(jì)算框架細(xì)節(jié)，將計(jì)算抽象成 map 和 reduce 兩部分，

其中 Map 對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作，生成鍵 - 值對(duì)形式中間結(jié)果。Reduce 則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約，以得到最終結(jié)果。

MapReduce 非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

4. HBASE（分布式列存數(shù)據(jù)庫）

源自 Google 的 Bigtable 論文，發(fā)表于 2006 年 11 月，HBase 是 Google Bigtable 克隆版

HBase 是一個(gè)建立在 HDFS 之上，面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。

HBase 采用了 BigTable 的數(shù)據(jù)模型：增強(qiáng)的稀疏排序映射表（Key/Value），其中，鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。

HBase 提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問，同時(shí)，HBase 中保存的數(shù)據(jù)可以使用 MapReduce 來處理，它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

HBase: 山寨版的 BitTable, 列式存儲(chǔ),SQL 為行式存儲(chǔ)。

列祖：把多個(gè)常用的列存放在一個(gè)中。

cell: 行和列的交叉位置，每個(gè) cell 在存儲(chǔ)時(shí)，可以多版本共存，之前的版本不會(huì)被刪除，可以追溯老版本。

可以指定保存幾個(gè)版本。每個(gè) cell 都是鍵值對(duì)，任何一個(gè)行多一個(gè)字段或者少一個(gè)字段，都是可以的，沒有強(qiáng) schema 約束

HBASE 是工作在 HDFS 之上，轉(zhuǎn)化為 chunk 的

需要用到大數(shù)據(jù)塊時(shí)，讀取到 HBase 中，進(jìn)行讀取和修改，然后覆蓋或者寫入 HDFS

從而實(shí)現(xiàn)隨機(jī)讀寫。HDFS 是不支持隨機(jī)讀寫的

HBase 接口：

HBase 基于分布式實(shí)現(xiàn)：需要另起一套集群，嚴(yán)重依賴于 ZooKeeper 解決腦裂

HDFS 本身就有冗余功能，每個(gè) chunk 存儲(chǔ)為了多個(gè)副本

HBase 作為面向列的數(shù)據(jù)庫運(yùn)行在 HDFS 之上，HDFS 缺乏隨即讀寫操作，HBase 正是為此而出現(xiàn)。

HBase 以 Google BigTable 為藍(lán)本，以鍵值對(duì)的形式存儲(chǔ)。項(xiàng)目的目標(biāo)就是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。

HBase 是一個(gè)數(shù)據(jù)庫，一個(gè) NoSql 的數(shù)據(jù)庫，像其他數(shù)據(jù)庫一樣提供隨即讀寫功能，Hadoop 不能滿足實(shí)時(shí)需要，HBase 正可以滿足。

如果你需要實(shí)時(shí)訪問一些數(shù)據(jù)，就把它存入 HBase。

你可以用 Hadoop 作為靜態(tài)數(shù)據(jù)倉庫，HBase 作為數(shù)據(jù)存儲(chǔ)，放那些進(jìn)行一些操作會(huì)改變的數(shù)據(jù)

5. Zookeeper（分布式協(xié)作服務(wù)）

源自 Google 的 Chubby 論文，發(fā)表于 2006 年 11 月，Zookeeper 是 Chubby 克隆版

解決分布式環(huán)境下的數(shù)據(jù)管理問題：統(tǒng)一命名，狀態(tài)同步，集群管理，配置同步等。

Hadoop 的許多組件依賴于 Zookeeper，它運(yùn)行在計(jì)算機(jī)集群上面，用于管理 Hadoop 操作。

6. HIVE（數(shù)據(jù)倉庫）小蜜蜂

由 facebook 開源，最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問題。

Hive 定義了一種類似 SQL 的查詢語言 (HQL), 將 SQL 轉(zhuǎn)化為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于離線分析。

HQL 用于運(yùn)行存儲(chǔ)在 Hadoop 上的查詢語句，Hive 讓不熟悉 MapReduce 開發(fā)人員也能編寫數(shù)據(jù)查詢語句，然后這些語句被翻譯為 Hadoop 上面的 MapReduce 任務(wù)。

Hive：幫忙轉(zhuǎn)換成 MapReduce 任務(wù) //MapReduce: 是 bat 程序，速度較慢

HQ 與 SQl 語句接近，適合在離線下進(jìn)行數(shù)據(jù)的操作，在真實(shí)的生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)的在線查詢或操作很“慢”

Hive 在 Hadoop 中扮演數(shù)據(jù)倉庫的角色。

你可以用 HiveQL 進(jìn)行 select,join, 等等操作。

如果你有數(shù)據(jù)倉庫的需求并且你擅長(zhǎng)寫 SQL 并且不想寫 MapReduce jobs 就可以用 Hive 代替。

熟悉 SQL 的朋友可以使用 Hive 對(duì)離線的進(jìn)行數(shù)據(jù)處理與分析工作

7.Pig(ad-hoc 腳本）

由 yahoo! 開源，設(shè)計(jì)動(dòng)機(jī)是提供一種基于 MapReduce 的 ad-hoc(計(jì)算在 query 時(shí)發(fā)生) 數(shù)據(jù)分析工具

Pig 定義了一種數(shù)據(jù)流語言—Pig Latin，它是 MapReduce 編程的復(fù)雜性的抽象,Pig 平臺(tái)包括運(yùn)行環(huán)境和用于分析 Hadoop 數(shù)據(jù)集的腳本語言 (Pig Latin)。

其編譯器將 Pig Latin 翻譯成 MapReduce 程序序列將腳本轉(zhuǎn)換為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于進(jìn)行離線分析。

Pig: 腳本編程語言接口一種操作 hadoop 的輕量級(jí)腳本語言，最初又雅虎公司推出，不過現(xiàn)在正在走下坡路了。

不過個(gè)人推薦使用 Hive

8.Sqoop(數(shù)據(jù) ETL/ 同步工具）

Sqoop 是 SQL-to-Hadoop 的縮寫，主要用于傳統(tǒng)數(shù)據(jù)庫和 Hadoop 之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是 Mapreduce 程序，充分利用了 MR 的并行化和容錯(cuò)性。

Sqoop 利用數(shù)據(jù)庫技術(shù)描述數(shù)據(jù)架構(gòu)，用于在關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和 Hadoop 之間轉(zhuǎn)移數(shù)據(jù)。

9.Flume（日志收集工具）

Cloudera 開源的日志收集系統(tǒng)，具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)。

它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流，在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在 Flume 中定制數(shù)據(jù)發(fā)送方，從而支持收集各種不同協(xié)議數(shù)據(jù)。

同時(shí)，F(xiàn)lume 數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力，如過濾、格式轉(zhuǎn)換等。此外，F(xiàn)lume 還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)（可定制）的能力。

總的來說，F(xiàn)lume 是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。當(dāng)然也可以用于收集其他類型數(shù)據(jù)

10.Mahout（數(shù)據(jù)挖掘算法庫）

Mahout 起源于 2008 年，最初是 Apache Lucent 的子項(xiàng)目，它在極短的時(shí)間內(nèi)取得了長(zhǎng)足的發(fā)展，現(xiàn)在是 Apache 的頂級(jí)項(xiàng)目。

Mahout 的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。

Mahout 現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎（協(xié)同過濾）和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。

除了算法，Mahout 還包含數(shù)據(jù)的輸入 / 輸出工具、與其他存儲(chǔ)系統(tǒng)（如數(shù)據(jù)庫、MongoDB 或 Cassandra）集成等數(shù)據(jù)挖掘支持架構(gòu)。

11. Oozie(工作流調(diào)度器）

Oozie 是一個(gè)可擴(kuò)展的工作體系，集成于 Hadoop 的堆棧，用于協(xié)調(diào)多個(gè) MapReduce 作業(yè)的執(zhí)行。它能夠管理一個(gè)復(fù)雜的系統(tǒng)，基于外部事件來執(zhí)行，外部事件包括數(shù)據(jù)的定時(shí)和數(shù)據(jù)的出現(xiàn)。

Oozie 工作流是放置在控制依賴 DAG（有向無環(huán)圖 Direct Acyclic Graph）中的一組動(dòng)作（例如，Hadoop 的 Map/Reduce 作業(yè)、Pig 作業(yè)等），其中指定了動(dòng)作執(zhí)行的順序。

Oozie 使用 hPDL（一種 XML 流程定義語言）來描述這個(gè)圖。

12. Yarn(分布式資源管理器）

YARN 是下一代 MapReduce，即 MRv2，是在第一代 MapReduce 基礎(chǔ)上演變而來的，主要是為了解決原始 Hadoop 擴(kuò)展性較差，不支持多計(jì)算框架而提出的。Yarn 是下一代 Hadoop 計(jì)算平臺(tái)，yarn 是一個(gè)通用的運(yùn)行時(shí)框架，用戶可以編寫自己的計(jì)算框架，在該運(yùn)行環(huán)境中運(yùn)行。用于自己編寫的框架作為客戶端的一個(gè) lib，在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件：

– 資源管理：包括應(yīng)用程序管理和機(jī)器資源管理

– 資源雙層調(diào)度

– 容錯(cuò)性：各個(gè)組件均有考慮容錯(cuò)性

– 擴(kuò)展性：可擴(kuò)展到上萬個(gè)節(jié)點(diǎn)

13. Mesos（分布式資源管理器）

Mesos 誕生于 UC Berkeley 的一個(gè)研究項(xiàng)目，現(xiàn)已成為 Apache 項(xiàng)目，當(dāng)前有一些公司使用 Mesos 管理集群資源，比如 Twitter。

與 yarn 類似，Mesos 是一個(gè)資源統(tǒng)一管理和調(diào)度的平臺(tái)，同樣支持比如 MR、steaming 等多種運(yùn)算框架。

14. Tachyon（分布式內(nèi)存文件系統(tǒng)）

Tachyon（/ tki:n/ 意為超光速粒子）是以內(nèi)存為中心的分布式文件系統(tǒng)，擁有高性能和容錯(cuò)能力，

能夠?yàn)榧嚎蚣埽ㄈ?Spark、MapReduce）提供可靠的內(nèi)存級(jí)速度的文件共享服務(wù)。

Tachyon 誕生于 UC Berkeley 的 AMPLab。

15. Tez(DAG 計(jì)算模型)

Tez 是 Apache 最新開源的支持 DAG 作業(yè)的計(jì)算框架，它直接源于 MapReduce 框架，核心思想是將 Map 和 Reduce 兩個(gè)操作進(jìn)一步拆分，

即 Map 被拆分成 Input、Processor、Sort、Merge 和 Output，Reduce 被拆分成 Input、Shuffle、Sort、Merge、Processor 和 Output 等，

這樣，這些分解后的元操作可以任意靈活組合，產(chǎn)生新的操作，這些操作經(jīng)過一些控制程序組裝后，可形成一個(gè)大的 DAG 作業(yè)。

目前 hive 支持 mr、tez 計(jì)算模型，tez 能完美二進(jìn)制 mr 程序，提升運(yùn)算性能。

16. Spark(內(nèi)存 DAG 計(jì)算模型)

Spark 是一個(gè) Apache 項(xiàng)目，它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開源社區(qū)，并且是目前最活躍的 Apache 項(xiàng)目。

最早 Spark 是 UC Berkeley AMP lab 所開源的類 Hadoop MapReduce 的通用的并行計(jì)算框架。

Spark 提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和 Hadoop 相比，Spark 可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升 100 倍，或者在磁盤上運(yùn)行時(shí)速度提升 10 倍

17. Giraph(圖計(jì)算模型)

Apache Giraph 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng)，基于 Hadoop 平臺(tái)，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在開發(fā) Giraph 時(shí)采用了 Google 工程師 2010 年發(fā)表的論文《Pregel：大規(guī)模圖表處理系統(tǒng)》中的原理。后來，雅虎將 Giraph 捐贈(zèng)給 Apache 軟件基金會(huì)。

目前所有人都可以下載 Giraph，它已經(jīng)成為 Apache 軟件基金會(huì)的開源項(xiàng)目，并得到 Facebook 的支持，獲得多方面的改進(jìn)。

18. GraphX(圖計(jì)算模型）

Spark GraphX 最先是伯克利 AMPLAB 的一個(gè)分布式圖計(jì)算框架項(xiàng)目，目前整合在 spark 運(yùn)行框架中，為其提供 BSP 大規(guī)模并行圖計(jì)算能力。

19. MLib（機(jī)器學(xué)習(xí)庫）

Spark MLlib 是一個(gè)機(jī)器學(xué)習(xí)庫，它提供了各種各樣的算法，這些算法用來在集群上針對(duì)分類、回歸、聚類、協(xié)同過濾等。

20. Streaming（流計(jì)算模型）

Spark Streaming 支持對(duì)流數(shù)據(jù)的實(shí)時(shí)處理，以微批的方式對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算

21. Kafka（分布式消息隊(duì)列）

Kafka 是 Linkedin 于 2010 年 12 月份開源的消息系統(tǒng)，它主要用于處理活躍的流式數(shù)據(jù)。

活躍的流式數(shù)據(jù)在 web 網(wǎng)站應(yīng)用中非常常見，這些數(shù)據(jù)包括網(wǎng)站的 pv、用戶訪問了什么內(nèi)容，搜索了什么內(nèi)容等。

這些數(shù)據(jù)通常以日志的形式記錄下來，然后每隔一段時(shí)間進(jìn)行一次統(tǒng)計(jì)處理。

22. Phoenix（hbase sql 接口）

Apache Phoenix 是 HBase 的 SQL 驅(qū)動(dòng)，Phoenix 使得 Hbase 支持通過 JDBC 的方式進(jìn)行訪問，并將你的 SQL 查詢轉(zhuǎn)換成 Hbase 的掃描和相應(yīng)的動(dòng)作。

23. ranger(安全管理工具）

Apache ranger 是一個(gè) hadoop 集群權(quán)限框架，提供操作、監(jiān)控、管理復(fù)雜的數(shù)據(jù)權(quán)限，它提供一個(gè)集中的管理機(jī)制，管理基于 yarn 的 hadoop 生態(tài)圈的所有數(shù)據(jù)權(quán)限。

24. knox（hadoop 安全網(wǎng)關(guān)）

Apache knox 是一個(gè)訪問 hadoop 集群的 restapi 網(wǎng)關(guān)，它為所有 rest 訪問提供了一個(gè)簡(jiǎn)單的訪問接口點(diǎn)，能完成 3A 認(rèn)證（Authentication，Authorization，Auditing）和 SSO（單點(diǎn)登錄）等

25. falcon（數(shù)據(jù)生命周期管理工具）

Apache Falcon 是一個(gè)面向 Hadoop 的、新的數(shù)據(jù)處理和管理平臺(tái)，設(shè)計(jì)用于數(shù)據(jù)移動(dòng)、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務(wù)“上載（onboard）”到 Hadoop 集群。

26.Ambari（安裝部署配置管理工具）

Apache Ambari 的作用來說，就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群，是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè) web 工具。

注意：Hadoop 盡量不要運(yùn)行在虛擬機(jī)上，因?yàn)閷?duì) IO 影響比較大

Hadoop Distribution:

社區(qū)版：Apache Hadoop

第三方發(fā)行版：

Cloudera:hadoop 源創(chuàng)始人：CDH //iso 鏡像，最成型的

Hortonworks: 原有的 hadoop 人員：HDP //iso 鏡像，非開源

Intel:IDH

MapR:

Amazon Elastic Map Reduce（EMR）

推薦使用 Apache hadoop 或者 CDH

以上是“Hadoop 模式架構(gòu)是怎么樣的”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道！

正文完

發(fā)表至：數(shù)據(jù)庫

2023-07-19

版權(quán)聲明：本站原創(chuàng)文章，由丸趣 2023-07-19發(fā)表，共計(jì)8270字。

轉(zhuǎn)載說明：除特殊說明外本站除技術(shù)相關(guān)以外文章皆由網(wǎng)絡(luò)搜集發(fā)布，轉(zhuǎn)載請(qǐng)注明出處。

sql是一種什么類型的數(shù)據(jù)庫語言

如何解決navicat安裝報(bào)2059錯(cuò)誤的問題

mysql數(shù)據(jù)庫的類型是什么

mysql?1130錯(cuò)誤無法登錄遠(yuǎn)程服務(wù)如何解決

linux下phpmyadmin的配置文件是什么意思

久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

Hadoop模式架構(gòu)是怎么樣的