久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

Hadoop模式架構(gòu)是怎么樣的

共計(jì) 8270 個(gè)字符,預(yù)計(jì)需要花費(fèi) 21 分鐘才能閱讀完成。

這篇文章主要介紹 Hadoop 模式架構(gòu)是怎么樣的,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

一、Hadoop 1.0 的模型:

  |

split 0- map-[sort]- [1,3..]|  /merge

| == reducer– part 0= HDFS replication

split 1- map-[sort]- [2,6..]|—————————————

| == reducre— part 1  = HDFS replication

split 2- map-[sort]- [4,2..]|

|

|

//INPUT HDFS|  //output HDFS

// 啟動(dòng)有 3 個(gè) map,reducer 只啟動(dòng)了 2 個(gè),sort: 本地排序后發(fā)送給 reducer

相同的 key 發(fā)送到同一個(gè) reducer

//merge: 把多個(gè)數(shù)據(jù)流整合為一個(gè)數(shù)據(jù)流

工作流程:

Client— Job— Hadoop MapReduce master

 |

 |

 V

  /      \

Job parts  Job parts

   |  |

   VV

[Input]– map1reduceA—- [Output][Data]—map2 =》reduceB—- [Data]

   \__map3 

// 其中 map1,2,3 和 reduceA,B 是交叉使用的。也就是說 map1 可以同時(shí)對(duì)應(yīng) reduceA 和 reduceB,其他的也都可以

//MapReduce 將需要處理的任務(wù)分成兩個(gè)部分,Map 和 Reduce

Client App

(MapReduce Client)—-  Job Tracker

     |

____________________|_____________________________

[task tracker1]  [task tracker1]   [task tracker1] 

map  reduce reduce reduce map      map reduce map 

JobTracker: 有任務(wù)列表,以及狀態(tài)信息

JobA—- [map task1]

JobB[map task2]

JobC[map task3]

…[reduce task 1][reduce task 2]

// 任何一個(gè) task tracker 能夠運(yùn)行的任務(wù)數(shù)量是有限的,可以進(jìn)行定義

// 任務(wù)槽:決定可以運(yùn)行多少個(gè) job

Jobtracker:

1. 負(fù)責(zé)任務(wù)分發(fā)

2. 檢查 Task tracker 狀態(tài),tracker 故障重啟等

3. 監(jiān)控任務(wù)的狀態(tài)

Job tracker 存在單點(diǎn)故障的問題,在 hadoop2.0 后這幾個(gè)功能分別實(shí)現(xiàn)了

Mapreduce 2.0 之后切割為兩部分

二、HadooP 1.0 和 2.0

1.0: pig:data flow,Hive:sql , 

2.0: MR:batch 批處理,Pig:data flow,Hive:sql

RT:stream graph: 實(shí)時(shí)流式圖形處理

Tez:execution engine// 執(zhí)行引擎

MRv1:cluster resouce manager,Data procession

MRV2:

1.YARN:Cluster resource manager

Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者

2.MRv2:Data procession

MR:batch 作業(yè)

Tez:execution engine // 提供運(yùn)行時(shí)環(huán)境

可以直接在 YARN 之上的程序有:

MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave

Hadoop2.0

clinet– RM— node1/node2/node n…

Resouce Manager: RM 是獨(dú)立的

node 上運(yùn)行的有 [node manager+App Master+ Container]

Node manager:NM,運(yùn)行在各 node 上,周期向 RM 報(bào)告 node 信息,

clinet 請(qǐng)求作業(yè):node 上的 Application master 決定要啟動(dòng)幾個(gè) mapper 幾個(gè) reducer

mapper 和 reducer 稱為 Container // 作業(yè)都在容器內(nèi)運(yùn)行。

Application master 只有一個(gè),且同一個(gè)任務(wù)的 APP M 只在一個(gè)節(jié)點(diǎn)上,但是 Container 會(huì)分別運(yùn)行在多個(gè)節(jié)點(diǎn)上,并周期向 APP M 報(bào)告其處理狀態(tài)

APP M 向 RM 報(bào)告任務(wù)運(yùn)行狀況,在任務(wù)執(zhí)行完畢后,RM 會(huì)把 APP M 關(guān)閉

某一個(gè)任務(wù)故障后,由 App M 進(jìn)行管理,而不是 RM 管理

2.0 工作模型

A   【NM/Container 1/APP M(B)】

 \/

【RM】 —  【NM/Container 2/APP M(A)】

 /\

B   【NM/Container 3    /A A 】

// 任務(wù) A 運(yùn)行了 3 個(gè) container, 在兩個(gè)節(jié)點(diǎn)上

// 任務(wù) B 運(yùn)行了 1 個(gè) container,在一個(gè)節(jié)點(diǎn)上

Mapreduce status:container 向 APP M 報(bào)告 //container 包括 map 和 reducer 任務(wù)

Job submission:

node status:NM 周期向 RM 報(bào)告

Resouce Request:由 App M 向 RM 申請(qǐng),然后 APP M 就可以使用其他 node 的 container

client 請(qǐng)求 – RM 查找空閑 node,空閑 node 上運(yùn)行 APP M– APP M 向 RM 申請(qǐng)運(yùn)行 container 資源,RM 向 NM 提請(qǐng) container,RM 分配好 coantainer 后,告訴給 APP M

APP M 使用 container 運(yùn)行任務(wù)。Container 在運(yùn)行過程中,不斷向 APP M 反饋?zhàn)约旱臓顟B(tài)和進(jìn)度,APP M 向 RM 報(bào)告運(yùn)行狀態(tài)。

APP M 報(bào)告運(yùn)行完成,RM 收回 container 和關(guān)閉 APP M

RM:resource manager

NM:node manager

AM:application master

container:mr 任務(wù)運(yùn)行

Hadoop 發(fā)展路線:

2003 nutch // 蜘蛛程序

2004-2006:Mapreduce + GFS, 論文

2011:hadoop 1.0.0

2013:hadoop 2.0

http://hadoop.apache.org/

可以直接在 YARN 之上的程序有:

MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave

三、Hadoop 2.0 生態(tài)系統(tǒng)與基本組件

// 在 YARN 之上是依賴于 YARN 的,其他的都是可以獨(dú)立使用的

2、HDFS(Hadoop 分布式文件系統(tǒng))

源自于 Google 的 GFS 論文,發(fā)表于 2003 年 10 月,HDFS 是 GFS 克隆版。

HDFS 是 Hadoop 體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障,用于在低成本的通用硬件上運(yùn)行。

HDFS 簡(jiǎn)化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

它提供了一次寫入多次讀取的機(jī)制,數(shù)據(jù)以塊的形式,同時(shí)分布在集群不同物理機(jī)器上。

3、Mapreduce(分布式計(jì)算框架)

源自于 google 的 MapReduce 論文,發(fā)表于 2004 年 12 月,Hadoop MapReduce 是 google MapReduce 克隆版。

MapReduce 是一種分布式計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。它屏蔽了分布式計(jì)算框架細(xì)節(jié),將計(jì)算抽象成 map 和 reduce 兩部分,

其中 Map 對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵 - 值對(duì)形式中間結(jié)果。Reduce 則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。

MapReduce 非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

4. HBASE(分布式列存數(shù)據(jù)庫)

源自 Google 的 Bigtable 論文,發(fā)表于 2006 年 11 月,HBase 是 Google Bigtable 克隆版

HBase 是一個(gè)建立在 HDFS 之上,面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。

HBase 采用了 BigTable 的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。

HBase 提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase 中保存的數(shù)據(jù)可以使用 MapReduce 來處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

HBase: 山寨版的 BitTable, 列式存儲(chǔ),SQL 為行式存儲(chǔ)。

列祖:把多個(gè)常用的列存放在一個(gè)中。

cell: 行和列的交叉位置,每個(gè) cell 在存儲(chǔ)時(shí),可以多版本共存,之前的版本不會(huì)被刪除,可以追溯老版本。

  可以指定保存幾個(gè)版本。每個(gè) cell 都是鍵值對(duì),任何一個(gè)行多一個(gè)字段或者少一個(gè)字段,都是可以的,沒有強(qiáng) schema 約束

HBASE 是工作在 HDFS 之上,轉(zhuǎn)化為 chunk 的

需要用到大數(shù)據(jù)塊時(shí),讀取到 HBase 中,進(jìn)行讀取和修改,然后覆蓋或者寫入 HDFS

從而實(shí)現(xiàn)隨機(jī)讀寫。HDFS 是不支持隨機(jī)讀寫的

HBase 接口:

HBase 基于分布式實(shí)現(xiàn):需要另起一套集群,嚴(yán)重依賴于 ZooKeeper 解決腦裂

HDFS 本身就有冗余功能,每個(gè) chunk 存儲(chǔ)為了多個(gè)副本

HBase 作為面向列的數(shù)據(jù)庫運(yùn)行在 HDFS 之上,HDFS 缺乏隨即讀寫操作,HBase 正是為此而出現(xiàn)。

HBase 以 Google BigTable 為藍(lán)本,以鍵值對(duì)的形式存儲(chǔ)。項(xiàng)目的目標(biāo)就是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。

HBase 是一個(gè)數(shù)據(jù)庫,一個(gè) NoSql 的數(shù)據(jù)庫,像其他數(shù)據(jù)庫一樣提供隨即讀寫功能,Hadoop 不能滿足實(shí)時(shí)需要,HBase 正可以滿足。

如果你需要實(shí)時(shí)訪問一些數(shù)據(jù),就把它存入 HBase。

你可以用 Hadoop 作為靜態(tài)數(shù)據(jù)倉庫,HBase 作為數(shù)據(jù)存儲(chǔ),放那些進(jìn)行一些操作會(huì)改變的數(shù)據(jù)

5. Zookeeper(分布式協(xié)作服務(wù))

源自 Google 的 Chubby 論文,發(fā)表于 2006 年 11 月,Zookeeper 是 Chubby 克隆版

解決分布式環(huán)境下的數(shù)據(jù)管理問題:統(tǒng)一命名,狀態(tài)同步,集群管理,配置同步等。

Hadoop 的許多組件依賴于 Zookeeper,它運(yùn)行在計(jì)算機(jī)集群上面,用于管理 Hadoop 操作。

6. HIVE(數(shù)據(jù)倉庫)小蜜蜂

由 facebook 開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問題。

Hive 定義了一種類似 SQL 的查詢語言 (HQL), 將 SQL 轉(zhuǎn)化為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于離線分析。

HQL 用于運(yùn)行存儲(chǔ)在 Hadoop 上的查詢語句,Hive 讓不熟悉 MapReduce 開發(fā)人員也能編寫數(shù)據(jù)查詢語句,然后這些語句被翻譯為 Hadoop 上面的 MapReduce 任務(wù)。

 Hive:幫忙轉(zhuǎn)換成 MapReduce 任務(wù) //MapReduce: 是 bat 程序,速度較慢

 HQ 與 SQl 語句接近,適合在離線下進(jìn)行數(shù)據(jù)的操作,在真實(shí)的生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)的在線查詢或操作很“慢”

Hive 在 Hadoop 中扮演數(shù)據(jù)倉庫的角色。

你可以用 HiveQL 進(jìn)行 select,join, 等等操作。

如果你有數(shù)據(jù)倉庫的需求并且你擅長(zhǎng)寫 SQL 并且不想寫 MapReduce jobs 就可以用 Hive 代替。

熟悉 SQL 的朋友可以使用 Hive 對(duì)離線的進(jìn)行數(shù)據(jù)處理與分析工作

7.Pig(ad-hoc 腳本)

由 yahoo! 開源,設(shè)計(jì)動(dòng)機(jī)是提供一種基于 MapReduce 的 ad-hoc(計(jì)算在 query 時(shí)發(fā)生) 數(shù)據(jù)分析工具

Pig 定義了一種數(shù)據(jù)流語言—Pig Latin,它是 MapReduce 編程的復(fù)雜性的抽象,Pig 平臺(tái)包括運(yùn)行環(huán)境和用于分析 Hadoop 數(shù)據(jù)集的腳本語言 (Pig Latin)。

其編譯器將 Pig Latin 翻譯成 MapReduce 程序序列將腳本轉(zhuǎn)換為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于進(jìn)行離線分析。

Pig: 腳本編程語言接口 一種操作 hadoop 的輕量級(jí)腳本語言,最初又雅虎公司推出,不過現(xiàn)在正在走下坡路了。

不過個(gè)人推薦使用 Hive

8.Sqoop(數(shù)據(jù) ETL/ 同步工具)

Sqoop 是 SQL-to-Hadoop 的縮寫,主要用于傳統(tǒng)數(shù)據(jù)庫和 Hadoop 之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是 Mapreduce 程序,充分利用了 MR 的并行化和容錯(cuò)性。

Sqoop 利用數(shù)據(jù)庫技術(shù)描述數(shù)據(jù)架構(gòu),用于在關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和 Hadoop 之間轉(zhuǎn)移數(shù)據(jù)。

9.Flume(日志收集工具)

Cloudera 開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)。

它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在 Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。

同時(shí),F(xiàn)lume 數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume 還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力。

總的來說,F(xiàn)lume 是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。當(dāng)然也可以用于收集其他類型數(shù)據(jù)

10.Mahout(數(shù)據(jù)挖掘算法庫)

Mahout 起源于 2008 年,最初是 Apache Lucent 的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長(zhǎng)足的發(fā)展,現(xiàn)在是 Apache 的頂級(jí)項(xiàng)目。

Mahout 的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。

Mahout 現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。

除了算法,Mahout 還包含數(shù)據(jù)的輸入 / 輸出工具、與其他存儲(chǔ)系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或 Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。

11. Oozie(工作流調(diào)度器)

Oozie 是一個(gè)可擴(kuò)展的工作體系,集成于 Hadoop 的堆棧,用于協(xié)調(diào)多個(gè) MapReduce 作業(yè)的執(zhí)行。它能夠管理一個(gè)復(fù)雜的系統(tǒng),基于外部事件來執(zhí)行,外部事件包括數(shù)據(jù)的定時(shí)和數(shù)據(jù)的出現(xiàn)。

Oozie 工作流是放置在控制依賴 DAG(有向無環(huán)圖 Direct Acyclic Graph)中的一組動(dòng)作(例如,Hadoop 的 Map/Reduce 作業(yè)、Pig 作業(yè)等),其中指定了動(dòng)作執(zhí)行的順序。

Oozie 使用 hPDL(一種 XML 流程定義語言)來描述這個(gè)圖。

12. Yarn(分布式資源管理器)

YARN 是下一代 MapReduce,即 MRv2,是在第一代 MapReduce 基礎(chǔ)上演變而來的,主要是為了解決原始 Hadoop 擴(kuò)展性較差,不支持多計(jì)算框架而提出的。Yarn 是下一代 Hadoop 計(jì)算平臺(tái),yarn 是一個(gè)通用的運(yùn)行時(shí)框架,用戶可以編寫自己的計(jì)算框架,在該運(yùn)行環(huán)境中運(yùn)行。用于自己編寫的框架作為客戶端的一個(gè) lib,在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件:

  – 資源管理:包括應(yīng)用程序管理和機(jī)器資源管理

  – 資源雙層調(diào)度

  – 容錯(cuò)性:各個(gè)組件均有考慮容錯(cuò)性

  – 擴(kuò)展性:可擴(kuò)展到上萬個(gè)節(jié)點(diǎn)

13. Mesos(分布式資源管理器)

  Mesos 誕生于 UC Berkeley 的一個(gè)研究項(xiàng)目,現(xiàn)已成為 Apache 項(xiàng)目,當(dāng)前有一些公司使用 Mesos 管理集群資源,比如 Twitter。

  與 yarn 類似,Mesos 是一個(gè)資源統(tǒng)一管理和調(diào)度的平臺(tái),同樣支持比如 MR、steaming 等多種運(yùn)算框架。

14. Tachyon(分布式內(nèi)存文件系統(tǒng))

Tachyon(/ tki:n/ 意為超光速粒子)是以內(nèi)存為中心的分布式文件系統(tǒng),擁有高性能和容錯(cuò)能力,

能夠?yàn)榧嚎蚣埽ㄈ?Spark、MapReduce)提供可靠的內(nèi)存級(jí)速度的文件共享服務(wù)。

Tachyon 誕生于 UC Berkeley 的 AMPLab。

15. Tez(DAG 計(jì)算模型)

Tez 是 Apache 最新開源的支持 DAG 作業(yè)的計(jì)算框架,它直接源于 MapReduce 框架,核心思想是將 Map 和 Reduce 兩個(gè)操作進(jìn)一步拆分,

即 Map 被拆分成 Input、Processor、Sort、Merge 和 Output,Reduce 被拆分成 Input、Shuffle、Sort、Merge、Processor 和 Output 等,

這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個(gè)大的 DAG 作業(yè)。

目前 hive 支持 mr、tez 計(jì)算模型,tez 能完美二進(jìn)制 mr 程序,提升運(yùn)算性能。

16. Spark(內(nèi)存 DAG 計(jì)算模型)

Spark 是一個(gè) Apache 項(xiàng)目,它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開源社區(qū),并且是目前最活躍的 Apache 項(xiàng)目。

最早 Spark 是 UC Berkeley AMP lab 所開源的類 Hadoop MapReduce 的通用的并行計(jì)算框架。

Spark 提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和 Hadoop 相比,Spark 可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升 100 倍,或者在磁盤上運(yùn)行時(shí)速度提升 10 倍

17. Giraph(圖計(jì)算模型)

Apache Giraph 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng),基于 Hadoop 平臺(tái),靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在開發(fā) Giraph 時(shí)采用了 Google 工程師 2010 年發(fā)表的論文《Pregel:大規(guī)模圖表處理系統(tǒng)》中的原理。后來,雅虎將 Giraph 捐贈(zèng)給 Apache 軟件基金會(huì)。

目前所有人都可以下載 Giraph,它已經(jīng)成為 Apache 軟件基金會(huì)的開源項(xiàng)目,并得到 Facebook 的支持,獲得多方面的改進(jìn)。

18. GraphX(圖計(jì)算模型)

Spark GraphX 最先是伯克利 AMPLAB 的一個(gè)分布式圖計(jì)算框架項(xiàng)目,目前整合在 spark 運(yùn)行框架中,為其提供 BSP 大規(guī)模并行圖計(jì)算能力。

19. MLib(機(jī)器學(xué)習(xí)庫)

Spark MLlib 是一個(gè)機(jī)器學(xué)習(xí)庫,它提供了各種各樣的算法,這些算法用來在集群上針對(duì)分類、回歸、聚類、協(xié)同過濾等。

20. Streaming(流計(jì)算模型)

Spark Streaming 支持對(duì)流數(shù)據(jù)的實(shí)時(shí)處理,以微批的方式對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算

21. Kafka(分布式消息隊(duì)列)

Kafka 是 Linkedin 于 2010 年 12 月份開源的消息系統(tǒng),它主要用于處理活躍的流式數(shù)據(jù)。

活躍的流式數(shù)據(jù)在 web 網(wǎng)站應(yīng)用中非常常見,這些數(shù)據(jù)包括網(wǎng)站的 pv、用戶訪問了什么內(nèi)容,搜索了什么內(nèi)容等。

這些數(shù)據(jù)通常以日志的形式記錄下來,然后每隔一段時(shí)間進(jìn)行一次統(tǒng)計(jì)處理。

22. Phoenix(hbase sql 接口)

Apache Phoenix 是 HBase 的 SQL 驅(qū)動(dòng),Phoenix 使得 Hbase 支持通過 JDBC 的方式進(jìn)行訪問,并將你的 SQL 查詢轉(zhuǎn)換成 Hbase 的掃描和相應(yīng)的動(dòng)作。

23. ranger(安全管理工具)

Apache ranger 是一個(gè) hadoop 集群權(quán)限框架,提供操作、監(jiān)控、管理復(fù)雜的數(shù)據(jù)權(quán)限,它提供一個(gè)集中的管理機(jī)制,管理基于 yarn 的 hadoop 生態(tài)圈的所有數(shù)據(jù)權(quán)限。

24. knox(hadoop 安全網(wǎng)關(guān))

Apache knox 是一個(gè)訪問 hadoop 集群的 restapi 網(wǎng)關(guān),它為所有 rest 訪問提供了一個(gè)簡(jiǎn)單的訪問接口點(diǎn),能完成 3A 認(rèn)證(Authentication,Authorization,Auditing)和 SSO(單點(diǎn)登錄)等

25. falcon(數(shù)據(jù)生命周期管理工具)

Apache Falcon 是一個(gè)面向 Hadoop 的、新的數(shù)據(jù)處理和管理平臺(tái),設(shè)計(jì)用于數(shù)據(jù)移動(dòng)、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務(wù)“上載(onboard)”到 Hadoop 集群。

26.Ambari(安裝部署配置管理工具)

Apache Ambari 的作用來說,就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群,是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè) web 工具。

注意:Hadoop 盡量不要運(yùn)行在虛擬機(jī)上,因?yàn)閷?duì) IO 影響比較大

Hadoop Distribution:

  社區(qū)版:Apache Hadoop

    第三方發(fā)行版:   

 Cloudera:hadoop 源創(chuàng)始人:CDH //iso 鏡像,最成型的

Hortonworks: 原有的 hadoop 人員:HDP //iso 鏡像,非開源

Intel:IDH

MapR:

 Amazon Elastic Map Reduce(EMR)

  推薦使用 Apache hadoop 或者 CDH

以上是“Hadoop 模式架構(gòu)是怎么樣的”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道!

正文完
 
丸趣
版權(quán)聲明:本站原創(chuàng)文章,由 丸趣 2023-07-19發(fā)表,共計(jì)8270字。
轉(zhuǎn)載說明:除特殊說明外本站除技術(shù)相關(guān)以外文章皆由網(wǎng)絡(luò)搜集發(fā)布,轉(zhuǎn)載請(qǐng)注明出處。
評(píng)論(沒有評(píng)論)
主站蜘蛛池模板: 芦溪县| 长沙市| 嘉兴市| 宜兰县| 车致| 吉木乃县| 龙游县| 双流县| 开鲁县| 林甸县| 古浪县| 晋州市| 且末县| 南部县| 吉水县| 克什克腾旗| 九龙城区| 平阴县| 巴楚县| 尉犁县| 镇赉县| 巴彦淖尔市| 海门市| 双峰县| 清水县| 漠河县| 石首市| 京山县| 中西区| 光泽县| 宝丰县| 东乡| 长乐市| 花莲市| 芮城县| 磐石市| 沛县| 宁陕县| 咸丰县| 郁南县| 乐业县|