共計(jì) 8270 個(gè)字符,預(yù)計(jì)需要花費(fèi) 21 分鐘才能閱讀完成。
這篇文章主要介紹 Hadoop 模式架構(gòu)是怎么樣的,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
一、Hadoop 1.0 的模型:
|
split 0- map-[sort]- [1,3..]| /merge
| == reducer– part 0= HDFS replication
split 1- map-[sort]- [2,6..]|—————————————
| == reducre— part 1 = HDFS replication
split 2- map-[sort]- [4,2..]|
|
|
//INPUT HDFS| //output HDFS
// 啟動(dòng)有 3 個(gè) map,reducer 只啟動(dòng)了 2 個(gè),sort: 本地排序后發(fā)送給 reducer
相同的 key 發(fā)送到同一個(gè) reducer
//merge: 把多個(gè)數(shù)據(jù)流整合為一個(gè)數(shù)據(jù)流
工作流程:
Client— Job— Hadoop MapReduce master
|
|
V
/ \
Job parts Job parts
| |
VV
[Input]– map1reduceA—- [Output][Data]—map2 =》reduceB—- [Data]
\__map3
// 其中 map1,2,3 和 reduceA,B 是交叉使用的。也就是說 map1 可以同時(shí)對(duì)應(yīng) reduceA 和 reduceB,其他的也都可以
//MapReduce 將需要處理的任務(wù)分成兩個(gè)部分,Map 和 Reduce
Client App
(MapReduce Client)—- Job Tracker
|
____________________|_____________________________
[task tracker1] [task tracker1] [task tracker1]
map reduce reduce reduce map map reduce map
JobTracker: 有任務(wù)列表,以及狀態(tài)信息
JobA—- [map task1]
JobB[map task2]
JobC[map task3]
…[reduce task 1][reduce task 2]
// 任何一個(gè) task tracker 能夠運(yùn)行的任務(wù)數(shù)量是有限的,可以進(jìn)行定義
// 任務(wù)槽:決定可以運(yùn)行多少個(gè) job
Jobtracker:
1. 負(fù)責(zé)任務(wù)分發(fā)
2. 檢查 Task tracker 狀態(tài),tracker 故障重啟等
3. 監(jiān)控任務(wù)的狀態(tài)
Job tracker 存在單點(diǎn)故障的問題,在 hadoop2.0 后這幾個(gè)功能分別實(shí)現(xiàn)了
Mapreduce 2.0 之后切割為兩部分
二、HadooP 1.0 和 2.0
1.0: pig:data flow,Hive:sql ,
2.0: MR:batch 批處理,Pig:data flow,Hive:sql
RT:stream graph: 實(shí)時(shí)流式圖形處理
Tez:execution engine// 執(zhí)行引擎
MRv1:cluster resouce manager,Data procession
MRV2:
1.YARN:Cluster resource manager
Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者
2.MRv2:Data procession
MR:batch 作業(yè)
Tez:execution engine // 提供運(yùn)行時(shí)環(huán)境
可以直接在 YARN 之上的程序有:
MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave
Hadoop2.0
clinet– RM— node1/node2/node n…
Resouce Manager: RM 是獨(dú)立的
node 上運(yùn)行的有 [node manager+App Master+ Container]
Node manager:NM,運(yùn)行在各 node 上,周期向 RM 報(bào)告 node 信息,
clinet 請(qǐng)求作業(yè):node 上的 Application master 決定要啟動(dòng)幾個(gè) mapper 幾個(gè) reducer
mapper 和 reducer 稱為 Container // 作業(yè)都在容器內(nèi)運(yùn)行。
Application master 只有一個(gè),且同一個(gè)任務(wù)的 APP M 只在一個(gè)節(jié)點(diǎn)上,但是 Container 會(huì)分別運(yùn)行在多個(gè)節(jié)點(diǎn)上,并周期向 APP M 報(bào)告其處理狀態(tài)
APP M 向 RM 報(bào)告任務(wù)運(yùn)行狀況,在任務(wù)執(zhí)行完畢后,RM 會(huì)把 APP M 關(guān)閉
某一個(gè)任務(wù)故障后,由 App M 進(jìn)行管理,而不是 RM 管理
2.0 工作模型
A 【NM/Container 1/APP M(B)】
\/
【RM】 — 【NM/Container 2/APP M(A)】
/\
B 【NM/Container 3 /A A 】
// 任務(wù) A 運(yùn)行了 3 個(gè) container, 在兩個(gè)節(jié)點(diǎn)上
// 任務(wù) B 運(yùn)行了 1 個(gè) container,在一個(gè)節(jié)點(diǎn)上
Mapreduce status:container 向 APP M 報(bào)告 //container 包括 map 和 reducer 任務(wù)
Job submission:
node status:NM 周期向 RM 報(bào)告
Resouce Request:由 App M 向 RM 申請(qǐng),然后 APP M 就可以使用其他 node 的 container
client 請(qǐng)求 – RM 查找空閑 node,空閑 node 上運(yùn)行 APP M– APP M 向 RM 申請(qǐng)運(yùn)行 container 資源,RM 向 NM 提請(qǐng) container,RM 分配好 coantainer 后,告訴給 APP M
APP M 使用 container 運(yùn)行任務(wù)。Container 在運(yùn)行過程中,不斷向 APP M 反饋?zhàn)约旱臓顟B(tài)和進(jìn)度,APP M 向 RM 報(bào)告運(yùn)行狀態(tài)。
APP M 報(bào)告運(yùn)行完成,RM 收回 container 和關(guān)閉 APP M
RM:resource manager
NM:node manager
AM:application master
container:mr 任務(wù)運(yùn)行
Hadoop 發(fā)展路線:
2003 nutch // 蜘蛛程序
2004-2006:Mapreduce + GFS, 論文
2011:hadoop 1.0.0
2013:hadoop 2.0
http://hadoop.apache.org/
可以直接在 YARN 之上的程序有:
MapReduce:Batch,Tez,HBase,Streaming,Graph,SPark,HPC MPI[高性能],Weave
三、Hadoop 2.0 生態(tài)系統(tǒng)與基本組件
// 在 YARN 之上是依賴于 YARN 的,其他的都是可以獨(dú)立使用的
2、HDFS(Hadoop 分布式文件系統(tǒng))
源自于 Google 的 GFS 論文,發(fā)表于 2003 年 10 月,HDFS 是 GFS 克隆版。
HDFS 是 Hadoop 體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障,用于在低成本的通用硬件上運(yùn)行。
HDFS 簡(jiǎn)化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。
它提供了一次寫入多次讀取的機(jī)制,數(shù)據(jù)以塊的形式,同時(shí)分布在集群不同物理機(jī)器上。
3、Mapreduce(分布式計(jì)算框架)
源自于 google 的 MapReduce 論文,發(fā)表于 2004 年 12 月,Hadoop MapReduce 是 google MapReduce 克隆版。
MapReduce 是一種分布式計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。它屏蔽了分布式計(jì)算框架細(xì)節(jié),將計(jì)算抽象成 map 和 reduce 兩部分,
其中 Map 對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵 - 值對(duì)形式中間結(jié)果。Reduce 則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。
MapReduce 非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。
4. HBASE(分布式列存數(shù)據(jù)庫)
源自 Google 的 Bigtable 論文,發(fā)表于 2006 年 11 月,HBase 是 Google Bigtable 克隆版
HBase 是一個(gè)建立在 HDFS 之上,面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。
HBase 采用了 BigTable 的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。
HBase 提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase 中保存的數(shù)據(jù)可以使用 MapReduce 來處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。
HBase: 山寨版的 BitTable, 列式存儲(chǔ),SQL 為行式存儲(chǔ)。
列祖:把多個(gè)常用的列存放在一個(gè)中。
cell: 行和列的交叉位置,每個(gè) cell 在存儲(chǔ)時(shí),可以多版本共存,之前的版本不會(huì)被刪除,可以追溯老版本。
可以指定保存幾個(gè)版本。每個(gè) cell 都是鍵值對(duì),任何一個(gè)行多一個(gè)字段或者少一個(gè)字段,都是可以的,沒有強(qiáng) schema 約束
HBASE 是工作在 HDFS 之上,轉(zhuǎn)化為 chunk 的
需要用到大數(shù)據(jù)塊時(shí),讀取到 HBase 中,進(jìn)行讀取和修改,然后覆蓋或者寫入 HDFS
從而實(shí)現(xiàn)隨機(jī)讀寫。HDFS 是不支持隨機(jī)讀寫的
HBase 接口:
HBase 基于分布式實(shí)現(xiàn):需要另起一套集群,嚴(yán)重依賴于 ZooKeeper 解決腦裂
HDFS 本身就有冗余功能,每個(gè) chunk 存儲(chǔ)為了多個(gè)副本
HBase 作為面向列的數(shù)據(jù)庫運(yùn)行在 HDFS 之上,HDFS 缺乏隨即讀寫操作,HBase 正是為此而出現(xiàn)。
HBase 以 Google BigTable 為藍(lán)本,以鍵值對(duì)的形式存儲(chǔ)。項(xiàng)目的目標(biāo)就是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。
HBase 是一個(gè)數(shù)據(jù)庫,一個(gè) NoSql 的數(shù)據(jù)庫,像其他數(shù)據(jù)庫一樣提供隨即讀寫功能,Hadoop 不能滿足實(shí)時(shí)需要,HBase 正可以滿足。
如果你需要實(shí)時(shí)訪問一些數(shù)據(jù),就把它存入 HBase。
你可以用 Hadoop 作為靜態(tài)數(shù)據(jù)倉庫,HBase 作為數(shù)據(jù)存儲(chǔ),放那些進(jìn)行一些操作會(huì)改變的數(shù)據(jù)
5. Zookeeper(分布式協(xié)作服務(wù))
源自 Google 的 Chubby 論文,發(fā)表于 2006 年 11 月,Zookeeper 是 Chubby 克隆版
解決分布式環(huán)境下的數(shù)據(jù)管理問題:統(tǒng)一命名,狀態(tài)同步,集群管理,配置同步等。
Hadoop 的許多組件依賴于 Zookeeper,它運(yùn)行在計(jì)算機(jī)集群上面,用于管理 Hadoop 操作。
6. HIVE(數(shù)據(jù)倉庫)小蜜蜂
由 facebook 開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問題。
Hive 定義了一種類似 SQL 的查詢語言 (HQL), 將 SQL 轉(zhuǎn)化為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于離線分析。
HQL 用于運(yùn)行存儲(chǔ)在 Hadoop 上的查詢語句,Hive 讓不熟悉 MapReduce 開發(fā)人員也能編寫數(shù)據(jù)查詢語句,然后這些語句被翻譯為 Hadoop 上面的 MapReduce 任務(wù)。
Hive:幫忙轉(zhuǎn)換成 MapReduce 任務(wù) //MapReduce: 是 bat 程序,速度較慢
HQ 與 SQl 語句接近,適合在離線下進(jìn)行數(shù)據(jù)的操作,在真實(shí)的生產(chǎn)環(huán)境中進(jìn)行實(shí)時(shí)的在線查詢或操作很“慢”
Hive 在 Hadoop 中扮演數(shù)據(jù)倉庫的角色。
你可以用 HiveQL 進(jìn)行 select,join, 等等操作。
如果你有數(shù)據(jù)倉庫的需求并且你擅長(zhǎng)寫 SQL 并且不想寫 MapReduce jobs 就可以用 Hive 代替。
熟悉 SQL 的朋友可以使用 Hive 對(duì)離線的進(jìn)行數(shù)據(jù)處理與分析工作
7.Pig(ad-hoc 腳本)
由 yahoo! 開源,設(shè)計(jì)動(dòng)機(jī)是提供一種基于 MapReduce 的 ad-hoc(計(jì)算在 query 時(shí)發(fā)生) 數(shù)據(jù)分析工具
Pig 定義了一種數(shù)據(jù)流語言—Pig Latin,它是 MapReduce 編程的復(fù)雜性的抽象,Pig 平臺(tái)包括運(yùn)行環(huán)境和用于分析 Hadoop 數(shù)據(jù)集的腳本語言 (Pig Latin)。
其編譯器將 Pig Latin 翻譯成 MapReduce 程序序列將腳本轉(zhuǎn)換為 MapReduce 任務(wù)在 Hadoop 上執(zhí)行。通常用于進(jìn)行離線分析。
Pig: 腳本編程語言接口 一種操作 hadoop 的輕量級(jí)腳本語言,最初又雅虎公司推出,不過現(xiàn)在正在走下坡路了。
不過個(gè)人推薦使用 Hive
8.Sqoop(數(shù)據(jù) ETL/ 同步工具)
Sqoop 是 SQL-to-Hadoop 的縮寫,主要用于傳統(tǒng)數(shù)據(jù)庫和 Hadoop 之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是 Mapreduce 程序,充分利用了 MR 的并行化和容錯(cuò)性。
Sqoop 利用數(shù)據(jù)庫技術(shù)描述數(shù)據(jù)架構(gòu),用于在關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和 Hadoop 之間轉(zhuǎn)移數(shù)據(jù)。
9.Flume(日志收集工具)
Cloudera 開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)。
它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在 Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。
同時(shí),F(xiàn)lume 數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume 還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力。
總的來說,F(xiàn)lume 是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。當(dāng)然也可以用于收集其他類型數(shù)據(jù)
10.Mahout(數(shù)據(jù)挖掘算法庫)
Mahout 起源于 2008 年,最初是 Apache Lucent 的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長(zhǎng)足的發(fā)展,現(xiàn)在是 Apache 的頂級(jí)項(xiàng)目。
Mahout 的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。
Mahout 現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。
除了算法,Mahout 還包含數(shù)據(jù)的輸入 / 輸出工具、與其他存儲(chǔ)系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或 Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。
11. Oozie(工作流調(diào)度器)
Oozie 是一個(gè)可擴(kuò)展的工作體系,集成于 Hadoop 的堆棧,用于協(xié)調(diào)多個(gè) MapReduce 作業(yè)的執(zhí)行。它能夠管理一個(gè)復(fù)雜的系統(tǒng),基于外部事件來執(zhí)行,外部事件包括數(shù)據(jù)的定時(shí)和數(shù)據(jù)的出現(xiàn)。
Oozie 工作流是放置在控制依賴 DAG(有向無環(huán)圖 Direct Acyclic Graph)中的一組動(dòng)作(例如,Hadoop 的 Map/Reduce 作業(yè)、Pig 作業(yè)等),其中指定了動(dòng)作執(zhí)行的順序。
Oozie 使用 hPDL(一種 XML 流程定義語言)來描述這個(gè)圖。
12. Yarn(分布式資源管理器)
YARN 是下一代 MapReduce,即 MRv2,是在第一代 MapReduce 基礎(chǔ)上演變而來的,主要是為了解決原始 Hadoop 擴(kuò)展性較差,不支持多計(jì)算框架而提出的。Yarn 是下一代 Hadoop 計(jì)算平臺(tái),yarn 是一個(gè)通用的運(yùn)行時(shí)框架,用戶可以編寫自己的計(jì)算框架,在該運(yùn)行環(huán)境中運(yùn)行。用于自己編寫的框架作為客戶端的一個(gè) lib,在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件:
– 資源管理:包括應(yīng)用程序管理和機(jī)器資源管理
– 資源雙層調(diào)度
– 容錯(cuò)性:各個(gè)組件均有考慮容錯(cuò)性
– 擴(kuò)展性:可擴(kuò)展到上萬個(gè)節(jié)點(diǎn)
13. Mesos(分布式資源管理器)
Mesos 誕生于 UC Berkeley 的一個(gè)研究項(xiàng)目,現(xiàn)已成為 Apache 項(xiàng)目,當(dāng)前有一些公司使用 Mesos 管理集群資源,比如 Twitter。
與 yarn 類似,Mesos 是一個(gè)資源統(tǒng)一管理和調(diào)度的平臺(tái),同樣支持比如 MR、steaming 等多種運(yùn)算框架。
14. Tachyon(分布式內(nèi)存文件系統(tǒng))
Tachyon(/ tki:n/ 意為超光速粒子)是以內(nèi)存為中心的分布式文件系統(tǒng),擁有高性能和容錯(cuò)能力,
能夠?yàn)榧嚎蚣埽ㄈ?Spark、MapReduce)提供可靠的內(nèi)存級(jí)速度的文件共享服務(wù)。
Tachyon 誕生于 UC Berkeley 的 AMPLab。
15. Tez(DAG 計(jì)算模型)
Tez 是 Apache 最新開源的支持 DAG 作業(yè)的計(jì)算框架,它直接源于 MapReduce 框架,核心思想是將 Map 和 Reduce 兩個(gè)操作進(jìn)一步拆分,
即 Map 被拆分成 Input、Processor、Sort、Merge 和 Output,Reduce 被拆分成 Input、Shuffle、Sort、Merge、Processor 和 Output 等,
這樣,這些分解后的元操作可以任意靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個(gè)大的 DAG 作業(yè)。
目前 hive 支持 mr、tez 計(jì)算模型,tez 能完美二進(jìn)制 mr 程序,提升運(yùn)算性能。
16. Spark(內(nèi)存 DAG 計(jì)算模型)
Spark 是一個(gè) Apache 項(xiàng)目,它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開源社區(qū),并且是目前最活躍的 Apache 項(xiàng)目。
最早 Spark 是 UC Berkeley AMP lab 所開源的類 Hadoop MapReduce 的通用的并行計(jì)算框架。
Spark 提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和 Hadoop 相比,Spark 可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升 100 倍,或者在磁盤上運(yùn)行時(shí)速度提升 10 倍
17. Giraph(圖計(jì)算模型)
Apache Giraph 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng),基于 Hadoop 平臺(tái),靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
最早出自雅虎。雅虎在開發(fā) Giraph 時(shí)采用了 Google 工程師 2010 年發(fā)表的論文《Pregel:大規(guī)模圖表處理系統(tǒng)》中的原理。后來,雅虎將 Giraph 捐贈(zèng)給 Apache 軟件基金會(huì)。
目前所有人都可以下載 Giraph,它已經(jīng)成為 Apache 軟件基金會(huì)的開源項(xiàng)目,并得到 Facebook 的支持,獲得多方面的改進(jìn)。
18. GraphX(圖計(jì)算模型)
Spark GraphX 最先是伯克利 AMPLAB 的一個(gè)分布式圖計(jì)算框架項(xiàng)目,目前整合在 spark 運(yùn)行框架中,為其提供 BSP 大規(guī)模并行圖計(jì)算能力。
19. MLib(機(jī)器學(xué)習(xí)庫)
Spark MLlib 是一個(gè)機(jī)器學(xué)習(xí)庫,它提供了各種各樣的算法,這些算法用來在集群上針對(duì)分類、回歸、聚類、協(xié)同過濾等。
20. Streaming(流計(jì)算模型)
Spark Streaming 支持對(duì)流數(shù)據(jù)的實(shí)時(shí)處理,以微批的方式對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算
21. Kafka(分布式消息隊(duì)列)
Kafka 是 Linkedin 于 2010 年 12 月份開源的消息系統(tǒng),它主要用于處理活躍的流式數(shù)據(jù)。
活躍的流式數(shù)據(jù)在 web 網(wǎng)站應(yīng)用中非常常見,這些數(shù)據(jù)包括網(wǎng)站的 pv、用戶訪問了什么內(nèi)容,搜索了什么內(nèi)容等。
這些數(shù)據(jù)通常以日志的形式記錄下來,然后每隔一段時(shí)間進(jìn)行一次統(tǒng)計(jì)處理。
22. Phoenix(hbase sql 接口)
Apache Phoenix 是 HBase 的 SQL 驅(qū)動(dòng),Phoenix 使得 Hbase 支持通過 JDBC 的方式進(jìn)行訪問,并將你的 SQL 查詢轉(zhuǎn)換成 Hbase 的掃描和相應(yīng)的動(dòng)作。
23. ranger(安全管理工具)
Apache ranger 是一個(gè) hadoop 集群權(quán)限框架,提供操作、監(jiān)控、管理復(fù)雜的數(shù)據(jù)權(quán)限,它提供一個(gè)集中的管理機(jī)制,管理基于 yarn 的 hadoop 生態(tài)圈的所有數(shù)據(jù)權(quán)限。
24. knox(hadoop 安全網(wǎng)關(guān))
Apache knox 是一個(gè)訪問 hadoop 集群的 restapi 網(wǎng)關(guān),它為所有 rest 訪問提供了一個(gè)簡(jiǎn)單的訪問接口點(diǎn),能完成 3A 認(rèn)證(Authentication,Authorization,Auditing)和 SSO(單點(diǎn)登錄)等
25. falcon(數(shù)據(jù)生命周期管理工具)
Apache Falcon 是一個(gè)面向 Hadoop 的、新的數(shù)據(jù)處理和管理平臺(tái),設(shè)計(jì)用于數(shù)據(jù)移動(dòng)、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務(wù)“上載(onboard)”到 Hadoop 集群。
26.Ambari(安裝部署配置管理工具)
Apache Ambari 的作用來說,就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群,是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè) web 工具。
注意:Hadoop 盡量不要運(yùn)行在虛擬機(jī)上,因?yàn)閷?duì) IO 影響比較大
Hadoop Distribution:
社區(qū)版:Apache Hadoop
第三方發(fā)行版:
Cloudera:hadoop 源創(chuàng)始人:CDH //iso 鏡像,最成型的
Hortonworks: 原有的 hadoop 人員:HDP //iso 鏡像,非開源
Intel:IDH
MapR:
Amazon Elastic Map Reduce(EMR)
推薦使用 Apache hadoop 或者 CDH
以上是“Hadoop 模式架構(gòu)是怎么樣的”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道!