Ubuntu如何搭建完全分布式

205次閱讀

共計 37768 個字符，預計需要花費 95 分鐘才能閱讀完成。

這篇文章主要講解了“Ubuntu 如何搭建完全分布式”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著丸趣 TV 小編的思路慢慢深入，一起來研究和學習“Ubuntu 如何搭建完全分布式”吧！

環境說明

本文使用 vmware reg; workstation 12 pro 虛擬機創建并安裝三臺 ubuntu16.04 系統分別命名為master、slave1、slave2 對應對應 namenode、datanode、datanode。

安裝過程中要求三個系統中配置基本相同除個別配置（比如：節點的命名）

192.168.190.128 master

192.168.190.129 slave1

192.168.190.131 slave2

在虛擬機 linux 上安裝與配置 hadoop

需要說明的是下面的所有配置三臺 ubuntu 系統都要配置而且是基本一樣，為了使配置一致，先在一臺機器上配置然后將對應配置 scp 到其他機器上

虛擬機的安裝不是本文重點，這里就不贅述了。安裝之后是這樣的：

在 linux 上安裝 hadoop 之前，需要安裝兩個程序：

1）jdk1.6(或更高版本), 本文采用 jdk 1.7。hadoop 是 java 編寫的程序，hadoop 的編譯及 mapreduce 都需要使用 jdk。因此，在安裝 hadoop 前，必須安裝 jdk1.6 或更高版本。

2)ssh(安裝外殼協議)，推薦安裝 openssh.hadoop 需要通過 ssh 來啟動 slave 列表中各臺機器的守護進程，因此 ssh 也是必須安裝的，即使是安裝偽分布版本（因為 hadoop 并沒有區分集群式和偽分布式）。對于偽分布式，hadoop 會采用與集群相同處理方式，即按次序啟動文件 conf/slaves 中記載的主機上的進程，只不過在偽分布式中 slave 為 localhost（即本身），所以對于偽分布式 hadoop，ssh 也是一樣必須的。

部署步驟

添加一個 hadoop 用戶，并賦予相應權利，我們接下來 hadoop hbase 的安裝都要在 hadoop 用戶下操作，所以 hadoop 用戶要將 hadoop 的文件權限以及文件所有者賦予給 hadoop 用戶。

1. 每個虛擬機系統上都添加 hadoop 用戶，并添加到 sudoers

sudo adduser hadoop

sudo gedit /etc/sudoers

找到對應添加如下：

# user privilege specification
root all=(all:all) all
hadoop all=(all:all) all

2. 切換到 hadoop 用戶：

su hadoop

3. 修改 /etc/hostname 主機名為 master

當然 master 虛擬機設置為master

其他兩個虛擬機分別設置為 slave1、slave2

4.、修改 /etc/hosts

127.0.0.1 localhost
127.0.1.1 localhost.localdomain localhost
192.168.190.128 master
192.168.190.129 slave1
192.168.190.131 slave2
# the following lines are desirable for ipv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

5. 安裝 jdk 1.7

(1)下載和安裝 jdk 1.7

jdk-7u76-linux-x64.tar.gz

使用 tar 命令

tar -zxvf jdk-7u76-linux-x64.tar.gz

將安裝文件移動到 jdk 安裝目錄，本文 jdk 的安裝目錄為 /usr/lib/jvm/jdk1.7.0_76

（2）配置環境變量

輸入命令：

sudo gedit /etc/profile

輸入密碼，打開 profile 文件。在最下面輸入如下內容：

#set java environment
export java_home=/usr/lib/jvm/jdk1.7.0_76
export jre_home=${java_home}/jre 
export classpath=.:${java_home}/lib:${jre_home}/lib 
export path=${java_home}/bin:/home/hadoop/hadoop-2.7.1/bin:/home/hadoop/hadoop-2.7.1/sbin:/home/hadoop/hbase-1.2.4/bin:$path

需要說明的是可能 profile 文件當前權限是只讀的，需要使用

sudo chmod 777 /etc/profile

命令修改文件讀寫權限。文件中已經包含了 hadoop 以及 hbase 的環境配置。

這一步的意義是配置環境變量，使系統可以找到 jdk。

（4）驗證 jdk 是否安裝成功

輸入命令：

java -version

會出現如下 jdk 版本信息：

java version  1.7.0_76 
java(tm) se runtime environment (build 1.7.0_76-b13)
java hotspot(tm) 64-bit server vm (build 24.76-b04, mixed mode)

如果出現上述 jdk 版本信息說明當前安裝 jdk 并未設置成 ubuntu 系統默認的 jdk，接下來還需要手動將安裝的 jdk 設置成系統默認的 jdk。

(5)手動設置系統默認 jdk

在終端依次輸入命令：

sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_76/bin/java 300

sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_76/bin/javac 300

sudo update-alternatives --config java

接下來輸入 java -version 就可以看到所安裝的 jdk 的版本信息了。

三臺虛擬機都要安裝 vmware tools 工具方便復制粘貼

6. 配置 ssh 免密碼登錄

(1)確認已經連上互聯網，然后輸入命令：

sudo apt-get install ssh

(2)配置 master、slave1 和 slave2 節點可以通過 ssh 無密碼互相訪問

注意這里的所有操作都是在 hadoop 用戶下操作的。

首先，查看下 hadoop 用戶下是否存在.ssh 文件夾（注意 ssh 文件前面有”.”這是一個隱藏文件夾），輸入命令：

ls -a -l

可以得到

drwxr-xr-x 9 root root 4096 feb 1 02:41 .
drwxr-xr-x 4 root root 4096 jan 27 01:50 ..
drwx------ 3 root root 4096 jan 31 03:35 .cache
drwxr-xr-x 5 root root 4096 jan 31 03:35 .config
drwxrwxrwx 11 hadoop root 4096 feb 1 00:18 hadoop-2.7.1
drwxrwxrwx 8 hadoop root 4096 feb 1 02:47 hbase-1.2.4
drwxr-xr-x 3 root root 4096 jan 31 03:35 .local
drwxr-xr-x 2 root root 4096 jan 31 14:47 software
drwxr-xr-x 2 hadoop root 4096 feb 1 00:01 .ssh

一般來說，安裝 ssh 時會自動在當前用戶下創建這個隱藏文件夾，如果沒有，可以手動創建一個。

sudo mkdir .ssh

注意這里的.ssh 要是 hadoop 權限擁有，如果是 root 的話，使用下面命令：

sudo chown -r hadoop .ssh

接下來，輸入命令：

ssh-keygen -t rsa

如果沒有權限前面加一個 sudo.

執行完可以看到一個圖標并在.ssh 文件下創建兩個文件：id_rsa 和 id_rsa.pub

 cat ~/ssh/id_rsa.pub   ~/ssh/authorized_keys

在 ubuntu 中，~ 代表單前用戶文件夾，此處即 /home/hadoop。

這表命令的功能是把公鑰加到用于認證的公鑰文件中，這里的 authorized_keys 是用于認證的公鑰文件。

然后使用命令：

sudo gedit authorized_keys

打開對應虛擬機生成的密碼，如 master 主機的 hadoop 用戶生成了，將其他主機生成的秘鑰添加到 master 主機的 authorized_keys 文件的末尾，這樣 master 主機就擁有 slave1 的 hadoop 用戶以及 slave2 的 hadoop 用戶的秘鑰了。
如下：

不要復制我的，復制我的沒用，我這里只是實例一下，復制你自己的三臺虛擬機各自生成的秘鑰

ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqc743ocp2voa3dehbka+n7cyjc4jv2tj8z6tgvwcxg0njl3ykwyifgc9riyfyrwcl5byi34oe7dytf+9utvh85hca1/idp1m02nlpxsijmcps4ungmlfswg/f/c3bqut7i4t6ehwo/frhjeibu5o/9ghoxk/ykhgjibyh8hhalcke6jtt80i63r2+3dnlhlnzw1sqrjp2qfrgyv61j5dfuyrhfd+/etkftxc7izlvckc7x6hmo4qimq0gbsx9iqto0to1skgylhcx3cbo3hf4i19rukt168eg/x2l1qivf+vgxqudm3lza9/pxdiek5p8c8xupcaor67jmflwll3eub hadoop@master
ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqdq1jf6ds9y+klqnihq+pdgxm1osf+rsxcglddlzw+qgk7nt28brk6qucm3kjqa/ekekqdhdwegtiqvriosy4a2fabkrsjiornc4qyq/rqb06juvshwtob91qwmv/j/o3mgsentjlfmbupsyw8rrxqv+tytqq+gipl7x0wgubrqyrhjjzkaxqglge3md/siyjn8ge4g31rrtcx9qdvcftcthkvqca0b0f98y+u9fu6w4ari28olxftlzucsebipmze4uwquxt+2kmz0hunpejsdrlkrfqo1okus0pezruvrmyby5flt4tnv0xoqbyclzxieev/ppgh8aeb4qs/zxb25 hadoop@slave1
ssh-rsa aaaab3nzac1yc2eaaaadaqabaaabaqdi8ppgxt94saetuhvt2jmlo4ed11r1wlon1eha5vi3qqm7cgt4ys7lvxl53dc5g7r0n4jwsf2htvd9jf77veixp5g3xqga7hafbimzqupucyahqy+v0rtepabungkfz0ukv+nq8bzjfsuv4hgrorw7yzqaa0ljevhii8uvza7dcz6ba1on/tlkvvzz3mdzulcn7+azjtptg8hpqaelqqws1uuiyiuanosqfpcadart/pjpazgkqek0lbrsvi+u+p0osrz9ax3wvouqknheinm4tmuo3tgyionjev1jqrocxbbzaeqllwnpa0yzbl/zmnjhkesitypmgzwszh3ylc8p hadoop@slave2

至此免密碼登錄主機已配置完畢。

（3）驗證 ssh 是否已安裝成功，以及是否可以免密碼登錄主機。

輸入命令：

ssh -v

顯示結果：

openssh_7.2p2 ubuntu-4ubuntu2.1, openssl 1.0.2g 1 mar 2016

輸入命令：

ssh localhost

會有如下顯示：

welcome to ubuntu 16.04 lts (gnu/linux 4.4.0-21-generic x86_64)
 * documentation: https://help.ubuntu.com/
458 packages can be updated.
171 updates are security updates.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.
last login: wed feb 1 00:02:53 2017 from 127.0.0.1
to run a command as administrator (user  root), use  sudo  command .
see  man sudo_root  for details.

這說明已經安裝成功，第一次登錄會詢問是否繼續鏈接，輸入 yes 即可以進入。

實際上，在 hadoop 的安裝過程中，是否免密碼登錄是無關緊要的，但是如果不配置免密碼登錄，每次啟動 hadoop 都需要輸入密碼以登錄到每臺機器的 datanode 上，考慮到一般的 hadoop 集群動輒數百或者上千臺機器，因此一般來說都會配置 ssh 免密碼登錄。

master 節點無密碼訪問 slave1 和 slave2 節點：

ssh slave1

運行結果：

welcome to ubuntu 16.04 lts (gnu/linux 4.4.0-59-generic x86_64)
 * documentation: https://help.ubuntu.com/
312 packages can be updated.
10 updates are security updates.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.

the programs included with the ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
ubuntu comes with absolutely no warranty, to the extent permitted by
applicable law.
last login: wed feb 1 00:03:30 2017 from 192.168.190.131

不需要密碼，需要密碼說明沒有配置成功，看看是不是哪步出現了問題。

安裝并運行 hadoop

介紹 hadoop 的安裝之前，先介紹一下 hadoop 對各個節點的角色定義。

hadoop 分別從三個角度將主機劃分為兩種角色。第一，最基本的劃分為 master 和 slave, 即主人和奴隸；第二，從 hdfs 的角度，將主機劃分為 namenode 和 datanode(在分布式文件系統中，目錄的管理很重要，管理目錄相當于主任，而 namenode 就是目錄管理者）；第三，從 mapreduce 角度，將主機劃分為 jobtracker 和 tasktracker(一個 job 經常被劃分為多個 task, 從這個角度不難理解它們之間的關系)。

hadoop 有三種運行方式：單機模式、偽分布與完全分布式。乍看之下，前兩種并不能體現云計算的優勢，但是它們便于程序的測試與調試，所以還是有意義的。

我的博客中有介紹單機模式和偽分布式方式這里就不贅述，本文主要著重介紹分布式方式配置。

（1）hadoop 用戶目錄下解壓下載的 hadoop-2.7.1.tar.gz

使用解壓命令：

tar -zxvf hadoop-2.7.1.tar.gz

注意一下操作都是在 hadoop 用戶下操作的也就是 hadoop-2.7.1 的所有者是 hadoop. 如下所示：

total 120
drwxr-xr-x 19 hadoop hadoop 4096 feb 1 02:28 .
drwxr-xr-x 4 root root 4096 jan 31 14:24 ..
-rw------- 1 hadoop hadoop 1297 feb 1 03:37 .bash_history
-rw-r--r-- 1 hadoop hadoop 220 jan 31 14:24 .bash_logout
-rw-r--r-- 1 hadoop hadoop 3771 jan 31 14:24 .bashrc
drwx------ 3 root root 4096 jan 31 22:49 .cache
drwx------ 5 root root 4096 jan 31 23:59 .config
drwx------ 3 root root 4096 jan 31 23:59 .dbus
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 desktop
-rw-r--r-- 1 hadoop hadoop 25 feb 1 00:55 .dmrc
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 documents
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 downloads
-rw-r--r-- 1 hadoop hadoop 8980 jan 31 14:24 examples.desktop
drwx------ 2 hadoop hadoop 4096 feb 1 00:56 .gconf
drwx------ 3 hadoop hadoop 4096 feb 1 00:55 .gnupg
drwxrwxrwx 11 hadoop hadoop 4096 feb 1 00:30 hadoop-2.7.1
drwxrwxrwx 8 hadoop hadoop 4096 feb 1 02:44 hbase-1.2.4
-rw------- 1 hadoop hadoop 318 feb 1 00:56 .iceauthority
drwxr-xr-x 3 root root 4096 jan 31 22:49 .local
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 music
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 pictures
-rw-r--r-- 1 hadoop hadoop 675 jan 31 14:24 .profile
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 public
drwx------ 2 hadoop hadoop 4096 feb 1 00:02 .ssh
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 templates
drwxr-xr-x 2 hadoop hadoop 4096 feb 1 00:55 videos
-rw------- 1 hadoop hadoop 51 feb 1 00:55 .xauthority
-rw------- 1 hadoop hadoop 1492 feb 1 00:58 .xsession-errors

（2）配置 hadoop 的環境變量

sudo gedit /etc/profile

配置如下：

#set java environment
export java_home=/usr/lib/jvm/jdk1.7.0_76
export jre_home=${java_home}/jre 
export classpath=.:${java_home}/lib:${jre_home}/lib 
export path=${java_home}/bin:/home/hadoop/hadoop-2.7.1/bin:/home/hadoop/hadoop-2.7.1/sbin:/home/hadoop/hbase-1.2.4/bin:$path

(3)配置三臺主機的 hadoop 文件，內容如下。

conf/hadoop-env.sh: