共計(jì) 1664 個(gè)字符,預(yù)計(jì)需要花費(fèi) 5 分鐘才能閱讀完成。
apache spark 前幾年在學(xué)術(shù)界是非常火的,最近幾年可能不是那么火了,因?yàn)槟苎芯康膯栴}似乎都已經(jīng)被研究的差不多了,最近都開始研究新的分布式框架了。本文就介紹一下如何在 ubuntu 20.04 Linux 操作系統(tǒng)上安裝 Apache Spark 教程,包括安裝 Java、安裝 Apache Spark、以及通過 Apache Spark Web 界面訪問的教程。Apache Spark 是一個(gè)用于大規(guī)模數(shù)據(jù)處理的開源、通用、多語(yǔ)言分析引擎。通過利用集群中的 RAM 對(duì)大量數(shù)據(jù)執(zhí)行快速數(shù)據(jù)查詢,它可以在單個(gè)和多個(gè)節(jié)點(diǎn)上工作。它提供批處理數(shù)據(jù)處理和實(shí)時(shí)流式傳輸,并支持 Python、SQL、Scala、Java 或 R 等語(yǔ)言的高級(jí) API。該框架提供內(nèi)存技術(shù),使其能夠?qū)⒉樵兒蛿?shù)據(jù)直接存儲(chǔ)在集群節(jié)點(diǎn)的主存儲(chǔ)器。
一、安裝 Java
更新系統(tǒng)包:
$ sudo apt update
安裝 Java:
$ sudo apt install default-jdk -y
確認(rèn) Java 安裝:
$ java -version
二、安裝 Apache Spark
安裝必要的包:
$ sudo apt install curl mlocate git scala -y
下載 Apache Spark,最新版可以在這里下載:https://spark.apache.org/downloads.html
$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
解壓 Spark 安裝包:
$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz
創(chuàng)建安裝目錄:
$ sudo mkdir /opt/spark
移動(dòng)文件到安裝目錄:
$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark
修改目錄權(quán)限:
$ sudo chmod -R 777 /opt/spark
編輯 bashrc 配置文件,將 Apache Spark 安裝目錄添加到系統(tǒng)路徑:
$ sudo nano ~/.bashrc
將下面兩行代碼添加到文件最后:
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存文件并使之生效:
$ source ~/.bashrc
啟動(dòng)獨(dú)立主服務(wù)器:
$ start-master.sh
通過訪問 http://ServerIPaddress:8080 從儀表板中查找您的服務(wù)器主機(jī)名。它可能看起來像這樣:
URL: spark://my-server-development:7077
啟動(dòng) Apache Spark 工作進(jìn)程。使用您的服務(wù)器主機(jī)名更改 spark://ubuntu:7077。
$ start-slave.sh spark://ubuntu:7077
三、訪問 Apache Spark Web 界面
轉(zhuǎn)到瀏覽器地址欄以訪問 Web 界面并輸入 http://ServerIPaddress:8080 以訪問 Web 安裝向?qū)А@纾?/p>
http://192.0.2.10:8080
至此,您已在服務(wù)器上安裝了 Apache Spark。您現(xiàn)在可以訪問主儀表板,開始管理您的集群。
搬瓦工 VPS 套餐
搬瓦工美國(guó) CN2 GIA/ 日本軟銀
最高 10Gbps 帶寬,可選:美國(guó) cn2 gia、日本軟銀,企業(yè)級(jí)高端網(wǎng)絡(luò)帶寬。VPS 基于 KVM 虛擬,SSD raid10 陣列,自帶一個(gè) IPv4,免費(fèi)支持 snapshot 快照功能 (可以導(dǎo)入、導(dǎo)出) 和 Backup(備份功能),可以一鍵更換 IP、一鍵切換機(jī)房。
內(nèi)存 | CPU | SSD | 流量 | 帶寬 | 價(jià)格 | 購(gòu)買 |
1G | 2 核 | 20G | 1.0T/ 月 | 2.5G | $50/ 季 | 鏈接 |
2G | 3 核 | 40G | 2.0T/ 月 | 2.5G | $90/ 季 | 鏈接 |
4G | 4 核 | 80G | 3.0T/ 月 | 2.5G | $57/ 月 | 鏈接 |
8G | 6 核 | 160G | 5.0T/ 月 | 5.0G | $87/ 月 | 鏈接 |
16G | 8 核 | 320G | 8.0T/ 月 | 10G | $160/ 月 | 鏈接 |
32G | 10 核 | 640G | 10.0T/ 月 | 10G | $290/ 月 | 鏈接 |
64G | 12 核 | 1280G | 12.0T/ 月 | 10G | $550/ 月 | 鏈接 |