Kuinka asentaa ja asentaa Apache Spark Ubuntuun/Debianiin

Apache Spark on avoimen lähdekoodin hajautettu laskentakehys, joka on luotu tuottamaan nopeampia laskentatuloksia. Se on muistissa oleva laskentakone, mikä tarkoittaa, että tiedot käsitellään muistissa.

Spark tukee erilaisia sovellusliittymiä suoratoistoon, kaavioiden käsittelyyn, SQL:ään ja MLLibiin. Se tukee myös Javaa, Pythonia, Scalaa ja R:tä ensisijaisina kielinä. Spark asennetaan enimmäkseen Hadoop-klustereihin, mutta voit myös asentaa ja määrittää kipinän itsenäisessä tilassa.

Tässä artikkelissa näemme, kuinka Apache Spark asennetaan Debian- ja Ubuntu-pohjaisiin jakeluihin.

Asenna Java ja Scala Ubuntuun

Apache Spark -sovelluksen asentaminen Ubuntuun edellyttää, että koneellesi on asennettu Java ja Scala. Useimmissa nykyaikaisissa jakeluissa Java on asennettu oletusarvoisesti ja voit tarkistaa sen seuraavalla komennolla.

java -version

Jos tulostetta ei ole, voit asentaa Javan käyttämällä artikkeliamme Javan asentamisesta Ubuntuun tai yksinkertaisesti suorittamalla seuraavat komennot asentaaksesi Java Ubuntuun ja Debian-pohjaisiin jakeluihin.

sudo apt update
sudo apt install default-jre
java -version

Seuraavaksi voit asentaa Scalan apt-varastosta suorittamalla seuraavat komennot etsiäksesi scalan ja asentamalla sen.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Tarkista Scalan asennus suorittamalla seuraava komento.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Asenna Apache Spark Ubuntuun

Siirry nyt viralliselle Apache Spark -lataussivulle ja hanki uusin versio (eli 3.1.1) tätä artikkelia kirjoittaessasi. Vaihtoehtoisesti voit käyttää wget-komentoa ladataksesi tiedoston suoraan päätteeseen.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Avaa nyt päätelaite ja vaihda ladatun tiedoston sijaintipaikkaan ja pura Apache Spark tar -tiedosto suorittamalla seuraava komento.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Siirrä lopuksi purettu Spark-hakemisto /opt-hakemistoon.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Määritä ympäristömuuttujat Sparkille

Nyt sinun on asetettava muutama ympäristömuuttuja .profile-tiedostoosi ennen kipinän käynnistämistä.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Varmistaaksesi, että nämä uudet ympäristömuuttujat ovat saavutettavissa shellissä ja Apache Sparkin käytettävissä, on myös pakollista suorittaa seuraava komento, jotta viimeaikaiset muutokset tulevat voimaan.

source ~/.profile

Kaikki kipinään liittyvät binaarit palvelujen käynnistämiseksi ja pysäyttämiseksi ovat sbin-kansiossa.

ls -l /opt/spark

Käynnistä Apache Spark Ubuntussa

Suorita seuraava komento käynnistääksesi Spark-pääpalvelun ja orjapalvelun.

start-master.sh
start-workers.sh spark://localhost:7077

Kun palvelu on käynnistetty, siirry selaimeen ja kirjoita seuraava URL-käyttökipinäsivu. Sivulta näet, että isäntä- ja orjapalveluni on aloitettu.

http://localhost:8080/
OR
http://127.0.0.1:8080

Voit myös tarkistaa, toimiiko spark-shell hyvin käynnistämällä spark-shell-komennon.

spark-shell

Siinä se tälle artikkelille. Tulemme saamaan sinut pian toiseen mielenkiintoiseen artikkeliin.