Apache Sparkin asentaminen ja asentaminen Ubuntu/Debianiin


Apache Spark on avoimen lähdekoodin hajautettu laskennallinen kehys, joka on luotu tarjoamaan nopeammat laskennalliset tulokset. Se on muistissa oleva laskennallinen moottori, eli tiedot käsitellään muistissa.

Spark tukee erilaisia sovellusliittymiä suoratoistoon, kaavioiden käsittelyyn, SQL: ään ja MLLibiin. Se tukee myös Java-, Python-, Scala- ja R-kieliä ensisijaisina kielinä. Spark asennetaan enimmäkseen Hadoop-klustereihin, mutta voit myös asentaa ja konfiguroida kipinän itsenäisessä tilassa.

Tässä artikkelissa kerrotaan, kuinka Apache Spark asennetaan Debian- ja Ubuntu-pohjaisiin jakeluihin.

Asenna Java ja Scala Ubuntuun

Apache Sparkin asentaminen Ubuntuun edellyttää, että koneellesi on asennettu Java ja Scala. Suurin osa nykyaikaisista jakeluista on oletusarvoisesti asennettu Java, ja voit vahvistaa sen seuraavalla komennolla.

$ java -version

Jos lähtöä ei ole, voit asentaa Java-sovelluksen käyttämällä artikkeliamme siitä, miten Java asennetaan Ubuntuun, tai yksinkertaisesti suorittamalla seuraavat komennot asentaaksesi Java Ubuntu- ja Debian-pohjaisiin jakeluihin.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Seuraavaksi voit asentaa Scalan apt-arkistosta suorittamalla seuraavat komennot etsimällä scalaa ja asentamalla sen.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Varmista Scalan asennus suorittamalla seuraava komento.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Asenna Apache Spark Ubuntuun

Siirry nyt viralliseen wget-komentoon ladata tiedosto suoraan päätelaitteeseen.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Avaa nyt päätelaite ja vaihda ladatun tiedoston paikkaan ja suorita seuraava komento purkaa Apache Spark -tarkistustiedosto.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Siirrä lopuksi purettu Spark-hakemisto/opt-hakemistoon.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Määritä ympäristömuuttujat Sparkille

Nyt sinun on asetettava muutama ympäristömuuttuja .profile-tiedostoon ennen kipinän käynnistämistä.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Varmistaaksesi, että nämä uudet ympäristömuuttujat ovat saavutettavissa kuoressa ja Apache Sparkin käytettävissä, on myös pakollista suorittaa seuraava komento, jotta viimeisimmät muutokset tulevat voimaan.

$ source ~/.profile

Kaikki kipinöihin liittyvät binäärit palvelujen käynnistämiseksi ja lopettamiseksi ovat sbin-kansiossa.

$ ls -l /opt/spark

Käynnistä Apache Spark Ubuntussa

Suorita seuraava komento aloittaaksesi Spark-pääpalvelun ja orjapalvelun.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Kun palvelu on käynnistetty, siirry selaimeen ja kirjoita seuraava URL-käytön kipinasivu. Sivulta näet isäntä- ja orjapalveluni käynnistyneen.

http://localhost:8080/
OR
http://127.0.0.1:8080

Voit myös tarkistaa, toimiiko kipinä-kuori, käynnistämällä kipinä-komento.

$ spark-shell

Se on tässä artikkelissa. Saamme sinut kiinnostavaan artikkeliin hyvin pian.