Apache Sparkin asentaminen ja asentaminen Ubuntu/Debianiin
Apache Spark on avoimen lähdekoodin hajautettu laskennallinen kehys, joka on luotu tarjoamaan nopeammat laskennalliset tulokset. Se on muistissa oleva laskennallinen moottori, eli tiedot käsitellään muistissa.
Spark tukee erilaisia sovellusliittymiä suoratoistoon, kaavioiden käsittelyyn, SQL: ään ja MLLibiin. Se tukee myös Java-, Python-, Scala- ja R-kieliä ensisijaisina kielinä. Spark asennetaan enimmäkseen Hadoop-klustereihin, mutta voit myös asentaa ja konfiguroida kipinän itsenäisessä tilassa.
Tässä artikkelissa kerrotaan, kuinka Apache Spark asennetaan Debian- ja Ubuntu-pohjaisiin jakeluihin.
Asenna Java ja Scala Ubuntuun
Apache Sparkin asentaminen Ubuntuun edellyttää, että koneellesi on asennettu Java ja Scala. Suurin osa nykyaikaisista jakeluista on oletusarvoisesti asennettu Java, ja voit vahvistaa sen seuraavalla komennolla.
$ java -version
Jos lähtöä ei ole, voit asentaa Java-sovelluksen käyttämällä artikkeliamme siitä, miten Java asennetaan Ubuntuun, tai yksinkertaisesti suorittamalla seuraavat komennot asentaaksesi Java Ubuntu- ja Debian-pohjaisiin jakeluihin.
$ sudo apt update $ sudo apt install default-jre $ java -version
Seuraavaksi voit asentaa Scalan apt-arkistosta suorittamalla seuraavat komennot etsimällä scalaa ja asentamalla sen.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Varmista Scalan asennus suorittamalla seuraava komento.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Asenna Apache Spark Ubuntuun
Siirry nyt viralliseen wget-komentoon ladata tiedosto suoraan päätelaitteeseen.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Avaa nyt päätelaite ja vaihda ladatun tiedoston paikkaan ja suorita seuraava komento purkaa Apache Spark -tarkistustiedosto.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Siirrä lopuksi purettu Spark-hakemisto/opt-hakemistoon.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Määritä ympäristömuuttujat Sparkille
Nyt sinun on asetettava muutama ympäristömuuttuja .profile-tiedostoon ennen kipinän käynnistämistä.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Varmistaaksesi, että nämä uudet ympäristömuuttujat ovat saavutettavissa kuoressa ja Apache Sparkin käytettävissä, on myös pakollista suorittaa seuraava komento, jotta viimeisimmät muutokset tulevat voimaan.
$ source ~/.profile
Kaikki kipinöihin liittyvät binäärit palvelujen käynnistämiseksi ja lopettamiseksi ovat sbin-kansiossa.
$ ls -l /opt/spark
Käynnistä Apache Spark Ubuntussa
Suorita seuraava komento aloittaaksesi Spark-pääpalvelun ja orjapalvelun.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Kun palvelu on käynnistetty, siirry selaimeen ja kirjoita seuraava URL-käytön kipinasivu. Sivulta näet isäntä- ja orjapalveluni käynnistyneen.
http://localhost:8080/ OR http://127.0.0.1:8080
Voit myös tarkistaa, toimiiko kipinä-kuori, käynnistämällä kipinä-komento.
$ spark-shell
Se on tässä artikkelissa. Saamme sinut kiinnostavaan artikkeliin hyvin pian.