Kuinka asentaa Hadoop Single Node Cluster (Pseudonode) CentOS 7:ään


Hadoop on avoimen lähdekoodin kehys, jota käytetään laajasti Bigdatan käsittelyyn. Suurin osa Bigdata/Data Analytics -projekteista rakennetaan Hadoop Eco-Systemin päälle. Se koostuu kahdesta kerroksesta, joista toinen on tietojen tallentamiseen ja toinen tietojen käsittelyyn.

Tallennustilasta huolehtii sen oma tiedostojärjestelmä nimeltä HDFS (Hadoop Distributed Filesystem) ja Käsittely hoitaa YARN (Yet Another Resource Negotiator). Mapreduce on Hadoop Eco-Systemin oletuskäsittelymoottori.

Tässä artikkelissa kuvataan Pseudonode -asennuksen Hadoop asennusprosessi, jossa kaikki daemonit (JVM:t) asennetaan Single Node Cluster CentOS 7 -käyttöjärjestelmässä.

Tämä on tarkoitettu pääasiassa aloittelijoille Hadoopin oppimiseen. Reaaliajassa Hadoop asennetaan monisolmuklusterina, jossa tiedot jaetaan palvelimien kesken lohkoina ja työ suoritetaan rinnakkain.

Edellytykset

  • CentOS 7 -palvelimen minimaalinen asennus.
  • Java v1.8 -julkaisu.
  • Hadoop 2.x vakaa julkaisu.

Tällä sivulla

  • Kuinka asentaa Java CentOS 7:ään
  • Määritä salasanaton kirjautuminen CentOS 7:ssä
  • Kuinka asentaa Hadoop Single Node CentOS 7:ään
  • Hadoopin määrittäminen CentOS 7: ssä
  • HDFS-tiedostojärjestelmän alustaminen NameNoden kautta

Javan asentaminen CentOS 7:ään

1. Hadoop on ekojärjestelmä, joka koostuu Javasta. Tarvitsemme Javan asennettuna järjestelmäämme, jotta voimme asentaa Hadoopin.

yum install java-1.8.0-openjdk

2. Tarkista seuraavaksi järjestelmään asennettu Javan versio.

java -version

Määritä salasanaton kirjautuminen CentOS 7:ssä

Koneellamme on oltava ssh-asetukset. Hadoop hallitsee solmut SSH:n avulla. Pääsolmu käyttää SSH-yhteyttä orjasolmujen yhdistämiseen ja toimintojen, kuten käynnistyksen ja lopettamisen, suorittamiseen.

Meidän on määritettävä salasanaton ssh, jotta isäntä voi kommunikoida orjien kanssa ssh:n avulla ilman salasanaa. Muussa tapauksessa salasana on annettava jokaiselle yhteyden muodostamiselle.

Tässä yksittäisessä solmussa Master-palvelut (Namenode, Secondary Namenode & Resource Manager) ja Slave<-palvelut (Datanode ja Nodemanager) toimivat erillisinä JVM:inä. Vaikka se on yksisolmu, meillä on oltava salasanaton ssh, jotta voimme tehdä Master-yhteyden orjaksi ilman todennusta.

3. Määritä salasanaton SSH-kirjautuminen käyttämällä seuraavia palvelimen komentoja.

ssh-keygen
ssh-copy-id -i localhost

4. Kun olet määrittänyt salasanattoman SSH-kirjautumisen, yritä kirjautua uudelleen, yhteys muodostetaan ilman salasanaa.

ssh localhost

Hadoopin asentaminen CentOS 7:ään

5. Siirry Apache Hadoopin verkkosivustolle ja lataa Hadoopin vakaa julkaisu käyttämällä seuraavaa wget-komentoa.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Lisää seuraavaksi Hadoop-ympäristömuuttujat ~/.bashrc-tiedostoon kuvan mukaisesti.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Kun olet lisännyt ympäristömuuttujat tiedostoon ~/.bashrc, lähde tiedostosta ja varmista Hadoop suorittamalla seuraavat komennot.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

Hadoopin määrittäminen CentOS 7:ssä

Meidän on määritettävä alla olevat Hadoop-määritystiedostot, jotta ne mahtuvat koneellesi. Hadoopissa jokaisella palvelulla on oma porttinumeronsa ja oma hakemistonsa tietojen tallentamiseen.

  • Hadoop-määritystiedostot – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Ensin meidän on päivitettävä JAVA_HOME- ja Hadoop-polku hadoop-env.sh-tiedostossa kuvan osoittamalla tavalla. .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Kirjoita seuraava rivi tiedoston alkuun.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Muokkaa seuraavaksi core-site.xml-tiedostoa.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Liitä seuraava <configuration>-tunnisteiden väliin kuvan mukaisesti.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Luo alla olevat hakemistot tecmint-käyttäjän kotihakemistoon, joita käytetään NN- ja DN-tallennustilassa.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Muokkaa seuraavaksi tiedostoa hdfs-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Liitä seuraava <configuration>-tunnisteiden väliin kuvan mukaisesti.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Muokkaa mapred-site.xml-tiedostoa uudelleen.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Liitä seuraava <configuration>-tunnisteiden väliin kuvan mukaisesti.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Muokkaa lopuksi yarn-site.xml-tiedostoa.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Liitä seuraava <configuration>-tunnisteiden väliin kuvan mukaisesti.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

HDFS-tiedostojärjestelmän alustaminen NameNoden kautta

13. Ennen kuin aloitat klusterin, meidän on alustettava Hadoop NN paikallisessa järjestelmässämme, johon se on asennettu. Yleensä se tehdään alkuvaiheessa ennen klusterin käynnistämistä ensimmäistä kertaa.

NN:n formatointi aiheuttaa tietojen menetyksen NN-metastoressa, joten meidän on oltava varovaisempia. Emme saa muotoilla NN-muotoa klusterin ollessa käynnissä, ellei sitä vaadita tarkoituksella.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. Käynnistä NameNode- ja DataNode-daemon: (portti 50070).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. Käynnistä ResourceManager- ja NodeManager-daemon: (portti 8088).

sbin/start-yarn.sh

16. Lopettaaksesi kaikki palvelut.

sbin/stop-dfs.sh
sbin/stop-dfs.sh
Yhteenveto

Yhteenveto
Tässä artikkelissa olemme käyneet läpi vaiheittaiset prosessit Hadoop Pseudonode (Yksi solmu) klusterin määrittämiseksi. Jos sinulla on perustiedot Linuxista ja noudatat näitä ohjeita, klusteri on UP-tilassa 40 minuutissa.

Tämä voi olla erittäin hyödyllistä aloittelijalle oppimisen aloittamisessa ja Hadoopin harjoittelussa, tai tätä Hadoopin vaniljaversiota voidaan käyttää kehitystarkoituksiin. Jos haluamme reaaliaikaisen klusterin, tarvitsemme joko vähintään 3 fyysistä palvelinta käsissämme tai meidän on tarjottava Cloud useiden palvelimien käyttöä varten.