Prezentare generală a Instalării Hadoop

Următorul articol, Install Hadoop oferă o prezentare a celor mai frecvente module cheie de cadru Hadoop și instalare pasivă pentru Hadoop. Apache Hadoop este o colecție de software care permite procesarea seturilor de date mari și stocarea distribuită într-un grup de diferite tipuri de sistem informatic. În prezent, Hadoop rămâne cea mai larg utilizată platformă de analiză pentru date mari („Sanchita Lobo, autor la Analytics Training Blog”).

Cadrul Hadoop

Cadrul Apache Hadoop este format din următoarele module cheie.

  • Apache Hadoop comun.
  • Sistem de fișiere distribuite Apache Hadoop (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop YARN (încă un Resource Manager).

Apache Hadoop comun

Modulul comun Apache Hadoop constă din bibliotecile partajate care sunt consumate în toate celelalte module, inclusiv gestionarea cheilor, pachetele I / O generice, bibliotecile pentru colectarea metrică și utilitățile pentru registru, securitate și streaming.

HDFS

HDFS se bazează pe sistemul de fișiere Google și este structurat pentru a rula pe hardware cu costuri reduse. HDFS este tolerant la defecțiuni și este proiectat pentru aplicații cu seturi de date mari.

MapReduce

MapReduce este un model inerent de programare paralel pentru procesarea datelor, iar Hadoop poate rula programe MapReduce scrise în diferite limbi, cum ar fi Java. MapReduce funcționează prin împărțirea procesării în faza de hartă și reduce faza.

APACHE Hadoop Fire

Apache Hadoop YARN este o componentă de bază și reprezintă tehnologia de gestionare a resurselor și de planificare a locurilor de muncă în cadrul procesului distribuit Hadoop.

În acest articol, vom discuta despre instalarea și configurația Hadoop 2.7.4 pe un singur nod de cluster și vom testa configurația rulând programul MapReduce numit wordcount pentru a număra numărul de cuvinte din fișier. Vom analiza mai departe câteva comenzi importante ale sistemului de fișiere Hadoop.

Pași pentru instalarea Hadoop

Următorul este un rezumat al sarcinilor implicate în configurația Apache Hadoop.

Sarcina 1: Prima sarcină din instalația Hadoop a inclus configurarea unui șablon de mașină virtuală care a fost configurat cu Cent OS7. Pachetele precum Java SDK 1.8 și Runtime Systems necesare pentru a rula Hadoop au fost descărcate și variabila de mediu Java pentru Hadoop a fost configurată prin editarea bash_rc.

Sarcina 2: pachetul Hadoop Release 2.7.4 a fost descărcat de pe site-ul apache și a fost extras în folderul opt. Apoi a fost redenumit Hadoop pentru acces facil.

Sarcina 3: Odată ce pachetele Hadoop au fost extrase, pasul următor a inclus configurarea variabilei de mediu pentru utilizatorul Hadoop urmată de configurarea fișierelor XML cu nodul Hadoop. În acest pas, NameNode a fost configurat în core-site.xml și DataNode a fost configurat în hdfs-site.xml. Managerul de resurse și managerul de noduri au fost configurate în yarn-site.xml.

Sarcina 4: Firewall-ul a fost dezactivat pentru a porni YARN și DFS. Comanda JPS a fost folosită pentru a verifica dacă demoni relevanți se execută pe fundal. Numărul de port pentru a accesa Hadoop a fost configurat la http: // localhost: 50070 /

Sarcina 5: Următorii câțiva pași au fost folosiți pentru verificarea și testarea Hadoop. Pentru aceasta, am creat un fișier de testare temporar în directorul de intrare pentru programul WordCount. Programul Map-reduce Hadoop-MapReduce-exemple2.7.4.jar a fost folosit pentru a număra numărul de cuvinte din fișier. Rezultatele au fost evaluate pe localhost și au fost analizate jurnalele cererii trimise. Toate cererile MapReduce trimise pot fi vizualizate pe interfața online, numărul de port implicit fiind 8088.

Sarcina 6: În sarcina finală, vom introduce câteva comenzi de bază ale sistemului de fișiere Hadoop și vom verifica utilizarea acestora. Vom vedea cum poate fi creat un director în cadrul sistemului de fișiere Hadoop, pentru a enumera conținutul unui director, dimensiunea acestuia în octeți. Vom vedea în continuare cum se șterge un director și un fișier specific.

Rezultate în Instalarea Hadoop

Următoarele arată rezultatele fiecăreia dintre sarcinile de mai sus:

Rezultatul sarcinii 1

O nouă mașină virtuală cu o imagine cenOS7 a fost configurată pentru a rula Apache Hadoop. Figura 1 arată modul în care a fost configurată imaginea CenOS 7 în mașina virtuală. Figura 1.2 prezintă configurația variabilă a mediului JAVA în .bash_rc.

Figura 1: Configurația mașinii virtuale

Figura 1.2: Configurația variabilă a mediului Java

Rezultatul sarcinii 2

Figura 2 prezintă sarcina desfășurată pentru extragerea pachetului Hadoop 2.7.4 din folderul pentru a opta.

Figura 2: Extragerea pachetului Hadoop 2.7.4

Rezultatul sarcinii 3

Figura 3 prezintă configurația pentru variabila de mediu pentru utilizatorul Hadoop, în figurile 3.1 - 3.4 este prezentată configurația pentru fișierele XML necesare pentru configurația Hadoop.

Figura 3: Configurarea variabilei de mediu pentru utilizatorul Hadoop

Figura 3.1: Configurarea core-site.xml

Figura 3.2: Configurarea hdfs-site.xml

Figura 3.3: Configurarea fișierului mapred-site.xml

Figura 3.4: Configurarea fișierului yarn-site.xml

Rezultatul sarcinii 4

Figura 4 arată utilizarea comenzii jps pentru a verifica că în timpul fundalului apar demoni relevanți, iar în figura următoare este afișată interfața utilizatorului online Hadoop.

Figura 4: comanda jps pentru a verifica daemonele care rulează.

Figura 4.1: Accesarea interfeței online Hadoop în portul http://hadoop1.example.com:50070/

Rezultatul sarcinii 5

Figura 5 arată rezultatul pentru programul MapReduce numit wordcount care numără numărul de cuvinte din fișier. Următorul cuplu de cifre afișează interfața de utilizator online a managerului de resurse YARN pentru sarcina trimisă.

Figura 5: MapReduce rezultatele programului

Figura 5.1: Cerere de redresare a hărții trimisă

Figura 5.2: Jurnalele pentru aplicația MapReduce trimisă.

Rezultatul sarcinii 6

Figura 6 arată cum să creați un director în sistemul de fișiere Hadoop și să efectuați o listă a directorului hdfs.

Figura 6: Crearea unui director în sistemul de fișiere Hadoop

Figura 6.1 arată cum să introduceți un fișier în sistemul de fișiere distribuit Hadoop, iar figura 6.2 arată fișierul creat în directorul dirB.

Figura 6.1: Crearea unui fișier în HDFS.

Figura 6.2: Nou fișier creat.

Următoarele cifre arată cum să enumerați conținutul anumitor directoare:

Figura 6.3: Conținutul dirA

Figura 6.4: Conținutul dirB

Următoarea figură arată cum pot fi afișate dimensiunile fișierului și ale directorului:

Figura 6.5: Afișați dimensiunea fișierului și a directorului.

Ștergerea unui director sau a unui fișier poate fi realizată cu ușurință prin comanda -rm.

Figura 6.6: Pentru a șterge un fișier.

Concluzie

Big Data a jucat un rol foarte important în conturarea pieței mondiale actuale. Cadrul Hadoop face viața analistului de date ușoară în timp ce lucrează la seturi de date mari. Configurația Apache Hadoop a fost destul de simplă, iar interfața de utilizator online a oferit utilizatorului mai multe opțiuni pentru a acorda și gestiona aplicația. Hadoop a fost utilizat masiv în organizații pentru stocarea datelor, analiza de învățare automată și pentru copierea de rezervă a datelor. Gestionarea unei cantități mari de date a fost destul de utilă datorită mediului distribuit Hadoop și MapReduce. Dezvoltarea Hadoop a fost destul de uimitoare în comparație cu bazele de date relaționale, deoarece nu au opțiuni de ajustare și performanță. Apache Hadoop este o soluție ușor de utilizat și low-cost pentru gestionarea și stocarea eficientă a datelor mari. HDFS merge, de asemenea, un drum lung în a ajuta la stocarea datelor.

Articole recomandate

Acesta este un ghid pentru Instalarea Hadoop. Aici vom discuta despre introducerea la Instal Hadoop, instalarea pas cu pas a Hadoop împreună cu rezultatele instalării Hadoop. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Introducere în streamingul Hadoop
  2. Ce este Hadoop Cluster și cum funcționează?
  3. Ecosistemul Apache Hadoop și componentele sale
  4. Care sunt alternativele Hadoop?

Categorie: