Introducere în ecosistemul Hadoop

Apache Hadoop este un sistem open source pentru a stoca și prelucra în mod fiabil o mulțime de informații pe multe computere de marfă. Hadoop a fost scris pentru prima dată într-o lucrare și publicat în octombrie 2013 sub numele de „Sistem de fișiere Google”. Doug Cutting, care lucra la Yahoo la acea vreme, a introdus numele ca Hadoop Ecosystem pe baza numelui de elefant al jucăriei fiului său. Dacă luăm în considerare principalul nucleu al Apache Hadoop, atunci în primul rând poate lua în considerare partea de stocare, cunoscută sub numele de Hadoop Distributed File System (HDFS), și în al doilea rând partea de procesare, cunoscută sub numele de Map Map Reduce Programming. Hadoop împarte de fapt un singur fișier uriaș și le stochează în mai multe noduri pe întregul cluster.

Conceptul de ecosistem Hadoop

Cadrul Apache Hadoop deține în principal sub module:

  1. Hadoop Common: conține toate bibliotecile și utilitățile necesare pentru utilizarea modulului Hadoop.
  2. Sistem de fișiere distribuite Hadoop (HDFS): este unul dintre sistemele de fișiere distribuite care ajută la stocarea de date uriașe în mașini multiple sau de marfă. De asemenea, oferă o utilitate mare în caz de lățime de bandă, în mod normal, furnizează lățime de bandă foarte mare într-un tip de agregat pe un cluster.
  3. Hadoop Fire: a fost introdus în 2012. Este introdus în principal în gestionarea resurselor pe toate sistemele din mărfuri, chiar și într-un cluster. Pe baza capacității resurselor, a distribuit sau programat aplicația utilizatorului conform cerințelor.
  4. Hadoop MapReduce: ajută în principal la procesarea datelor la scară largă prin metodologia de programare pentru reducerea hărții.

Apache Hadoop ajută întotdeauna la reducerea costurilor IT în ceea ce privește procesarea și stocarea inteligentă a datelor uriașe. Deoarece Apache Hadoop este o sursă deschisă, iar hardware-ul este foarte frecvent disponibil, ne ajută întotdeauna să gestionăm o reducere corespunzătoare a costurilor IT.

Software Open Source + Hardware de mărfuri = Reducerea costurilor IT

De exemplu, dacă vom lua în considerare primirea zilnică a 942787 de fișiere și directoare, care necesită 4077936 blocuri, în total 5020723 blocuri. Deci, dacă am configurat cel puțin 1, 46 PB capacitate, atunci pentru manipularea peste sarcină, sistemul de fișiere distribuit va folosi 1, 09 PB, adică aproape 74, 85% din capacitatea totală configurată, în timp ce avem în vedere 178 noduri vii și 24 noduri moarte.

Ecosistemul Hadoop proiectat în principal pentru stocarea și procesarea datelor mari, care au, în mod normal, unele caracteristici cheie, precum mai jos:

  • Volum

Volumul reprezintă mărimea datelor stocate și generate efectiv. Depinde de dimensiunea datelor, s-a stabilit că setul de date este mare sau nu.

  • varietate

Soiul reprezintă natura, structura și tipul de date care sunt utilizate.

  • Viteză

Viteza reprezintă viteza datelor stocate și generate într-un anumit flux de proces de dezvoltare.

  • veridicitate

Veracity semnifică calitatea datelor care au fost capturate și ajută, de asemenea, analiza datelor să atingă ținta dorită.

HDFS este conceput în principal pentru a stoca o cantitate foarte mare de informații (terabyte sau petabytes) pe un număr mare de mașini dintr-un cluster. Întotdeauna menținerea unor caracteristici comune, cum ar fi fiabilitatea datelor, rulează pe hardware-ul mărfii, folosind blocuri pentru a stoca un fișier sau o parte din fișierul respectiv, utilizând modelul „scrie odată citit mulți”.

HDFS urmând arhitectura de mai jos cu conceptul de Nume de nume și Nod de date.

Responsabilitatea Nodului Nume (Master):

- administrează spațiul de nume al sistemului de fișiere

- menține configurația clusterului

- Responsabil de gestionarea replicării

Responsabilitatea nodului de date (Slaves):

- Stocați datele în sistemul de fișiere local

- Raportați periodic nodul cu ajutorul bătăilor inimii

Operație de scriere HDFS:

Hadoop urmează pașii de mai jos pentru a scrie orice fișier mare:

  1. Creați fișier și actualizați imaginea FS după primirea unei cereri de scriere a fișierului de la orice client HDFS.
  2. Obțineți informații despre locația blocului sau despre nodul de date de la nodul de nume.
  3. Scrieți pachetul într-un nod de date individual în mod paralel.
  4. Recunoașteți finalizarea sau acceptarea scrierii de pachete și trimiteți informații înapoi clientului Hadoop.

Conductă de replicare bloc HDFS:

  1. Clientul preia o listă de date din Namenode care va găzdui o replică a blocului respectiv
  2. Apoi, clientul curge blocul de date la primul Datanode
  3. Primul Datanode primește un bloc, îl scrie și îl transferă la următorul nod de date din conductă
  4. Când toate replicile sunt scrise, Clientul trece la următorul bloc din fișier

HDFS Toleranță la erori:

Un nod de date a fost redus brusc, în acest caz, HDFS are capacitatea de a gestiona acel scenariu automat. În primul rând, tot nodul de nume este întotdeauna primit o singură bătăi de inimă de la fiecare nod de date, dacă cumva a pierdut o bătăi de inimă dintr-un nod de date, luând în considerare același nod de date ca în jos, să ia imediat măsuri pentru a replica automat toate blocurile de pe nodurile rămase imediat pentru a satisface replicarea. factor.

Dacă nodul nume detectează un nou nod de date disponibil în cluster, acesta reechilibrează imediat toate blocurile, inclusiv nodul de date adăugat.

Acum, cumva, pierderea nodului Nume sau a eșuat, în acest caz, precum și nodul de rezervă care deține o imagine FS a nodului de nume redă imediat toată operația FS și crește nodul după cerință. Dar, în acest caz, este necesară o intervenție manuală și întregul cadru ecosistem Hadoop va fi de două ori redus pentru a configura din nou un nou nume de nume. Așadar, în acest caz, nodul de nume poate fi un singur punct de eșec, pentru a evita acest scenariu HDFS Federation introducerea mai multor cluster-uri setate cu nume de nod, iar ZooKeeper poate gestiona imediat un singur nod alternativ, conform cerințelor.

Exemple de ecosistem Hadoop

Exemplul complet de ecosistem Hadoop poate fi explicat corect în figura de mai jos:

Datele pot proveni de la orice fel de sursă, cum ar fi Data Warehouse, Depozitul de documente gestionate, Partajarea fișierelor, baza de date Normal RDMS sau surse cloud sau externe. Toate aceste date au ajuns la HDFS în structură sau nestructura sau semistructurată. HDFS stochează toate aceste date ca mod distribuit, înseamnă stocarea în sistem de mărfuri distribuite foarte inteligent.

Concluzie

Ecosistemul Hadoop proiectat în principal pentru stocarea și procesarea datelor uriașe care ar fi trebuit să prezinte oricare dintre cei doi factori între volum, viteză și varietate. Stochează date într-un sistem distribuit de procesare care rulează pe hardware-ul mărfii. Având în vedere procesul complet de ecosistem Hadoop, HDFS distribuie blocurile de date, iar Map Reduce oferă cadrul de programare pentru a citi datele dintr-un fișier stocat în HDFS.

Articole recomandate:

Acesta a fost un ghid pentru Ecosistemul Hadoop. Aici am discutat conceptul de bază despre Hadoop Ecosystem, este arhitectura, operațiunile HDFS, exemple, toleranță la defect la HDFS, etc. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Utilizările Hadoop în lumea reală
  2. Hadoop vs Splunk
  3. Cariera în Hadoop
  4. Hadoop vs SQL Performance

Categorie: