Introducere în Instrumentele Hadoop

Instrumentele Hadoop sunt cadrul care este utilizat pentru procesarea unei cantități mari de date. Aceste date sunt distribuite pe un cluster și se face calcularea distribuită. Datele sunt stocate în blocuri de dimensiune 128Mb și pentru a prelucra și a obține o putere de rezultat a Map Reduce. În mod tradițional, Map and Reduce au fost scrise în Java, dar a fost greu să încrucișați resursele care lucrează în depozitul de date, deoarece nu aveau experiență în el. SQL este bine cunoscut și este ușor de utilizat, așa că, găsind o modalitate de a scrie un SQL precum o interogare care este convertită în Map and Reduce, aceasta a fost fondată de Facebook și mai târziu donată către Apache, acest instrument este cunoscut sub numele de Hive. De asemenea, Yahoo a venit cu un instrument numit Pig care este convertit în Map Reduce la executare, în mod similar, avem Sqoop și flume pentru mișcare de date și instrumente de injecție. HBase este un instrument de sistem de gestionare a bazelor de date.

Caracteristici ale instrumentelor Hadoop

  1. Stup
  2. Porc
  3. Sqoop
  4. HBase
  5. Ingrijitor zoo
  6. Canal

Acum vom vedea funcțiile cu o scurtă explicație.

1. stup

Apache Hive a fost fondată de Facebook și ulterior donată fundației Apache, care este o infrastructură de depozit de date, facilitează scrierea SQL precum Query numită HQL sau HiveQL. Aceste interogări sunt transformate intern în lucrări Map Reduce și procesarea se face folosind calcularea distribuită a lui Hadoop. Poate prelucra datele care se află în HDFS, S3 și toată stocarea compatibilă cu Hadoop. Putem profita de facilitățile oferite de Map Reduce ori de câte ori găsim ceva dificil de implementat în Hive, implementând funcții definite de utilizator. Acesta permite utilizatorului să înregistreze UDF și să-l folosească în joburi.

Caracteristici ale stupului

  • Hive poate procesa mai multe tipuri de formate de fișiere, cum ar fi Sequence File, ORC File, TextFile etc.
  • Partiționarea, găleata și indexarea sunt disponibile pentru o execuție mai rapidă.
  • Datele comprimate pot fi, de asemenea, încărcate într-un tabel stup.
  • Tabelele gestionate sau interne și tabelele externe sunt caracteristicile proeminente ale Hive.

2. Porcul

Yahoo a dezvoltat Apache Pig pentru a avea un instrument suplimentar pentru a consolida Hadoop, având un mod ad-hoc de implementare a Map Reduce. Pig are un motor numit Pig Engine care transformă scripturile în Map Reduce. Pig este un limbaj de script, scripturile scrise pentru Pig sunt în PigLatin, la fel ca Hive și aici putem avea UDF pentru a îmbunătăți funcționalitatea. Sarcinile din Pig sunt optimizate automat, astfel încât programatorii nu trebuie să-și facă griji. Pig Handles atât date structurate, cât și date nestructurate.

Caracteristicile porcului

  • Utilizatorii pot avea propriile lor funcții de a face un tip special de prelucrare a datelor.
  • Este ușor să scrii coduri în Pig comparativ, de asemenea, lungimea codului este mai mică.
  • Sistemul poate optimiza automat execuția.

3. Sqoop

Sqoop este utilizat pentru a transfera date de la HDFS la RDBMS și invers. Putem trage datele către HDFS din RDBMS, Hive, etc. și le putem prelucra și exporta înapoi la RDBMS. Putem adăuga datele de mai multe ori într-un tabel. De asemenea, putem crea o lucrare Sqoop și o putem executa 'de' de mai multe ori.

Caracteristici Sqoop

  • Sqoop poate importa toate tabele simultan în HDFS.
  • Putem încorpora interogări SQL, precum și condiții la importul de date.
  • Putem importa date în stup în cazul în care un tabel este prezent de la HDFS.
  • Numărul de mapatori poate fi controlat, adică execuția paralelă poate fi controlată prin specificarea numărului de mapatori.

4. HBase

Sistemul de gestionare a bazelor de date pe HDFS este denumit HBase. HBase este o bază de date NoSQL, care este dezvoltată pe partea de sus a HDFS. HBase nu este o bază de date relațională, nu acceptă limbaje de interogare structurate. HBase utilizează procesarea distribuită a HDFS. Poate avea tabele mari cu milioane și milioane de înregistrări.

Caracteristici ale HBase

  • HBase oferă scalabilitate atât în ​​mod liniar, cât și modular.
  • API-urile din JAVA pot fi utilizate pentru accesul clientului.
  • HBase oferă un shell pentru executarea întrebărilor.

5. Zookeeper

Apache Zookeeper este un serviciu de menținere a configurației centralizate, păstrează o înregistrare de informații, denumire, oferă, de asemenea, sincronizare distribuită și servicii de grup. Zookeeper este un depozit centralizat care este utilizat de aplicațiile distribuite pentru a pune și obține date despre acesta. De asemenea, ajută la gestionarea nodurilor, adică la alăturarea sau lăsarea unui nod în cluster. Oferă un registru de date extrem de fiabil atunci când câteva dintre noduri sunt reduse.

Caracteristici ale Zookeeper

  • Performanța poate fi crescută prin distribuirea sarcinilor care se realizează prin adăugarea mai multor mașini.
  • Ascunde complexitatea distribuției și se prezintă ca o singură mașină.
  • Eșecul câtorva sisteme nu afectează întregul sistem, dar dezavantajul este că poate duce la pierderea parțială a datelor.
  • Oferă Atomicity, adică tranzacția este reușită sau eșuată, dar nu este într-o stare imperfectă.

6. Flume

Apache Flume este un instrument care asigură ingestia de date, care poate colecta, agrega și transporta o cantitate imensă de date de la surse diferite la un HDFS, HBase, etc. Flume este foarte fiabil și poate fi configurat. Acesta a fost conceput pentru a ingera date de streaming de pe serverul web sau de la evenimentele de la HDFS, de exemplu, poate ingera date twitter pe HDFS. Flume poate stoca date în oricare dintre magazinele de date centralizate, cum ar fi HBase / HDFS. Dacă există o situație în care producția de date este la un ritm mai mare comparativ cu viteza datelor poate fi scrisă atunci flume acționează ca mediator și asigură fluxurile de date constant.

Caracteristici ale Flume

  • Poate ingera date de servere web împreună cu datele de eveniment, cum ar fi datele de pe social media.
  • Tranzacțiile cu flume sunt bazate pe canal, adică sunt menținute două mesaje, unul este pentru trimitere și unul pentru recepție.
  • O scalare orizontală este posibilă într-o cană.
  • Este tolerant foarte greșit, deoarece rutele contextuale sunt prezente într-un flume.

Concluzie - Instrumente Hadoop

Aici, în acest articol, am aflat despre câteva dintre instrumentele Hadoop și despre modul în care acestea sunt utile în lumea datelor. Am văzut Hive și Pig, care este folosit pentru a interoga și analiza date, pentru a muta date și pentru a ingera date de streaming pe HDFS.

Articole recomandate

Acesta a fost un ghid pentru Instrumentele Hadoop. Aici discutăm diferite instrumente de Hadoop cu caracteristicile lor. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Alternative Hadoop
  2. Baza de date Hadoop
  3. Funcții cu șiruri SQL
  4. Ce este Big Data

Categorie: