Diferența dintre stup și Impala

Hive este un proiect software de depozit de date construit pe partea de sus a APACHE HADOOP dezvoltat de echipa lui Jeff la Facebook cu o versiune stabilă actuală de 2.3.0 lansată. Se folosește pentru rezumarea datelor Big și face ușor interogarea și analiza. Apache Hive este un standard eficient pentru SQL-in Hadoop. Impala este un motor de interogare SQL care procesează paralel, care rulează pe Apache Hadoop și îl folosește pentru procesarea datelor care stochează în HBase (baza de date Hadoop) și în sistemul de fișiere distribuite Hadoop. Impala este un produs open-source pentru procesarea paralelă (MPP) motor de interogare SQL pentru datele stocate într-un cluster de sistem local care rulează pe Apache Hadoop. Apache Hive și Impala sunt ambele părți-cheie ale sistemului Hadoop.

Deci, să studiem în detaliu atât stupul cât și Impala:

STUP

  • Apache Hive ajută la analizarea setului de date uriaș stocat în sistemul de fișiere Hadoop (HDFS) și în alte sisteme de fișiere compatibile.
  • Hive QL - Pentru interogarea datelor stocate în Hadoop Cluster .
  • Exploatează scalabilitatea Hadoop prin traducere .
  • Hive NU este o bază de date completă .
  • Nu oferă actualizări la nivel de înregistrare .
  • Hadoop este un sistem orientat pe lot .
  • Interogările stupului au latență mare datorită MapReduce .
  • Stupul nu oferă caracteristici de este aproape de OLAP .
  • Cel mai potrivit pentru aplicațiile de depozitare de date .
  • Execuție de interogare prin MapReduce .
  • limbajul de interogare poate fi utilizat cu funcții scalare personalizate (UDF's), agregări (UDAF) și funcții de tabel (UDTF's) .
  • Hive oferă, de asemenea, indexarea pentru a accelera, tipul de indici incluzând indexul de compactare și bitmap de la 0, 10, sunt planificate mai multe tipuri de index.
  • Tipurile de stocare acceptate de Hive sunt RCfile, HBase, ORC și Text simplu .
  • Interogări de tip SQL (Hive QL), care sunt implicit convertite în MapReduce sau Tez, sau joburi Spark .
  • În mod implicit, Hive stochează metadatele într-o bază de date Apache Derby încorporată .

IMPALA

  • Impala este un motor de interogare care rulează pe Hadoop . Distribuția publică a testelor beta a fost anunțată în octombrie 2012 și a devenit în general disponibilă în mai 2013.
  • Suporta stocarea HDFS Apache HBase și Amazon S3 .
  • Citește formate de fișiere Hadoop, inclusiv fișier text, parchet, Avro, RCFile, LZO și secvență .
  • Suporta Hadoop Security (autentificare Kerberos) .
  • Utilizează metadate, driver ODBC și sintaxă SQL de la Apache Hive .
  • Suporta mai multe codec-uri de compresie:

(a) Snappy (recomandat pentru echilibrul său efectiv între raportul de compresie și viteza de decompresie),

(b) Gzip (recomandat la atingerea celui mai înalt nivel de compresie),

(c) Deflate (nu sunt acceptate pentru fișierele text), Bzip2, LZO (numai pentru fișierele text);

  • Vă permite să interogați cu privire la structuri cuibare, inclusiv hărți, structuri și matrice.
  • Permite interogări simultane cu mai mulți utilizatori și permite, de asemenea, controlul admiterii pe baza prioritizării și în așteptarea interogărilor.

Comparații față în față între stup și impala (infografie)

Mai jos este Top 20 de comparație între Hive și Impala

Diferența cheie între stup și Impala

Diferențele dintre Hive și Impala sunt explicate în punctele prezentate mai jos:

  • Hive este dezvoltat de echipa lui Jeff la Facebook, dar Impala este dezvoltat de Apache Software Foundation .
  • Hive acceptă formatul fișierului cu format columnar (ORC) cu compresie Zlib, dar Impala acceptă formatul Parquet cu compresie rapidă .
  • Hive este scris în Java, dar Impala este scris în C ++.
  • Viteza de procesare a interogărilor în stup este lentă, dar Impala este de 6-69 ori mai rapidă decât stupul .
  • În stup, latența este ridicată, dar în impala latența este scăzută .
  • Hive acceptă stocarea fișierului RC și ORC, dar suportul de stocare Impala este Hadoop și Apache HBase .
  • Hive generează expresie de interogare la timp de compilare, dar în generarea codului Impala pentru '' bucle mari '' se întâmplă în timpul rulării .
  • Stupul nu acceptă procesarea paralelă, dar Impala acceptă procesarea paralelă.
  • Hive acceptă MapReduce, dar Impala nu acceptă MapReduce .
  • În Hive, nu există nicio caracteristică de securitate, dar Impala acceptă autentificarea Kerberos .
  • Într-o actualizare a oricărui proiect în care compatibilitatea și viteza ambele sunt importante Hive este o alegere ideală, dar pentru un proiect nou, Impala este alegerea ideală .
  • Stupul este tolerant la erori, dar Impala nu suportă toleranța la erori .
  • Stupul acceptă tipuri complexe, dar Impala nu acceptă tipuri complexe .
  • Hive este bazat pe lot Hadoop MapReduce, dar Impala este baza de date MPP .
  • Hive nu acceptă calculul interactiv, dar Impala acceptă calculul interactiv .
  • Interogarea stupului are o problemă de „pornire la rece”, dar în procesul daemonului Impala sunt pornite chiar la momentul de pornire .
  • Managerul resurselor stupului este YARN (încă un negociator de resurse), dar în managerul de resurse Impala este nativ * YARN .
  • Distribuțiile Hive sunt toate distribuția Hadoop, Hortonworks (Tez, LLAP), dar în distribuția Impala sunt Cloudera MapR (* Amazon EMR) .
  • Publicul stup este ingineri de date, dar în audiența Impala sunt analisti de date / oameni de știință de date.
  • Randamentul stupului este mare, dar în Impala, debitul este redus .

Tabelul de comparare Hive vs Impala

Serial nr.Baza pentru comparațieStupImpala
1.Dezvoltat deFacebookSoftware Apache
fundație
2.Tipul fisierului
  • Fișier de secvență.
  • Fisier text.
  • Format columnar (ORC) de rând optimizat cu compresie Zlib.
  • Format de fișier RC.
  • Formatul de parchet cu compresie snappy.
  • Avro
  • LZO
  • Fișier de secvență.
3.LimbaScris în JAVAScris în C ++
4.Viteză de procesareStupul este lentImpala este rapidă
5.LatențăÎnaltScăzut
6.Suport de stocareDosar RC, ORCHadoop, Apache HBase
7.Conversia coduluiGenerează expresia de interogare în timp de compilareGenerarea de cod se întâmplă la timpul de rulare.
8.Suportă procesarea paralelăNuda
9.Asistență MapReducedaNu
10.Securitatea HadoopNuAcceptă autentificarea Kerberos.
11.folosireIdeal pentru gradarea proiectelorIdeal pentru demararea proiectului nou.
12.Cu toleranță la eroriStupul este tolerant la erori.Nu acceptă toleranța la defecțiuni.
13.Tipuri complexeStupul suportă tipuri complexe.Impala nu suportă tipuri complexe.
14.Tip de bază de dateHive este un Hadoop MapReduce pe bază de lot.Este baza de date MPP
15.Calculatoare interactiveNu acceptă calculul interactiv.Suportă calculul interactiv.
16.ExecuţieInterogarea stupului are o problemă cu „Pornirea la rece”Procesul Impala începe întotdeauna la momentul de pornire al demoniilor.
17.Managementul resurselorFIRENativ * FIL
18.DistributiiHIVE - toate distribuțiile Hadoop, Hortonworks (Tez, LLAP)Cloudera MapR,
(* EMR Amazon)
19.PublicIngineri de dateAnalist de date / oameni de știință de date
20.tranzitatăDebit marePutere redusă

Concluzie - Hive vs Impala

În acest articol, am încercat să arătăm că ceea ce sunt două tehnologii și anume Hive și Impala și, de asemenea, diferența de bază între aceste tehnologii. În termeni practice, putem spune că Hive și Impala nu sunt concurenții, ci fac parte din aceeași fundație, care este cunoscută sub numele de MapReduce pentru executarea interogărilor, utilizarea ambelor poate crea diferența. În funcție de nevoia noastră, îl putem folosi împreună sau cel mai bun în funcție de compatibilitate, nevoie și performanță. Limbajul de interogare Hive este QL Hive, care este un limbaj foarte versatil și universal, în timp ce Impala este intensiv în memorie și nu funcționează bine pentru a prelucra exemple de operații de date grele. Dacă în proiectul dvs. lucrul este legat de procesarea lotului pentru o cantitate mare de date, stupul se va îmbunătăți în acest caz și dacă munca dvs. este legată de procesul în timp real al unei interogări ad-hoc pentru date, atunci Impala va fi mai bună în acest caz.

Articol recomandat

Acesta a fost un ghid pentru Hive Vs Impala, semnificația lor, comparația dintre cap și cap, diferențele cheie, tabelul de comparare și concluzii. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Apache Hive vs Apache Spark SQL - 13 uimitoare diferențe
  2. Hive VS HUE - Top 6 comparații utile de învățat
  3. Apache Pig vs Apache Hive - Top 12 diferențe utile
  4. Hadoop vs Hive - Aflați cele mai bune diferențe
  5. Utilizarea funcției ORDER BY în stup

Categorie: