Hive vs Impala - 20 de lucruri cele mai utile pe care ar trebui să le știi

Diferența dintre stup și Impala

Hive este un proiect software de depozit de date construit pe partea de sus a APACHE HADOOP dezvoltat de echipa lui Jeff la Facebook cu o versiune stabilă actuală de 2.3.0 lansată. Se folosește pentru rezumarea datelor Big și face ușor interogarea și analiza. Apache Hive este un standard eficient pentru SQL-in Hadoop. Impala este un motor de interogare SQL care procesează paralel, care rulează pe Apache Hadoop și îl folosește pentru procesarea datelor care stochează în HBase (baza de date Hadoop) și în sistemul de fișiere distribuite Hadoop. Impala este un produs open-source pentru procesarea paralelă (MPP) motor de interogare SQL pentru datele stocate într-un cluster de sistem local care rulează pe Apache Hadoop. Apache Hive și Impala sunt ambele părți-cheie ale sistemului Hadoop.

Deci, să studiem în detaliu atât stupul cât și Impala:

STUP

Apache Hive ajută la analizarea setului de date uriaș stocat în sistemul de fișiere Hadoop (HDFS) și în alte sisteme de fișiere compatibile.
Hive QL - Pentru interogarea datelor stocate în Hadoop Cluster .
Exploatează scalabilitatea Hadoop prin traducere .
Hive NU este o bază de date completă .
Nu oferă actualizări la nivel de înregistrare .
Hadoop este un sistem orientat pe lot .
Interogările stupului au latență mare datorită MapReduce .
Stupul nu oferă caracteristici de este aproape de OLAP .
Cel mai potrivit pentru aplicațiile de depozitare de date .
Execuție de interogare prin MapReduce .
limbajul de interogare poate fi utilizat cu funcții scalare personalizate (UDF's), agregări (UDAF) și funcții de tabel (UDTF's) .
Hive oferă, de asemenea, indexarea pentru a accelera, tipul de indici incluzând indexul de compactare și bitmap de la 0, 10, sunt planificate mai multe tipuri de index.
Tipurile de stocare acceptate de Hive sunt RCfile, HBase, ORC și Text simplu .
Interogări de tip SQL (Hive QL), care sunt implicit convertite în MapReduce sau Tez, sau joburi Spark .
În mod implicit, Hive stochează metadatele într-o bază de date Apache Derby încorporată .

IMPALA

Impala este un motor de interogare care rulează pe Hadoop . Distribuția publică a testelor beta a fost anunțată în octombrie 2012 și a devenit în general disponibilă în mai 2013.
Suporta stocarea HDFS Apache HBase și Amazon S3 .
Citește formate de fișiere Hadoop, inclusiv fișier text, parchet, Avro, RCFile, LZO și secvență .
Suporta Hadoop Security (autentificare Kerberos) .
Utilizează metadate, driver ODBC și sintaxă SQL de la Apache Hive .
Suporta mai multe codec-uri de compresie:

(a) Snappy (recomandat pentru echilibrul său efectiv între raportul de compresie și viteza de decompresie),

(b) Gzip (recomandat la atingerea celui mai înalt nivel de compresie),

Vă permite să interogați cu privire la structuri cuibare, inclusiv hărți, structuri și matrice.
Permite interogări simultane cu mai mulți utilizatori și permite, de asemenea, controlul admiterii pe baza prioritizării și în așteptarea interogărilor.

Comparații față în față între stup și impala (infografie)

Mai jos este Top 20 de comparație între Hive și Impala

Diferența cheie între stup și Impala

Diferențele dintre Hive și Impala sunt explicate în punctele prezentate mai jos:

Hive este dezvoltat de echipa lui Jeff la Facebook, dar Impala este dezvoltat de Apache Software Foundation .
Hive acceptă formatul fișierului cu format columnar (ORC) cu compresie Zlib, dar Impala acceptă formatul Parquet cu compresie rapidă .
Hive este scris în Java, dar Impala este scris în C ++.
Viteza de procesare a interogărilor în stup este lentă, dar Impala este de 6-69 ori mai rapidă decât stupul .
În stup, latența este ridicată, dar în impala latența este scăzută .
Hive acceptă stocarea fișierului RC și ORC, dar suportul de stocare Impala este Hadoop și Apache HBase .
Hive generează expresie de interogare la timp de compilare, dar în generarea codului Impala pentru '' bucle mari '' se întâmplă în timpul rulării .
Stupul nu acceptă procesarea paralelă, dar Impala acceptă procesarea paralelă.
Hive acceptă MapReduce, dar Impala nu acceptă MapReduce .
În Hive, nu există nicio caracteristică de securitate, dar Impala acceptă autentificarea Kerberos .
Într-o actualizare a oricărui proiect în care compatibilitatea și viteza ambele sunt importante Hive este o alegere ideală, dar pentru un proiect nou, Impala este alegerea ideală .
Stupul este tolerant la erori, dar Impala nu suportă toleranța la erori .
Stupul acceptă tipuri complexe, dar Impala nu acceptă tipuri complexe .
Hive este bazat pe lot Hadoop MapReduce, dar Impala este baza de date MPP .
Hive nu acceptă calculul interactiv, dar Impala acceptă calculul interactiv .
Interogarea stupului are o problemă de „pornire la rece”, dar în procesul daemonului Impala sunt pornite chiar la momentul de pornire .
Managerul resurselor stupului este YARN (încă un negociator de resurse), dar în managerul de resurse Impala este nativ * YARN .
Distribuțiile Hive sunt toate distribuția Hadoop, Hortonworks (Tez, LLAP), dar în distribuția Impala sunt Cloudera MapR (* Amazon EMR) .
Publicul stup este ingineri de date, dar în audiența Impala sunt analisti de date / oameni de știință de date.
Randamentul stupului este mare, dar în Impala, debitul este redus .

Tabelul de comparare Hive vs Impala

Serial nr.	Baza pentru comparație	Stup	Impala
1.	Dezvoltat de	Facebook	Software Apache fundație
2.	Tipul fisierului	Fișier de secvență. Fisier text. Format columnar (ORC) de rând optimizat cu compresie Zlib. Format de fișier RC.	Formatul de parchet cu compresie snappy. Avro LZO Fișier de secvență.
3.	Limba	Scris în JAVA	Scris în C ++
4.	Viteză de procesare	Stupul este lent	Impala este rapidă
5.	Latență	Înalt	Scăzut
6.	Suport de stocare	Dosar RC, ORC	Hadoop, Apache HBase
7.	Conversia codului	Generează expresia de interogare în timp de compilare	Generarea de cod se întâmplă la timpul de rulare.
8.	Suportă procesarea paralelă	Nu	da
9.	Asistență MapReduce	da	Nu
10.	Securitatea Hadoop	Nu	Acceptă autentificarea Kerberos.
11.	folosire	Ideal pentru gradarea proiectelor	Ideal pentru demararea proiectului nou.
12.	Cu toleranță la erori	Stupul este tolerant la erori.	Nu acceptă toleranța la defecțiuni.
13.	Tipuri complexe	Stupul suportă tipuri complexe.	Impala nu suportă tipuri complexe.
14.	Tip de bază de date	Hive este un Hadoop MapReduce pe bază de lot.	Este baza de date MPP
15.	Calculatoare interactive	Nu acceptă calculul interactiv.	Suportă calculul interactiv.
16.	Execuţie	Interogarea stupului are o problemă cu „Pornirea la rece”	Procesul Impala începe întotdeauna la momentul de pornire al demoniilor.
17.	Managementul resurselor	FIRE	Nativ * FIL
18.	Distributii	HIVE - toate distribuțiile Hadoop, Hortonworks (Tez, LLAP)	Cloudera MapR, (* EMR Amazon)
19.	Public	Ingineri de date	Analist de date / oameni de știință de date
20.	tranzitată	Debit mare	Putere redusă

Concluzie - Hive vs Impala

În acest articol, am încercat să arătăm că ceea ce sunt două tehnologii și anume Hive și Impala și, de asemenea, diferența de bază între aceste tehnologii. În termeni practice, putem spune că Hive și Impala nu sunt concurenții, ci fac parte din aceeași fundație, care este cunoscută sub numele de MapReduce pentru executarea interogărilor, utilizarea ambelor poate crea diferența. În funcție de nevoia noastră, îl putem folosi împreună sau cel mai bun în funcție de compatibilitate, nevoie și performanță. Limbajul de interogare Hive este QL Hive, care este un limbaj foarte versatil și universal, în timp ce Impala este intensiv în memorie și nu funcționează bine pentru a prelucra exemple de operații de date grele. Dacă în proiectul dvs. lucrul este legat de procesarea lotului pentru o cantitate mare de date, stupul se va îmbunătăți în acest caz și dacă munca dvs. este legată de procesul în timp real al unei interogări ad-hoc pentru date, atunci Impala va fi mai bună în acest caz.

Articol recomandat

Acesta a fost un ghid pentru Hive Vs Impala, semnificația lor, comparația dintre cap și cap, diferențele cheie, tabelul de comparare și concluzii. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

Apache Hive vs Apache Spark SQL - 13 uimitoare diferențe
Hive VS HUE - Top 6 comparații utile de învățat
Apache Pig vs Apache Hive - Top 12 diferențe utile
Hadoop vs Hive - Aflați cele mai bune diferențe
Utilizarea funcției ORDER BY în stup

Hive vs Impala - 20 de lucruri cele mai utile pe care ar trebui să le știi

Cuprins:

Diferența dintre stup și Impala

Comparații față în față între stup și impala (infografie)

Diferența cheie între stup și Impala

Tabelul de comparare Hive vs Impala

Concluzie - Hive vs Impala

Articol recomandat

Metode de evaluare a afacerilor - Calculator - Certificare

Cumpărare vs Leasing - 7 cele mai bune diferențe de învățat (cu infografie)

Formula CAGR - Calculator (exemple cu șablonul Excel)

C # Rezumat și interfață - Aflați cele mai importante diferențe importante

Anul calendaristic vs Anul fiscal - Top 6 diferențe pe care ar trebui să le știi

Formula de returnare a portofoliului - Calculator (exemple cu șablonul Excel)

Power BI Dashboard vs Raport - 8 comparații uimitoare

Șablon BI de putere - Caracteristici de top ale Power BI pentru vizualizarea datelor

Operatori PostgreSQL - Diferite tipuri de operatori în PostgreSQL

10 întrebări esențiale pentru interviul BI BI Actualizate pentru 2019)

NPER în Excel - Cum se utilizează NPER în Excel (formulă, exemple)

NU în Excel (Formula, exemple) - Cum să folosești funcția NU?

ACUM Funcție în Excel (formulă, exemple) - Cum se utilizează ACUM în Excel?

Funcția NPER în Excel - Cum se utilizează funcția NPER în Excel?

Formula NPV în Excel - Cum se utilizează NPV Formula în Excel?