Introducere în alternativele stupului

Înainte de a discuta despre alternativele HIVE. Să înțelegem mai întâi ce este un HIVE? Deci, HIVE este practic un instrument de stocare a datelor care este dezvoltat pe HDFS (Hadoop Distributed File System). Este utilizat pentru a oferi o interfață de interogare SQL ca datele de interogare care sunt stocate în diferite fișiere integrate cu Hadoop. Acesta convertește interogări SQL precum Map Reducerea lucrărilor care ajută la executarea ușoară a volumelor mari de date.

Caracteristici

Mai jos sunt câteva dintre caracteristicile Hive:

  • Ca și SQL are propriul său limbaj declarativ numit HiveQL.
  • Are o structură de tabel similară tabelelor din baza de date relațională și oferă, de asemenea, suport ETL (extract / suport / încărcare).
  • O caracteristică interesantă este că permite conversia formatului din HIVE.

Limitarea alternativelor stupului

Să cunoaștem câteva limitări ale stupului:

  • Nu este conceput pentru OLTP (tranzacție online de prelucrare), dar acceptă OLAP (Online Analitic Processing).
  • O limitare importantă este aceea că nu acceptă actualizări și ștergere.
  • În stup Subventiile nu sunt de asemenea acceptate.

5 alternative importante ale stupului

Mai jos vom discuta despre cinci alternative importante ale HIVE prezente pe piață:

1. Apache Impala

Este un motor de interogare SQL de procesare paralelă cu sursă deschisă pentru datele stocate într-un cluster de calculatoare care rulează Apache Hadoop. Acesta a fost anunțat în anul octombrie 2012. Mai jos sunt prezentate caracteristicile importante ale Apache Impala ca alternativă la HIVE.

  • Impala este o alegere bună pentru persoanele care execută interogări SQL pe Hadoop și Apache HBase fără a transforma datele, deoarece nu este necesar să transforme sau să mute datele, spre deosebire de HIVE.
  • O altă diferență între aceste două este generarea de expresii de interogare. Impala le generează la runtime folosind llvm în timp ce HIVE le generează la timp de compilare.
  • Hive Queries are o problemă de pornire la rece, care nu este cazul interogărilor Impala, întrucât în ​​procesele daemon Impala sunt pornite în timpul de pornire în sine, întotdeauna gata să proceseze o interogare din cauza căreia evită problema de pornire la rece.
  • Impala recunoaște formate de fișiere Hadoop, securitate Hadoop, driver ODBC.
  • Principalul USP al impala este forța brută a procesării paralele. Deci, Impala este o alternativă mai bună dacă se începe un proiect nou.

2. Presto DB

Presto este o altă alternativă pentru HIVE dezvoltată de facebook. USP-ul său este că poate chiar interoga date din mai multe surse dintr-o singură interogare. Mai jos sunt caracteristicile principale ale PrestoDB ca alternativă la HIVE.

  • Presto este un motor de interogare SQL distribuit în memorie, care este, de asemenea, foarte rapid, deoarece motorul de interogare Presto este rapid și potrivit pentru analiza interactivă.
  • USP pentru Presto față de alții este modelul său de plug and play cu diferite surse de date. Datorită acestui model plug and play, unirea interogărilor din diferite surse de date este foarte ușoară cu presto.
  • În Presto, dimensiunile mici de alăturare au fost făcute mai rapid. Presto excelează cu majoritatea celorlalte motoare de interogare distribuite.
  • Presto nu este adecvat pentru alăturarea faptelor mari, întrucât nu utilizează discul și nu utilizează memoria pentru procesare.
  • Un punct mai important pentru presto este alocarea resurselor sale. Are o alocare prioritară a resurselor bazată pe coadă.
  • Un compromis pentru performanțe bune în Presto este faptul că suportul UDF nu este disponibil în presto, datorită căruia trebuie să scrie propria funcție, ceea ce crește capătul general, deoarece trebuie construit exclusiv pentru presto și împiedică interoperabilitatea.

3. Spark SQL

Este un modul pentru procesarea structurată a datelor și, de asemenea, open-source. De asemenea, poate acționa ca un motor de interogare SQL distribuit și, de asemenea, o parte unică a acestui lucru este faptul că oferă abstractizarea programării cunoscută sub numele de cadre de date. A fost lansat pentru prima oară în 2014, dezvoltat de Apache Software Foundation. Mai jos sunt câteva dintre caracteristicile importante ale Spark SQL ca alternativă la HIVE.

  • Lucrul bun despre Spark SQL este că poate fi implementat în limbajul Java, Scala, Python și R, în timp ce HIVE poate fi implementat în Java Language.
  • Există o similaritate completă în modelul de bază de date primar între HIVE și Spark, deoarece atât modelul bazei de date primare este DBMS relațional.
  • De asemenea, este asemănător cu HIVE, deoarece ambele acceptă magazinul Key-Value ca model de bază de date suplimentară.
  • Are tipuri de date predefinite, cum ar fi float și data.
  • Suporta SQL, deoarece are instrucțiuni DML și DDL.
  • Spre deosebire de HIVE, care acceptă JDBC, ODBC și Thrift, Spark SQL acceptă doar JDBC și ODBC.
  • Spark SQL utilizează spark core pentru stocarea datelor în diferite noduri.
  • O altă diferență majoră între scânteie și HIVE sunt metodele de replicare: Există un factor de replicare selectiv în HIVE pentru stocarea datelor redundante pe mai multe noduri, dar nu este disponibil niciun factor de replicare în Spark SQL.
  • În Spark SQL nu există drepturi de acces pentru utilizatori, în timp ce în Apache Hive avem drepturi de acces pentru utilizatori, grupuri.
  • Nu acceptă o tabelă tranzacțională și nu are suport pentru tipul char.

4. rechin

Este un motor de interogare SQL open-source, care este scris în Scala. Faptul interesant al lui Shark este în loc să folosească Map-Reduce pentru a-și executa interogările, folosește propriile sale seturi de noduri de lucru. Mai jos sunt câteva dintre caracteristicile rechinului:

  • Utilizează un client de linie de comandă.
  • Oferă interoperabilitatea cu Hive pentru schimbul de scheme.
  • Oferă asistență pentru extensiile existente ale stupului, cum ar fi UDF-urile.

Nu este încă foarte faimos, dar oferă o alternativă la HIVE.

5. BigSQL de IBM

Este furnizat de Big Blue (IBM). IBM are propria distribuție Hadoop numită Big Insights. Deci, Big SQL este oferit ca parte a acestuia. Nu este open source, deoarece este furnizat de IBM. Unele dintre cele oferite sunt următoarele:

  • Aceștia acceptă atât driverele JDBC, cât și OJDBC.
  • Oferă suport SQL
  • Acestea pot fi utilizate pentru a interoga date de la HDFS.

Articole recomandate

Acesta este un ghid pentru alternativele Hive. Aici discutăm caracteristicile, limitarea și 5 alternative importante ale stupului. Puteți, de asemenea, să parcurgeți alte articole conexe pentru a afla mai multe-

  1. Alternative Hadoop
  2. Alternative de tabel
  3. Alternative Google Analytics
  4. Hadoop Streaming
  5. Ordinul stupului Prin
  6. Instalarea stupului
  7. Cadre de date în R

Categorie: