Introducere în comenzile stupului

Comanda Hive este un instrument de infrastructură pentru depozitul de date care se află în topul Hadoop pentru a rezuma datele Big. Procesează date structurate. Simplifică interogarea și analizarea datelor. Comanda Hive este, de asemenea, numită „schemă la citire;” stupul nu verifică datele când sunt încărcate, verificarea se întâmplă numai atunci când este emisă o interogare. Această proprietate a stupului face rapid pentru încărcarea inițială. Este ca și cum ai copia sau pur și simplu muta un fișier fără a pune restricții sau verificări. Stupul a fost dezvoltat pentru prima dată de Facebook. Fundația software Apache a preluat-o ulterior și a dezvoltat-o ​​în continuare.

Iată componentele comenzii Hive:

Fig 1. Componentele stupului

https://www.developer.com/

Iată caracteristicile comenzii Hive enumerate mai jos:

  1. Magazinele stup sunt un set de date brut și procesat în Hadoop.
  2. Este proiectat pentru procesarea tranzacțiilor OnLine (OLTP). OLTP este sistemele care facilitează datele cu volum mare în foarte puțin timp, fără dependență de serverul unic.
  3. Este rapid, scalabil și de încredere.
  4. Limbajul de interogare de tip SQL furnizat aici se numește HiveQL sau HQL. Acest lucru face ca sarcinile ETL și alte analize să fie mai ușoare.

Fig 2. Proprietățile stupului

Surse imagini: - Google

Există doar câteva limitări ale comenzii Hive, care sunt enumerate mai jos:

  1. Stupul nu suportă subînchirieri.
  2. Hive acceptă cu siguranță supra-scrierea, dar, din păcate, nu acceptă ștergerea și actualizările.
  3. Stupul nu este proiectat pentru OLTP, dar este folosit pentru el.

Pentru a intra în shell-ul interactiv al stupului:

$ HIVE_HOME / bin / stup

Comenzile de bază ale stupului

  1. Crea

Aceasta va crea noua bază de date în Hive.

  1. cădere brusca

Picătura va elimina un tabel din stup

  1. Modifica

Comanda Alter vă va ajuta să redenumiți tabelele sau coloanele din tabel.

De exemplu:

stup> ALTER TABLE RENAME pentru angajat1;

  1. Spectacol

Comanda Show va arăta toate bazele de date cu domiciliul în Hive.

  1. Descrie

Comanda Descriere vă va ajuta cu informațiile despre schema tabelului.

Comenzi intermediare ale stupului

Hive împarte un tabel în diferite partiții înrudite pe baza de coloane. Folosind aceste partiții, este mai ușor să interogați datele. Aceste partiții sunt împărțite în secțiuni suplimentare, pentru a efectua interogarea eficientă a datelor.

Cu alte cuvinte, gălețile distribuie date în setul de clustere, calculând codul de cheie al cheii menționat în interogare.

  1. Adăugarea partiției

Adăugarea partiției se poate realiza prin modificarea tabelului. Spuneți că aveți tabelul „EMP”, cu câmpuri precum Id, Nume, Salariu, Dept, Desemnare și Yoj.

stup> angajat ALTER TABLE

> ADAUGĂ PARTITION (an = '2012')

locație '/ 2012 / part2012';

  1. Redenumirea partiției

stup> PARTITION ALTER TABLE pentru angajați (an = '1203')

RENUMIRE LA PARTITION (Yoj = '1203');

  1. Partition drop

stup> DROPUL angajatului ALTER TABLE (DACĂ EXISTE)

> PARTITION (an = '1203');

  1. Operatori relaționali

Operatorii relaționali constau într-un anumit set de operatori, care ajută la preluarea informațiilor relevante.

De exemplu: Spuneți tabelul „EMP” arătat astfel:

Să executăm o interogare Hive care ne va aduce angajatul al cărui salariu este mai mare de 30000.

stup> SELECTA * DE LA EMP UNDE Salariu> = 40000;

  1. Operatori de aritmetică

Este vorba de operatori care ajută la executarea operațiunilor aritmetice pe operanzi și, la rândul lor, întorc întotdeauna tipuri de numere.

De exemplu: Pentru a adăuga două numere, cum ar fi 22 și 33

stup> SELECT 22 + 33 ADAUGĂ LA temp;

  1. Operator logic

Acești operatori trebuie să execute operații logice, care în schimb întorc întotdeauna True / False.

stup> SELECTA * DE LA EMP UNDE Salariu> 40000 && Dept = TP;

Comenzi avansate stup

  1. Vedere

Conceptul de vizualizare în Hive este similar ca în SQL. Vizualizarea poate fi creată în momentul executării unei instrucțiuni SELECT.

Exemplu:

stup> CREATE VIZIONARE EMP_30000 AS

SELECTA * DIN EMP

UNDE salariu> 30000;

  1. Încărcarea datelor în tabel

Hive> Încărcați datele de intrare locală '/home/hduser/Desktop/AllStates.csv' în statele de tabel;

Aici „State” este tabelul deja creat în Hive.

https://www.tutorialspoint.com/hive/

Hive are câteva funcții încorporate care vă ajută să obțineți rezultatul într-un mod mai bun.

Ca rotund, podea, BIGINT etc.

  1. A te alatura

Clauza de alăturare poate ajuta la unirea a două tabele bazate pe același nume de coloană.

Exemplu:

stup> SELECT c.ID, c.NAME, c.AGE, o.AMOUNT

DE LA CLIENTI c COMENȚII DE ÎNREGISTRARE o

ON (c.ID = o.CUSTOMER_ID);

Toate tipurile de îmbinări sunt suportate de stup: îmbinare exterioară stângă, îmbinare exterioară dreaptă, îmbinare exterioară completă.

Sfaturi și trucuri pentru a utiliza comenzile stupului

Hive face ca prelucrarea datelor să fie atât de ușoară, directă și extensibilă, încât utilizatorul să acorde o atenție mai mică la optimizarea interogărilor Hive Dar atenția la puține lucruri în timp ce scrii interogarea Hive, va aduce cu siguranță mare succes în gestionarea volumului de muncă și în economisirea de bani. Mai jos sunt câteva sfaturi cu privire la acest lucru:

  1. Partiții și găleți: Hive este un instrument de date mari, care poate interoga pe seturi de date mari. Cu toate acestea, scrierea interogării fără a înțelege domeniul poate aduce mari partiții în Hive.

Dacă utilizatorul cunoaște setul de date, atunci coloanele relevante și foarte utilizate ar putea fi grupate în aceeași partiție. Acest lucru va ajuta la rularea interogării mai rapid și ineficient.

În cele din urmă, nr. operațiunile mapper și I / O vor fi, de asemenea, reduse.

Fig 3. Compartimentare

Surse imagini: imagine Google

Fig 4 Bucketing

Surse imagini: - imagine Google

  1. Execuție paralelă: stupul rulează interogarea în mai multe etape. În unele cazuri, aceste etape pot depinde de alte etape, deci nu se poate începe, odată ce etapa anterioară este finalizată. Cu toate acestea, sarcinile independente pot rula paralel pentru a economisi timpul de rulare general. Pentru a activa rularea paralelă în stup:

set hive.exec.parallel = true;

Prin urmare, aceasta va îmbunătăți utilizarea clusterului.

  1. Blocarea eșantionării: Eșantionarea datelor dintr-un tabel va permite explorarea interogărilor asupra datelor.

În ciuda curgerii, mai degrabă dorim să eșantionăm setul de date mai întâmplător. Eșantionarea în bloc vine cu diverse sintaxe puternice, care ajută la prelevarea datelor într-un mod diferit.

Eșantionarea poate fi utilizată pentru găsirea a cca. informații din setul de date, cum ar fi distanța medie între origine și destinație.

Interogarea de 1% din datele mari va oferi răspunsul perfect. Explorarea devine mult mai ușoară și mai eficientă.

Concluzie - comenzi stup

Hive este o abstracție de nivel superior pe HDFS, care oferă un limbaj de interogare flexibil. Acesta ajută la interogarea și procesarea datelor într-un mod mai ușor.

Stupul poate fi îmbrăcat cu alte elemente Big Data, pentru a-și valorifica funcționalitatea într-un mod complet.

Articole recomandate

Acesta a fost un ghid pentru Comenzile stupului. Aici am discutat despre comenzile de stup, precum și cele avansate, precum și unele comenzi imediate ale stupului. De asemenea, puteți consulta articolul următor pentru a afla mai multe -

  1. Întrebări la interviu stup
  2. Hive VS Hue - Top 6 Comparații utile
  3. Comenzile Tableau
  4. Comenzi Adobe Photoshop
  5. Utilizarea funcției ORDER BY în stup
  6. Descărcați și instalați stupul pas cu pas

Categorie: