Introducere la întrebări și răspunsuri la interviul Apache PIG

Așadar, în sfârșit, ți-ai găsit slujba de vis în Apache PIG, dar ne întrebăm cum să spargi interviul Apache PIG din 2019 și care ar putea fi întrebările despre interviul Apache PIG. Fiecare interviu Apache PIG este diferit și sfera unui loc de muncă este diferită. Reținând acest lucru, am conceput cele mai frecvente întrebări și răspunsuri la interviul Apache PIG pentru a vă ajuta să obțineți succes în interviul dvs. Apache PIG.

Următoarea listă cu întrebările la interviu Apache PIG din 2019, care sunt adresate mai ales

1. Care sunt diferențele cheie între MapReduce și Apache Pig?

Răspuns:
Următoarele sunt diferențele cheie între Apache Pig și MapReduce din cauza cărora Apache Pig a apărut în imagine:
• MapReduce este un model de procesare a datelor la nivel scăzut, în timp ce Apache Pig este o platformă de flux de date la nivel înalt
• Fără a scrie implementările Java complexe în MapReduce, programatorii pot realiza aceleași implementări folosind Pig Latin.
• Apache Pig oferă tipuri de date cuibărite, cum ar fi saci, tuple și hărți, deoarece lipsesc din MapReduce.
• Suportul acceptă operațiunile de date cum ar fi filtre, îmbinări, ordonare, sortare etc. cu mulți operatori încorporați. Întrucât îndeplinirea aceleiași funcții în MapReduce este o sarcină imensă.

2. Explicați utilizările MapReduce la porc.

Răspuns:
Programele Apache Pig sunt scrise într-un limbaj de interogare cunoscut sub numele de Latin Pig, care este similar cu limbajul de interogare SQL. Pentru a executa o interogare, este necesar un motor de execuție. Iar motorul Pig transformă interogările în joburi MapReduce și astfel MapReduce acționează ca motor de execuție și este necesar pentru a rula programele.

3. Explicați utilizările porcului.

Răspuns:
Putem folosi Porcul în trei categorii, acestea sunt:
• conductă de date ETL: ajută la popularea depozitului nostru de date. Pig poate canaliza datele către o aplicație externă, va aștepta până când se va termina, astfel încât să primească datele procesate și să continue de acolo. Este cel mai frecvent caz de utilizare pentru porc.
• Cercetarea datelor brute.
• Prelucrare iterativă.

4. Comparați Apache Pig și SQL.

Răspuns:
• Apache Pig diferă de SQL în utilizarea sa pentru ETL, evaluare leneșă, stocare de date la un moment dat în timp, conductă, suport pentru divizări de conducte și declarație explicită a planurilor de execuție. SQL (limbajul de interogare structurală) este orientat în jurul interogărilor care produc un singur rezultat. SQL nu are un mecanism integrat pentru împărțirea fluxului de procesare a datelor și aplicarea diferiților operatori la fiecare sub-stream.
• Apache Pig permite includerea codului de utilizator în orice punct al conductei, în timp ce dacă SQL, unde trebuie utilizate date, trebuie importat mai întâi în baza de date și apoi începe procesul de curățare și transformare.

5. Explicați despre diferitele tipuri de date complexe din Pig.

Răspuns:
Apache Pig acceptă trei tipuri de date complexe-
• Hărți - Acestea sunt depozitele cheie, valorile unite împreună cu #.
Exemplu: ('oraș' # 'pune', 'pin' # 411045) • Tuples- Tocmai similar cu rândul dintr-un tabel, unde diferite elemente sunt separate printr-o virgulă. Tuplurile pot avea multiple atribute.
• Genti - O colecție neordonată de tupluri. Geanta permite multiple tupluri duplicate.
Exemplu: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Explicați diferite modele de execuție disponibile la porc.

Răspuns:
Trei moduri de execuție diferite disponibile în Pig sunt,
• Mod interactiv sau modul Grunt.
Modul interactiv sau modul grunt: coaja interactivă a porcului este cunoscută sub numele de coajă grunt. Dacă nu este specificat niciun fișier care să ruleze în Pig, acesta va începe.
• Modul lot sau modul Script.
Pig execută comenzile specificate în fișierul script.
• Modul încorporat
Putem încorpora programele Pig în Java și putem rula programele din Java.

7. Explicați despre planurile de execuție (planul logic și fizic) al unui script de porc

Răspuns:
Planurile logice și fizice sunt create în timpul executării unui script de porc. Scripturile de porci se bazează pe verificarea interpretilor. Planul logic este produs prin verificare semantică și analizare de bază și nu are loc prelucrarea datelor în timpul creării unui plan logic. Pentru fiecare linie din scriptul Pig, verificarea sintaxei este efectuată pentru operatori și este creat un plan logic. Ori de câte ori apare o eroare în cadrul scriptului, o excepție este aruncată și execuția programului se încheie, altfel pentru fiecare instrucțiune din script are propriul plan logic.
Un plan logic conține colecția de operatori din script, dar nu conține marginile dintre operatori.
După generarea planului logic, execuția scriptului se mută în planul fizic unde există o descriere a operatorilor fizici, Apache Pig va folosi, pentru a executa scriptul Pig. Un plan fizic este mai mult sau mai puțin ca o serie de lucrări MapReduce, dar atunci planul nu are nicio referire la modul în care va fi executat în MapReduce. În timpul creării unui plan fizic, operatorul logic cogrup este convertit în 3 operatori fizici și anume - Reamenajare locală, reamenajare globală și pachet. Funcțiile de încărcare și depozitare sunt de obicei rezolvate în planul fizic.

8. Care sunt instrumentele de depanare utilizate pentru scripturile Apache Pig?

Răspuns:
Descrieți și explicați care sunt utilitățile importante de depanare din Apache Pig.
• Explicarea utilității este utilă pentru dezvoltatorii Hadoop atunci când încearcă să depaneze eroare sau să optimizeze scripturile PigLatin. explica poate fi aplicat unui anumit alias din script sau poate fi aplicat întregului script din shell-ul interactiv grunt. utilitatea explica produce mai multe grafice în format text care pot fi tipărite într-un fișier.
• Descrie utilitatea de depanare este utilă dezvoltatorilor când scriu scripturi Pig, deoarece arată schema unei relații din script. Pentru începătorii care încearcă să învețe Apache Pig pot utiliza utilitarul descrie pentru a înțelege modul în care fiecare operator face modificări ale datelor. Un script de porc poate avea mai multe descrieri.

9. Care sunt unele dintre cazurile de utilizare Apache Pig la care vă puteți gândi?

Răspuns:
• Instrumentul de date mari Apache Pig este utilizat în special pentru procesarea iterativă, cercetarea datelor brute și pentru conductele tradiționale de date ETL. Deoarece Pig poate funcționa în circumstanțe în care schema nu este cunoscută, inconsistentă sau incompletă, este utilizată pe scară largă de cercetătorii care doresc să utilizeze datele înainte de a fi curățate și încărcate în depozitul de date.
• Pentru a construi modele de predicție a comportamentului, de exemplu, acesta poate fi folosit de un site web pentru a urmări răspunsul vizitatorilor la diverse tipuri de anunțuri, imagini, articole etc.

10. Evidențiați diferența dintre operatorii de grup și Cogroup din Pig.

Răspuns:
Ambii operatori pot lucra cu una sau mai multe relații. Operatorii de grup și Cogroup sunt identici. Operatorul de grup colectează toate înregistrările cu aceeași cheie. Cogroup este o combinație de grup și unire, este o generalizare a unui grup în loc să colecteze înregistrări ale unei intrări depinde de o cheie, colectează înregistrări de n intrări bazate pe o cheie. La un moment dat, putem decupa până la 127 de relații.

Articole recomandate

Acesta a fost un ghid pentru lista de întrebări și răspunsuri la interviul Apache PIG, astfel încât candidatul să poată împărți cu ușurință aceste întrebări cu interviul Apache PIG. Acest articol constă din toate întrebările utile și răspunsurile la interviu Apache PIG care vă vor ajuta într-un interviu. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Apache Pig vs Apache Hive
  2. Top 10 întrebări la interviu dur
  3. 8 pași eficienți pentru pregătirea unui interviu intern
  4. Sfaturi importante pentru supraviețuirea interviului de pe panou (util)