Introducere în întrebările și răspunsurile interviului de la Hadoop Admin

Așadar, în sfârșit, ți-ai găsit slujba de vis în Hadoop Admin, dar te întrebi cum să spargi interviul de administrare Hadoop și care ar putea fi întrebările de interviu pentru administrarea Hadoop. Fiecare interviu este diferit și sfera unui loc de muncă este diferită. Reținând acest lucru, am conceput cele mai frecvente întrebări și răspunsuri la interviul Hadoop Admin pentru a vă ajuta să obțineți succes în interviul dvs.

Următoarele sunt întrebările pentru interviu de administrare Hadoop care vă vor ajuta în crearea unui interviu cu Hadoop.

1. Ce este conștientizarea rack? Și de ce este necesar?

Răspuns:
Sensibilizarea la raft se referă la distribuirea nodurilor de date pe mai multe rafturi. HDFS urmărește algoritmul de conștientizare în rack pentru a plasa blocurile de date. Un rack conține mai multe servere. Și pentru un cluster, ar putea exista mai multe rafturi. Să spunem că există un cluster Hadoop înființat cu 12 noduri. Pot fi 3 rafturi cu 4 servere pe fiecare. Toate cele 3 rafturi sunt conectate astfel încât toate cele 12 noduri sunt conectate și care formează un cluster. În timp ce se decide numărul de creștere, punctul important de luat în considerare este factorul de replicare. Dacă există 100 GB de date care vor curge în fiecare zi cu factorul de replicare 3. Apoi, 300 GB de date vor trebui să aibă reședința pe cluster. Este o opțiune mai bună să replicăm datele pe rafturi. Chiar dacă un nod coboară, replica va fi într-un alt rack.

2. Care este dimensiunea implicită a blocului și cum este definită?

Răspuns:
128 MB și este definit în hdfs-site.xml și, de asemenea, acesta este personalizabil în funcție de volumul datelor și de nivelul de acces. Spune, 100 GB de date care curg într-o zi, datele sunt segregate și stocate în cluster. Care va fi numărul de fișiere? 800 de dosare. (1024 * 100/128) (1024 à a convertit un GB în MB). Există două modalități de a seta dimensiunea personalizată a blocului de date.

  1. hadoop fs -D fs.local.block.size = 134217728 (în biți)
  2. În hdfs-site.xml adăugați această proprietate à block.size cu dimensiunea biților.

Dacă schimbați dimensiunea implicită la 512 MB, deoarece dimensiunea datelor este imensă, atunci fișierele nr.of generate vor fi de 200. (1024 * 100/512)

3. Cum obțineți raportul sistemului de fișiere hdfs? Despre disponibilitatea discului și nr. Din nodurile active?

Răspuns:
Comandă: sudo -u hdfs dfsadmin –report

Aceasta este lista de informații pe care le afișează,

  1. Capacitate configurată - Capacitate totală disponibilă în hdfs
  2. Capacitate actuală - Aceasta este cantitatea totală de spațiu alocată resurselor de rezidență pe lângă metastarea și utilizarea faxului a spațiului.
  3. DFS Rămas - Este cantitatea de spațiu de stocare disponibilă HDFS pentru a stoca mai multe fișiere
  4. DFS utilizat - Este spațiul de stocare folosit de HDFS.
  5. DFS Utilizat% - În procent
  6. Sub blocuri replicate - număr de blocuri
  7. Blocuri cu replici corupte - Dacă există blocuri corupte
  8. Lipsesc blocurile
  9. Blocuri lipsă (cu factorul de replicare 1)

4. Ce este echilibratorul Hadoop și de ce este necesar?

Răspuns:
Datele răspândite pe noduri nu sunt distribuite în proporția corectă, ceea ce înseamnă că utilizarea fiecărui nod nu poate fi echilibrată. Un nod ar putea fi prea utilizat și celălalt ar putea fi subutilizat. Acest lucru duce la un efect de costuri ridicat în timpul rulării oricărui proces și s-ar termina prin utilizarea grea a acestor noduri. Pentru a rezolva acest lucru, se utilizează echilibratorul Hadoop care va echilibra utilizarea datelor din noduri. Deci, de fiecare dată când este executat un echilibrator, datele sunt mutate în locul în care nodurile subutilizate se completează și nodurile suprautilizate vor fi eliberate.

5. Diferența dintre Cloudera și Ambari?

Răspuns:

Manager ClouderaAmbari
Instrument de administrare pentru ClouderaInstrument de administrare pentru lucrările Horton
Monitorizează și gestionează întregul cluster și raportează utilizarea și eventualele problemeMonitorizează și gestionează întregul cluster și raportează utilizarea și eventualele probleme
Vine cu serviciul plătit ClouderaSursa deschisa

6. Care sunt principalele acțiuni efectuate de administratorul Hadoop?

Răspuns:
Monitorizați starea de sănătate a clusterului - Există multe pagini de aplicații care trebuie monitorizate dacă există vreun proces. (Server istoric job, manager resurse YARN, manager Cloudera / ambary în funcție de distribuție)

activați securitatea - SSL sau Kerberos

Performanță de ton - echilibrator Hadoop

Adăugați noi noduri de date, după caz - Modificări și configurații ale infrastructurii

Opțional pentru a activa MapReduce Job History Tracking Server à Uneori, repornirea serviciilor va ajuta la eliberarea memoriei în cache. Acest lucru este atunci când clusterul cu un proces gol.

7. Ce este Kerberos?

Răspuns:
Este o autentificare necesară pentru fiecare serviciu de sincronizare pentru a rula procesul. Se recomandă activarea Kerberos. Deoarece avem de-a face cu calculul distribuit, este întotdeauna o practică bună să avem criptare în timp ce accesăm datele și să le prelucrăm. Pe măsură ce fiecare nod este conectat și orice pasaj informațional se află printr-o rețea. Deoarece Hadoop folosește Kerberos, parolele nu sunt trimise prin rețele. În schimb, parolele sunt utilizate pentru a calcula cheile de criptare. Mesajele sunt schimbate între client și server. În termeni simpli, Kerberos oferă identitate reciprocă (noduri) într-o manieră sigură cu criptarea.

Configurare în core-site.xml
Hadoop.security.authentication: Kerberos

8. Care este lista importantă de comenzi hdfs?

Răspuns:

comenziScop
hdfs dfs –lsPentru a enumera fișierele din sistemul de fișiere hdfs.
Hdfs dfs -putCopiați fișierul din sistemul local în sistemul de fișiere hdfs
Hdfs dfs –chmod 777Dă o citire, scriere, executarea permisiunii fișierului
Hdfs dfs –getCopiați fișierul din sistemul de fișiere hdfs în sistemul de fișiere local
Hdfs dfs –catVizualizați conținutul fișierului din sistemul de fișiere hdfs
Hdfs dfs –rmȘtergeți fișierul din sistemul de fișiere hdfs. Dar va fi mutat în calea de fișiere a coșului de gunoi (este ca un coș de reciclare în Windows)
Hdfs dfs –rm –skipTrashElimină fișierul permanent din cluster.
Hdfs dfs –touchzCreați un fișier în sistemul de fișiere hdfs

9. Cum se verifică jurnalele unei lucrări Hadoop prezentate în cluster și cum se încheie procesul care rulează deja?

Răspuns:
yarn logs -applicationId - Master-ul aplicației generează jurnalele pe containerul său și va fi anexat cu id-ul pe care îl generează. Acest lucru va fi util pentru a monitoriza starea de rulare a procesului și informațiile de jurnal.

aplicație fire - kill - Dacă un proces existent care se desfășura în cluster trebuie să fie încheiat, se utilizează comanda kill în cazul în care ID-ul aplicației este utilizat pentru a încheia lucrarea în cluster.

Articol recomandat

Acesta a fost un ghid la Lista întrebărilor și răspunsurilor la interviu de administrare Hadoop, astfel încât candidatul să poată împărți cu ușurință aceste întrebări de interviu de administrare Hadoop. De asemenea, puteți consulta următoarele articole pentru a afla mai multe

  1. Întrebări la interviu și răspuns la Hadoop Cluster - Top 10 Cele mai utile
  2. Întrebări de interviu pentru modelarea datelor - 10 întrebări importante
  3. Întrebări de interviu SAS System - Top 10 Întrebări utile