Întrebări la interviu Hadoop Admin - Cel mai util și cel mai solicitat

Introducere în întrebările și răspunsurile interviului de la Hadoop Admin

Așadar, în sfârșit, ți-ai găsit slujba de vis în Hadoop Admin, dar te întrebi cum să spargi interviul de administrare Hadoop și care ar putea fi întrebările de interviu pentru administrarea Hadoop. Fiecare interviu este diferit și sfera unui loc de muncă este diferită. Reținând acest lucru, am conceput cele mai frecvente întrebări și răspunsuri la interviul Hadoop Admin pentru a vă ajuta să obțineți succes în interviul dvs.

Următoarele sunt întrebările pentru interviu de administrare Hadoop care vă vor ajuta în crearea unui interviu cu Hadoop.

1. Ce este conștientizarea rack? Și de ce este necesar?

Răspuns:
Sensibilizarea la raft se referă la distribuirea nodurilor de date pe mai multe rafturi. HDFS urmărește algoritmul de conștientizare în rack pentru a plasa blocurile de date. Un rack conține mai multe servere. Și pentru un cluster, ar putea exista mai multe rafturi. Să spunem că există un cluster Hadoop înființat cu 12 noduri. Pot fi 3 rafturi cu 4 servere pe fiecare. Toate cele 3 rafturi sunt conectate astfel încât toate cele 12 noduri sunt conectate și care formează un cluster. În timp ce se decide numărul de creștere, punctul important de luat în considerare este factorul de replicare. Dacă există 100 GB de date care vor curge în fiecare zi cu factorul de replicare 3. Apoi, 300 GB de date vor trebui să aibă reședința pe cluster. Este o opțiune mai bună să replicăm datele pe rafturi. Chiar dacă un nod coboară, replica va fi într-un alt rack.

2. Care este dimensiunea implicită a blocului și cum este definită?

Răspuns:
128 MB și este definit în hdfs-site.xml și, de asemenea, acesta este personalizabil în funcție de volumul datelor și de nivelul de acces. Spune, 100 GB de date care curg într-o zi, datele sunt segregate și stocate în cluster. Care va fi numărul de fișiere? 800 de dosare. (1024 * 100/128) (1024 à a convertit un GB în MB). Există două modalități de a seta dimensiunea personalizată a blocului de date.

hadoop fs -D fs.local.block.size = 134217728 (în biți)
În hdfs-site.xml adăugați această proprietate à block.size cu dimensiunea biților.

Dacă schimbați dimensiunea implicită la 512 MB, deoarece dimensiunea datelor este imensă, atunci fișierele nr.of generate vor fi de 200. (1024 * 100/512)

3. Cum obțineți raportul sistemului de fișiere hdfs? Despre disponibilitatea discului și nr. Din nodurile active?

Răspuns:
Comandă: sudo -u hdfs dfsadmin –report

Aceasta este lista de informații pe care le afișează,

Capacitate configurată - Capacitate totală disponibilă în hdfs
Capacitate actuală - Aceasta este cantitatea totală de spațiu alocată resurselor de rezidență pe lângă metastarea și utilizarea faxului a spațiului.
DFS Rămas - Este cantitatea de spațiu de stocare disponibilă HDFS pentru a stoca mai multe fișiere
DFS utilizat - Este spațiul de stocare folosit de HDFS.
DFS Utilizat% - În procent
Sub blocuri replicate - număr de blocuri
Blocuri cu replici corupte - Dacă există blocuri corupte
Lipsesc blocurile
Blocuri lipsă (cu factorul de replicare 1)

4. Ce este echilibratorul Hadoop și de ce este necesar?

Răspuns:
Datele răspândite pe noduri nu sunt distribuite în proporția corectă, ceea ce înseamnă că utilizarea fiecărui nod nu poate fi echilibrată. Un nod ar putea fi prea utilizat și celălalt ar putea fi subutilizat. Acest lucru duce la un efect de costuri ridicat în timpul rulării oricărui proces și s-ar termina prin utilizarea grea a acestor noduri. Pentru a rezolva acest lucru, se utilizează echilibratorul Hadoop care va echilibra utilizarea datelor din noduri. Deci, de fiecare dată când este executat un echilibrator, datele sunt mutate în locul în care nodurile subutilizate se completează și nodurile suprautilizate vor fi eliberate.

5. Diferența dintre Cloudera și Ambari?

Răspuns:

Manager Cloudera	Ambari
Instrument de administrare pentru Cloudera	Instrument de administrare pentru lucrările Horton
Monitorizează și gestionează întregul cluster și raportează utilizarea și eventualele probleme	Monitorizează și gestionează întregul cluster și raportează utilizarea și eventualele probleme
Vine cu serviciul plătit Cloudera	Sursa deschisa

6. Care sunt principalele acțiuni efectuate de administratorul Hadoop?

Răspuns:
Monitorizați starea de sănătate a clusterului - Există multe pagini de aplicații care trebuie monitorizate dacă există vreun proces. (Server istoric job, manager resurse YARN, manager Cloudera / ambary în funcție de distribuție)

activați securitatea - SSL sau Kerberos

Performanță de ton - echilibrator Hadoop

Adăugați noi noduri de date, după caz - Modificări și configurații ale infrastructurii

Opțional pentru a activa MapReduce Job History Tracking Server à Uneori, repornirea serviciilor va ajuta la eliberarea memoriei în cache. Acest lucru este atunci când clusterul cu un proces gol.

7. Ce este Kerberos?

Răspuns:
Este o autentificare necesară pentru fiecare serviciu de sincronizare pentru a rula procesul. Se recomandă activarea Kerberos. Deoarece avem de-a face cu calculul distribuit, este întotdeauna o practică bună să avem criptare în timp ce accesăm datele și să le prelucrăm. Pe măsură ce fiecare nod este conectat și orice pasaj informațional se află printr-o rețea. Deoarece Hadoop folosește Kerberos, parolele nu sunt trimise prin rețele. În schimb, parolele sunt utilizate pentru a calcula cheile de criptare. Mesajele sunt schimbate între client și server. În termeni simpli, Kerberos oferă identitate reciprocă (noduri) într-o manieră sigură cu criptarea.

Configurare în core-site.xml
Hadoop.security.authentication: Kerberos

8. Care este lista importantă de comenzi hdfs?

Răspuns:

comenzi	Scop
hdfs dfs –ls	Pentru a enumera fișierele din sistemul de fișiere hdfs.
Hdfs dfs -put	Copiați fișierul din sistemul local în sistemul de fișiere hdfs
Hdfs dfs –chmod 777	Dă o citire, scriere, executarea permisiunii fișierului
Hdfs dfs –get	Copiați fișierul din sistemul de fișiere hdfs în sistemul de fișiere local
Hdfs dfs –cat	Vizualizați conținutul fișierului din sistemul de fișiere hdfs
Hdfs dfs –rm	Ștergeți fișierul din sistemul de fișiere hdfs. Dar va fi mutat în calea de fișiere a coșului de gunoi (este ca un coș de reciclare în Windows)
Hdfs dfs –rm –skipTrash	Elimină fișierul permanent din cluster.
Hdfs dfs –touchz	Creați un fișier în sistemul de fișiere hdfs

9. Cum se verifică jurnalele unei lucrări Hadoop prezentate în cluster și cum se încheie procesul care rulează deja?

Răspuns:
yarn logs -applicationId - Master-ul aplicației generează jurnalele pe containerul său și va fi anexat cu id-ul pe care îl generează. Acest lucru va fi util pentru a monitoriza starea de rulare a procesului și informațiile de jurnal.

aplicație fire - kill - Dacă un proces existent care se desfășura în cluster trebuie să fie încheiat, se utilizează comanda kill în cazul în care ID-ul aplicației este utilizat pentru a încheia lucrarea în cluster.

Articol recomandat

Acesta a fost un ghid la Lista întrebărilor și răspunsurilor la interviu de administrare Hadoop, astfel încât candidatul să poată împărți cu ușurință aceste întrebări de interviu de administrare Hadoop. De asemenea, puteți consulta următoarele articole pentru a afla mai multe

Întrebări la interviu și răspuns la Hadoop Cluster - Top 10 Cele mai utile
Întrebări de interviu pentru modelarea datelor - 10 întrebări importante
Întrebări de interviu SAS System - Top 10 Întrebări utile

Întrebări la interviu Hadoop Admin - Cel mai util și cel mai solicitat

Cuprins:

Introducere în întrebările și răspunsurile interviului de la Hadoop Admin

1. Ce este conștientizarea rack? Și de ce este necesar?

2. Care este dimensiunea implicită a blocului și cum este definită?

3. Cum obțineți raportul sistemului de fișiere hdfs? Despre disponibilitatea discului și nr. Din nodurile active?

4. Ce este echilibratorul Hadoop și de ce este necesar?

5. Diferența dintre Cloudera și Ambari?

6. Care sunt principalele acțiuni efectuate de administratorul Hadoop?

7. Ce este Kerberos?

8. Care este lista importantă de comenzi hdfs?

9. Cum se verifică jurnalele unei lucrări Hadoop prezentate în cluster și cum se încheie procesul care rulează deja?

Articol recomandat

Permisiunile fișierului Unix - Ghid pentru Permisiunile fișierelor Unix cu exemplu

Sistem de fișiere Unix - Ghid complet despre sistemul de fișiere Unix

Întrebări de interviu UNIX - 10 cele mai uimitoare întrebări de învățat

Comenzi Unix Shell - Ghid pentru lista de comenzi Unix Shell

3 cele mai bune și ușoare pași pentru a calcula beta (puternic)

Cele mai bune compilatoare C - Prezentare generală și primele 5 compilatoare ale C în detaliu

Beneficiile depozitului de date - Cele mai importante 6 beneficii ale Data Warehouse

Cea mai bună certificare - 15 cea mai bună certificare din 2019 cu avantaje

Cele mai bune programe de știință a datelor - Top 10 Universitatea pentru Data Science Program

Cel mai bun cloud hosting - Ghid complet pentru gazduire cloud

Cum să prezentați feedback negativ la locul de muncă membrului echipei dvs.? - edu CBA

Structura cuibărită în C - Funcționarea structurii imbricate în C cu exemple

Obiceiuri de muncă negative care vă pot distruge cariera - Definiție și exemple

Formula venitului net - Calculator (cu șablon Excel)

Formula valorii realizabile nete - Calculator (șablon Excel)