Întrebări la interviu și răspuns la Hadoop Cluster - Top 10 Cele mai utile

Întrebări și răspunsuri la interviu Hadoop Cluster

Scopul acestui articol este de a ajuta toți aspiranții Big Data să răspundă la toate întrebările de la Hadoop Cluster Interview legate de configurarea mediului Big Data într-o organizație. Acest chestionar va ajuta la configurarea Nodurilor de date, Nume Nume și definirea capacității serverului găzduit al daemonelor Big Data.

Așadar, dacă în sfârșit ați găsit jobul dvs. de vis în Hadoop Cluster, dar vă întrebați cum să spargeți interviul Hadoop Cluster și care ar putea fi întrebările despre interviul Hadoop Cluster. Fiecare interviu este diferit și sfera unui loc de muncă este diferită. Reținând acest lucru, am conceput cele mai comune întrebări și răspunsuri la interviu Hadoop Cluster pentru a vă ajuta să obțineți succes în interviu.

Unele dintre cele mai importante întrebări pentru interviu Hadoop Cluster care sunt adresate frecvent într-un interviu sunt următoarele:

1. Care sunt componentele majore Hadoop din clusterul Hadoop?

Răspuns :
Hadoop este un cadru în care procesăm date mari sau Hadoop este platforma în care se poate procesa cantitatea uriașă de date pe serverele de mărfuri. Hadoop este combinația multor componente. Următoarele sunt componentele majore din mediul Hadoop.
Nume nume : este nodul principal are grijă de toate informațiile nodurilor de date și locația de stocare a datelor în format de metadate.
Nume nume secundar : funcționează ca nod principal pentru nume dacă nodul nume primar coboară.
HDFS (sistem de fișiere distribuite Hadoop) : are grijă de toate stocările clusterului Hadoop.
Noduri de date : Nodurile de date sunt noduri slave. Datele reale sunt salvate pe Nodurile slave pentru procesare.
YARN (încă o resursă negociator) : cadru software pentru a scrie aplicațiile și pentru a prelucra cantități vaste de date. Oferă aceleași caracteristici ca MapReduce, în plus, ar permite fiecărui job lot să ruleze paralel în clusterul Hadoop.

2.Cum să planificați stocarea datelor în clusterul Hadoop?

Răspuns :
Depozitarea se bazează pe formula (Stocare = ingerarea zilnică a datelor * Replicare).
Dacă clusterul Hadoop obține zilnic date de 120 TB și avem un factor implicit de replicare, astfel încât cerința zilnică de stocare a datelor ar fi
Cerință de stocare = 120 TB (ingestie zilnică de date) * 3 (replicare implicită) => 360 TB
Drept urmare, trebuie să punem la dispoziție cel puțin 360 TB de cluster pentru cerințele zilnice de ingerare a datelor.
Depozitarea depinde și de cerința de păstrare a datelor. În cazul în care dorim ca datele să fie stocate timp de 2 ani în același cluster, trebuie să aranjăm noduri de date conform cerinței de păstrare.

3.Calculează numerele de date.

Răspuns :
Trebuie să calculăm un număr de noduri de date necesare pentru clusterul Hadoop. Să presupunem că avem servere cu JBOD de 10 discuri și fiecare disc are 4 dimensiuni de stocare TB, astfel încât fiecare server are 40 TB de stocare. Clusterul Hadoop obține date de 120 TB pe zi și 360 TB după aplicarea factorului de replicare implicit.
Nr. De noduri de date = capacitatea zilnică de ingerare a datelor / capacitatea nodului de date
Nr. De noduri de date = 360/40 => 9 noduri de date
Prin urmare, pentru clusterul Hadoop care obține 120 de date TB cu configurația de mai sus, trebuie să configurați doar 9 noduri de date.

4.Cum se schimbă factorul de replicare în clusterul Hadoop?

Răspuns :
Editați fișierul hdfs-site.xml. Calea implicită se află în directorul Conf / folder al directorului de instalare Hadoop. modifica / adaugă următoarele proprietăți în hdfs-site.xml:
dfs.replication
3
Replicarea blocului
Nu este obligatoriu să existe factorul de replicare 3. Poate fi setat și ca 1. Factorul de replicare 5 funcționează și în clusterul Hadoop. Configurarea valorii implicite face clusterul mai eficient și este necesar un hardware minim.
Creșterea factorului de replicare ar crește necesitatea hardware, deoarece stocarea datelor se înmulțește cu factorul de replicare.

5.Care este dimensiunea implicită a blocului de date în Hadoop și cum să o modificați?

Răspuns :
Dimensiunea blocului taie / împărți datele în blocuri și salvează-le pe noduri de date diferite.
În mod implicit, dimensiunea Blocului este 128 MB (în Apache Hadoop) și putem modifica dimensiunea implicită a blocului.
Editați fișierul hdfs-site.xml. Calea implicită se află în directorul Conf / folder al directorului de instalare Hadoop. modifica / adaugă următoarele proprietăți în hdfs-site.xml:
dfs.block.size
134217728
Dimensiunea blocului
dimensiunea blocului în octeți este de 134.217.728 sau 128MB. De asemenea, specificați dimensiunea cu sufixul (insensibil cu majuscule), cum ar fi k (kilo-), m (mega-), g (giga-) sau t (tera-) pentru a seta dimensiunea blocului în KB, MB, TB etc …

6.Cât timp clusterul Hadoop trebuie să păstreze un fișier HDFS șters din directorul șterge / coșul de gunoi?

Răspuns :
„Fs.trash.interval” este parametrul care specifică cât timp HDFS poate păstra orice fișier șters în mediul Hadoop pentru a prelua fișierul șters.
Perioada de intervale poate fi definită doar în câteva minute. Pentru un interval de recuperare de 2 zile, trebuie să specificăm proprietatea într-un format care curge.
Editați fișierul core-site.xml și adăugați-l / modificați-l folosind următoarea proprietate
fs.trash.interval
2880
În mod implicit, intervalul de regăsire este 0, dar Administratorul Hadoop poate adăuga / modifica proprietatea de mai sus conform cerințelor.

7.Care sunt comenzile de bază pentru pornirea și oprirea demonilor Hadoop?

Răspuns :
Toate comenzile de pornire și oprire a daemonelor stocate în sbin / folder.
./sbin/stop-all.sh - Pentru a opri toate daemonele simultan.
nodul starto hadoop-daemon.sh start
Hadoop-daemon.sh începe nodul de date
yarn-daemon.sh, pornește managerul de resurse
yarn-daemon.sh, start manager nod
Serverul istoric mr-jobhistory-daemon.sh start

8.Care este proprietatea de a defini alocarea memoriei pentru sarcinile gestionate de YARN?

Răspuns :
Proprietatea „yarn.nodemanager.resource.memory-mb” trebuie modificată / adăugată pentru a schimba alocarea memoriei pentru toate sarcinile gestionate de YARN.
Specifică cantitatea de RAM în MB. Nodurile de date necesită 70% din memoria RAM reală pentru a fi utilizate pentru YARN. Nodul de date cu 96 GB va folosi 68 GB pentru YARN, restul de memorie RAM este folosit de daemon Nodul de date pentru „Non-YARN-Work”
Editați fișierul „fișier yarn.xml” și adăugați / modificați următoarele proprietăți.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb valoarea implicită este 8.192MB (8 GB). Dacă nodurile de date au o capacitate mare de memorie RAM, trebuie să schimbăm valoarea, până la 70%, altfel ne vom irosi memoria.

9. Care sunt recomandările pentru dimensionarea nodului nume?

Răspuns :
Sunt recomandate următoarele detalii pentru configurarea Nodului principal într-o etapă inițială.
Procesoare: Pentru procese, este suficient un singur procesor cu 6-8 nuclee.
Memorie RAM: Pentru serverul de procesare a datelor și a lucrărilor ar trebui să aibă cel puțin 24-96 GB RAM.
Stocare: Deoarece nu există date HDFS stocate pe nodul Master. Puteți 1-2TB ca spațiu de stocare local
Întrucât este dificil să decizi încărcările de muncă viitoare, deci proiectează-ți clusterul selectând hardware cum ar fi CPU, RAM și memorie care poate fi ușor actualizabilă în timp.

10.Care sunt porturile implicite din clusterul Hadoop?

Răspuns :

Nume Daemon	Portul implicit nr
Nume Nod.	50070
Noduri de date.	50075
Nume Nume secundar.	50090
Nodul Backup / Checkpoint.	50105
Urmărirea locurilor de muncă.	50030
Urmărirea sarcinilor.	50060

Articole recomandate

Acesta a fost un ghid la Lista întrebărilor și răspunsurilor la interviu Hadoop Cluster, astfel încât candidatul să poată împărți cu ușurință aceste întrebări de interviu Hadoop Cluster. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

Întrebări de la interviu cu Elasticsearch și răspunsuri și cele mai utile
9 Amazing MapReduce Interview Întrebări și răspunsuri
8 Cel mai util ghid pentru întrebările la interviu Big Data
Întrebări la interviu ETL și răspuns la care ar trebui să știți

Întrebări la interviu și răspuns la Hadoop Cluster - Top 10 Cele mai utile

Cuprins:

Întrebări și răspunsuri la interviu Hadoop Cluster

1. Care sunt componentele majore Hadoop din clusterul Hadoop?

2.Cum să planificați stocarea datelor în clusterul Hadoop?

3.Calculează numerele de date.

4.Cum se schimbă factorul de replicare în clusterul Hadoop?

5.Care este dimensiunea implicită a blocului de date în Hadoop și cum să o modificați?

6.Cât timp clusterul Hadoop trebuie să păstreze un fișier HDFS șters din directorul șterge / coșul de gunoi?

7.Care sunt comenzile de bază pentru pornirea și oprirea demonilor Hadoop?

8.Care este proprietatea de a defini alocarea memoriei pentru sarcinile gestionate de YARN?

9. Care sunt recomandările pentru dimensionarea nodului nume?

10.Care sunt porturile implicite din clusterul Hadoop?

Articole recomandate

Instalați Ubuntu - Aflați diferiți pași pentru a instala Ubuntu

Formula întreagă - Cum se calculează numere întregi (cu reguli întregi)

Cum se instalează WiX - Un ghid complet și pași pentru instalarea WiX

Marketing integrat vs Marketing la 360 de grade - eduCBA

Sectorul asigurărilor în India - Important de știut despre sectorul asigurărilor

Ce este HTML? - Conceptul de bază - Avantaje și subseturi diferite de HTML

Ce este Houdini? - Cum funcționează - Tipuri - Exemple și avantaje

Ce este Hybrid Cloud? - Arhitectură și tipuri de instrumente de management hibrid

Ce este Hub? - Cele trei tipuri de hub-uri - Beneficiile Hub

Ce este gazduirea? - Conceptul cheie - Caracteristici și varietate de formate de găzduire

Zoomarea și panoramarea imaginilor în Photoshop

Anul 80, efect text retro cu Photoshop

Utilizarea instrumentului de recoltă perspectivă în Photoshop

Top 5 moduri Photoshop Blend pe care trebuie să le știi - Photoshop Essentials

Instrumentul Magnetic Lasso - Selecții Photoshop