Introducere în MapReduce întrebări și răspunsuri la interviu

MapReduce este un simplu model paralel de programare a datelor proiectat pentru scalabilitate și toleranță la erori. Putem spune că MapReduce este un cadru, care folosește conceptul de noduri pentru a paralela problemele care apar în seturile de date mari, dacă sunt rețele locale, folosește același hardware și dacă MapReduce este distribuit geografic, folosește hardware diferit. MapReduce este compus în esență din funcția Map () și funcția Reduce (). Acesta a fost popularizat prin proiectul open-source Hadoop.

Mai jos sunt cele 9 importante întrebări și răspunsuri la interviu MapReduce 2019:

Dacă sunteți în căutarea unui loc de muncă care are legătură cu MapReduce, trebuie să vă pregătiți pentru întrebările de interviu MapReduce din 2019. Deși fiecare interviu MapReduce este diferit, iar sfera unui loc de muncă este de asemenea diferită, vă putem ajuta cu întrebările de interviu de top MapReduce cu răspunsuri, care vă vor ajuta să faceți saltul și să vă obțineți succesul în interviu.

Aceste întrebări sunt împărțite în două părți:

Partea 1 - MapReduce întrebări la interviu (de bază)

Această primă parte acoperă întrebările de bază și răspunsurile la interviu MapReduce.

1. Ce este MapReduce?

Răspuns:
MapReduce este un simplu model paralel de programare a datelor proiectat pentru scalabilitate și toleranță la erori. Cu alte cuvinte, este un cadru care prelucrează probleme paralelizabile în seturi de date mari, folosind conceptul de noduri (numărul de calculatoare) care, la rândul lor, sunt clasificate ca clustere, dacă este o rețea locală și utilizează același hardware sau grilă dacă sunt distribuit geografic și utilizează diferite componente hardware. MapReduce cuprinde în esență o funcție Map () și o funcție Reduce (). Acesta a fost pionier de Google și prelucrează numeroase petabyte de date în fiecare zi. Acesta a fost popularizat prin proiectul Hadoop open-source și este folosit la Yahoo, Facebook și Amazon pentru a numi câteva.

2. La ce se folosește MapReduce compania-By-By?

Răspuns:
Google
• Construirea indexului pentru căutarea Google
Procesul de construire a unui indice pozițional sau nepozițional se numește construcție de index sau indexare. Rolul MapReduce este Index Construction și este proiectat pentru clustere mari de calculatoare. Scopul clusterului este de a rezolva probleme de calcul pentru noduri sau computere care sunt construite cu piese standard, mai degrabă decât cu un supercomputer.
• Clustering de articole pentru Google News
Pentru clusteringul de articole, paginile sunt clasificate mai întâi în funcție de dacă sunt necesare pentru clustering. Paginile includ o mulțime de informații care nu sunt necesare pentru clustering. Apoi, articolul este adus în forma sa vectorială pe baza cuvintelor cheie și ponderea pe care o acordă. Apoi sunt grupate folosind algoritmi.
• Traducere automată statistică
Traducerea corpurilor de text bilingve prin analiză generează modele statistice care traduc o limbă în alta folosind greutăți și este redusă la cea mai probabilă traducere.
Yahoo
• „Harta web” care alimentează Yahoo! Căutare
Similar cu articolele de aglomerare pentru Google News, MapReduce este utilizat pentru clustering rezultatele de căutare pe Yahoo! Platformă.
• Detectare spam pentru Yahoo! Poștă
Facebook
• Minerirea datelor
Tendința recentă a exploziei de date a dus la necesitatea unor metode sofisticate pentru a împărți datele în bucăți care pot fi utilizate cu ușurință pentru următorul pas de analiză.
• d Optimizare
• Detectare spam

Să trecem la următoarea întrebare pentru interviu MapReduce.

3. Care sunt obiectivele de design MapReduce

Răspuns:
Scalabilitate la volumele de date mari
Deoarece MapReduce este un cadru care are ca scop lucrul cu date paralelizabile folosind conceptul de noduri care reprezintă numărul de calculatoare, fie ca clustere sau grile, este scalabil la un număr de mașini de calculator. Așadar, un obiectiv important de design al MapReduce este că acesta poate fi scalabil la 1000 de mașini și deci 10.000 de discuri.
Eficiența costurilor
Deoarece MapReduce funcționează cu paralelizarea datelor la nodurile sau la numărul de calculatoare, următoarele sunt motivele care le fac rentabile:
-Vedeți mașinile de marfă în locul unui supercomputer. Deși ieftine sunt nesigure.
-Rețea de acomodare
-Toleranță automată la erori, adică sunt necesari mai puțini administratori.
-Este ușor de utilizat, adică necesită mai puțini programatori.

4. Care sunt provocările MapReduce?

Răspuns:
Aceasta este întrebarea comună a interviului MapReduce la un interviu. Principalele provocări ale MapReduce sunt următoarele:
-Neapele de cheie nu reușesc, mai ales dacă aveți multe
Durata medie între eșecurile pentru un nod este egală cu 3 ani. Durata medie între eșecurile pentru 1000 de noduri este egală cu 1 zi. Soluția constă în construirea toleranței la erori în sistemul însuși.
-Rețea de acomodare este egală cu sau implică o lățime de bandă redusă
Soluția pentru o lățime de bandă redusă este să împingă calculul către date.
-Programarea sistemelor distribuite este grea
Soluția pentru aceasta este că, conform modelului de programare paralel cu datele, utilizatorii scriu funcții „hartă” și „reduce”. Sistemul distribuie lucrul și gestionează defecțiunile.

5. Care este modelul de programare MapReduce?

Răspuns:
Modelul de programare MapReduce se bazează pe un concept numit înregistrări cu valoare cheie. De asemenea, oferă paradigme pentru prelucrarea paralelă a datelor. Pentru procesarea datelor din MapReduce, atât datele de intrare cât și cele de ieșire trebuie să fie mapate în formatul mai multor perechi cheie-valoare. Perechea cheie-valoare unică este de asemenea denumită înregistrare. Modelul de programare MapReduce constă dintr-o funcție Map () și o funcție Reduceți. Modelul pentru acestea este următorul.
Funcția Map (): (K in, V in) list (K inter, V inter)
Reduceți funcția (): (K inter, lista (V inter)) list (K afară, V afară)

Partea 2 - MapReduce întrebări la interviu (avansat)

Să aruncăm acum o privire la întrebările avansate pentru interviu MapReduce.

6. Care sunt detaliile de execuție MapReduce?

Răspuns:
În cazul execuției MapReduce, un singur master controlează execuția lucrărilor pe mai mulți sclavi. Se preferă să se plaseze mapping pe același nod sau același rack ca blocul lor de intrare, astfel încât să se reducă la minimum utilizarea rețelei. De asemenea, mapatorii salvează ieșirile pe discul local înainte de a le servi la reductoare. Aceasta permite recuperarea dacă un reductor se prăbușește și permite mai mulți reducători decât nodurile.

7. Ce este un combinator?

Răspuns:
Combinatorul care este cunoscut și sub denumirea de semi-reductor funcționează prin acceptarea intrărilor din clasa Map și trecerea perechilor cheie-valoare de ieșire la clasa Reducer. Funcția principală a unui combinator este de a rezuma înregistrările de ieșire pe hartă cu aceeași cheie. Cu alte cuvinte, un combinator este o funcție de agregare locală pentru tastele repetate produse de aceeași hartă. Funcționează pentru funcții asociative precum SUM, COUNT și MAX. Acesta reduce dimensiunea datelor intermediare, deoarece este un rezumat al agregării valorilor pentru toate tastele repetitive.

Să trecem la următoarea întrebare pentru interviu MapReduce.

8.De ce porc? De ce nu MapReduce?

Răspuns:
• MapReduce permite programatorului să efectueze o funcție de hartă urmată de o funcție de reducere, dar lucrul la modul de încadrare a procesării datelor dvs. în acest model, care necesită adesea mai multe etape MapReduce, poate fi o provocare.
• Cu Pig, structurile de date sunt mult mai bogate, deoarece sunt multivaluate și cuibărite, iar setul de transformări pe care le puteți aplica datelor este mult mai puternic. De exemplu, acestea includ uniri care nu sunt posibile în MapReduce.
• De asemenea, Pig este un program care transformă transformarea într-o serie de MapReduce Jobs.

9.MapReduce critica

Răspuns:
O critică proeminentă a MapReduce este că ciclul de dezvoltare este foarte lung. Scrierea mapeștilor și a reductorilor, compilarea și ambalarea codului, transmiterea lucrării și preluarea rezultatelor necesită mult timp. Chiar și cu streaming, care elimină pasul de compilare și pachet, experiența durează încă mult timp.

Articol recomandat

Acesta a fost un ghid la Lista întrebărilor și răspunsurilor la interviu MapReduce, astfel încât candidatul să poată împărți cu ușurință aceste întrebări de interviu MapReduce. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Întrebări importante pentru interviu pentru analiza datelor
  2. 10 Întrebări pentru cel mai bun model de proiectare
  3. Întrebări la interviu Elasticsearch
  4. Cele mai utile întrebări la interviu Ruby
  5. Cum funcționează MapReduce