Ce este MapReduce în Hadoop
MapReduce este un cadru de Hadoop, care este utilizat pentru a prelucra în paralel cantități uriașe de date despre clustere mari de hardware de mărfuri într-o manieră fiabilă. Hadoop este un proiect open-source furnizat de fundația software Apache. Hadoop utilizat pentru a efectua analize rapide și fiabile atât pentru date structurate, cât și pentru date nestructurate. Hadoop poate gestiona seturi de date foarte mari și care ar putea fi atât date structurate, cât și date nestructurate, care este de fapt asociat cu datele mari. Cadru Hadoop care permite unei aplicații să stocheze datele într-o formă distribuită și să proceseze seturi de date mari pe grupuri de calculatoare folosind un model de programare simplu, adică Map Reduce, deci cu alte cuvinte putem numi Map Reduce ca model de programare utilizat pentru procesare cantitate uriașă de date distribuite pe numărul de clustere. Hadoop se poate extinde de la servere individuale la mii de noduri sau mașini de calcul, fiecare folosind la calcul și stocare.
Proiectul Apache Hadoop conține o serie de subproiecte ca:
- Hadoop Common: Hadoop Common având utilități care acceptă celelalte subproiecte Hadoop.
- Sistemul de fișiere distribuit Hadoop (HDFS): Sistemul de fișiere distribuite Hadoop oferă accesul la fișierul distribuit la datele aplicației.
- Hadoop MapReduce: Hadoop MapReduce este un cadru software pentru procesarea seturilor mari de date distribuite pe clustere de calcul.
- Hadoop YARN: Hadoop YARN este un cadru pentru gestionarea resurselor și planificarea lucrărilor.
Cum face MapReduce din Hadoop să funcționeze atât de ușor?
MapReduce facilitează extinderea procesării datelor pe sute sau mii de aparate de cluster. Modelul MapReduce funcționează de fapt în două etape numite map and reduce și procesarea numită mapper și respectiv reductor. Odată ce scriem MapReduce pentru o aplicație, aplicarea la scalare pentru a rula mai mulți sau chiar multiplu de mii de clustere este doar o modificare de configurare. Această caracteristică a modelului MapReduce a atras mulți programatori să-l folosească.
Cum funcționează MapReduce în Hadoop?
Programul MapReduce se execută în principal în Patru Pași:
- Divizii de intrare
- Hartă
- Amesteca
- Reduce
Acum vom vedea fiecare pas cum funcționează.
1. Harta pas-
Acest pas este combinația dintre pasul de divizare de intrare și pasul de hartă. În pasul Map, fișierul sursă este trecut linie cu linie. Înainte de trecerea intrării la jobul funcției Map, intrarea este împărțită în dimensiuni mici mici numite Split split. Split de intrare este o bucată a intrării care ar putea fi consumată de o singură hartă. În pasul Map, fiecare date împărțite este trecută la funcția mapper, apoi funcția mapper procesează datele și apoi valorile de ieșire. În general, datele de intrare de lucru ale hărții sau ale mapperului sunt sub forma unui fișier sau director care este stocat în sistemul de fișiere Hadoop (HDFS).
2. Reduce pasul
Această etapă este combinația dintre pasul Shuffle și Reducerea. Funcția reduce sau lucrarea Reducer preia datele care sunt rezultatul funcției de hartă. După procesare prin reducerea funcției, se produce un nou set de rezultate care se stochează din nou în HDFS.
Într-un cadru Hadoop, nu este sigur că fiecare cluster îndeplinește ce slujbă fie Map, Reduce sau ambele Map and Reduce. Deci solicitarea sarcinilor Map and Reduce trebuie trimisă serverelor corespunzătoare din cluster. Cadrul Hadoop însuși gestionează toate sarcinile de emitere, verificarea finalizării lucrărilor, preluarea datelor de la HDFS, copierea datelor în clusterul nodurilor și tot așa. În Hadoop, calculul are loc mai ales pe noduri, împreună cu datele din noduri în sine, ceea ce reduce traficul de rețea.
Prin urmare, cadrul MapReduce este foarte util în cadrul Hadoop.
Avantajele MapReduce
- Scalabilitate - MapReduce face ca Hadoop să fie extrem de scalabil, deoarece face posibilă stocarea seturilor de date mari în distribuirea formei pe mai multe servere. Întrucât este distribuit pe mai multe, poate funcționa în paralel.
- Soluție rentabilă - MapReduce oferă o soluție foarte rentabilă pentru întreprinderile care trebuie să stocheze datele în creștere și să proceseze datele într-un mod foarte rentabil, ceea ce este nevoia de azi a afacerii.
- Flexibilitate - MapReduce face Hadoop foarte flexibil pentru diferite surse de date și chiar pentru diferite tipuri de date, cum ar fi date structurate sau nestructurate. Prin urmare, este foarte flexibil pentru a accesa date structurate sau nestructurate și a le prelucra.
- Rapid - Ca date de stocare Hadoop în sistemul de fișiere distribuit, prin care stocarea datelor pe discul local al unui cluster și programele MapReduce sunt, de asemenea, în general, localizate în aceleași servere, ceea ce permite o procesare mai rapidă a datelor, fără a fi nevoie de accesare datele de pe alte servere.
- Procesare paralelă - întrucât datele de stocare Hadoop în sistemul de fișiere distribuit și funcționarea programului MapReduce sunt astfel încât divizează harta sarcinilor și reduce și poate fi executat în paralel. Și din nou datorită execuției paralele, reduce întregul timp de rulare.
Aptitudini
Aptitudinile necesare pentru MapReduce în Hadoop au cunoștințe bune de programare despre Java (obligatoriu), sistemul de operare Linux și cunoștințe de interogări SQL.
Domeniul de aplicare al MapReduce în Hadoop
MapReduce în Hadoop este un câmp cu creștere rapidă, deoarece câmpul de date mari este în creștere, astfel că sfera MapReduce din Hadoop este foarte promițătoare pe viitor, deoarece cantitatea de date structurate și nestructurate crește exponențial zi de zi. Platformele de social media generează o mulțime de date nestructurate care pot fi extrase pentru a obține informații reale în diferite domenii.
Concluzie
- MapReduce este un cadru de Hadoop, care este utilizat pentru a prelucra în paralel cantități uriașe de date despre clustere mari de hardware de mărfuri într-o manieră fiabilă.
- Proiectul Apache Hadoop conține o serie de subproiecte precum Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
- În etapa de hartă, fiecare date împărțite este trecută la funcția de mapare, apoi funcția de mapare procesează datele și apoi valorile de ieșire.
- Funcția reduce sau lucrarea Reducer preia datele care sunt rezultatul funcției de hartă.
- Avantajele MapReduce sunt listate ca scalabilitate, soluție rentabilă, flexibilitate, procesare rapidă și paralelă.
Articole recomandate
Acesta a fost un ghid pentru Ce este MapReduce în Hadoop. Aici am discutat componentele, activitatea, abilitățile, creșterea carierei și avantajele MapReduce în Hadoop. Puteți parcurge și alte articole sugerate pentru a afla mai multe
- Ce este un algoritm?
- Diferențele dintre Hadoop și MapReduce
- Ce este Azure?
- Ce este tehnologia Big Data?
- Cum funcționează MapReduce