Hadoop YARN Architecture - Diferite componente ale firului

Cuprins:

Anonim

Introducere în Arhitectura Hadoop YARN

MapReduce a fost utilizat pentru a realiza atât gestionarea resurselor, cât și procesarea în versiunea anterioară Hadoop 1.0. Aici Job Tracker a efectuat alocarea resurselor, planificarea și monitorizarea lucrărilor, alocând hartă și reducând sarcinile către Task Tracker. Aceasta a dus la probleme precum scalabilitatea, utilizarea ineficientă a resurselor. Întrucât cadrul Hadoop a suferit mai multe schimbări de-a lungul anilor; putem vedea că poate fi folosit pentru a efectua mult mai mult decât rulând doar lucrările MapReduce. YARN reprezintă încă un Resurs Negociator, numit sistemul de management al clusterului Hadoop, care a fost introdus cu Hadoop 2.0 pentru a sprijini calculul distribuit, care îmbunătățește și implementarea MapReduce. În YARN, managerul de resurse și planificatorii sunt externi cadrului. Deci în YARN, deși avem noduri de date, nu mai există Task Trackers sau Job Trackers. De asemenea, cu YARN, putem avea Management de Resurse, precum și Planificare generică. În acest subiect, vom învăța despre arhitectura diferită a YARN

Explicați arhitectura HADOOP YARN cu diagrama

(Arhitectura lui Hadoop YARN)

YARN introduce conceptul de Resource Manager și de Master Application în Hadoop 2.0. Resource Manager vede utilizarea resurselor în clusterul Hadoop, în timp ce ciclul de viață al aplicațiilor care rulează pe un anumit cluster este supravegheat de Application Application. Practic, putem spune că pentru resursele de cluster, Application Master negociază cu Resource Manager. Această sarcină este realizată de containerele care dețin restricții de memorie definite. Apoi, aceste containere sunt utilizate pentru a rula procesele specifice aplicației și, de asemenea, aceste containere sunt supravegheate de către managerii de noduri care rulează pe noduri din cluster. Acest lucru va confirma că aplicația nu folosește mai mult decât resursele alocate.

Diferite componente ale firului

Mai jos sunt prezentate diferitele componente ale firului.

1) Manager resurse

YARN funcționează printr-un Resource Manager care este unul pe nod și Manager de noduri care rulează pe toate nodurile. Resource Manager gestionează resursele utilizate în cluster și Node Manager prânzurile și monitorizează containerele. Scheduler și Application Manager sunt două componente ale Resource Manager.

  • Planificator : Planificarea se realizează pe baza cerințelor de resurse de către aplicații. YARN oferă câteva programe din care să aleagă și sunt Scheduler corect și de capacitate. În cazul unei defecțiuni hardware sau a aplicației, Scheduler nu asigură repornirea sarcinilor eșuate. De asemenea, Scheduler alocă resurse aplicațiilor care rulează pe baza capacității și a cozii.
  • Managerul de aplicații : gestionează rularea aplicației Master Master într-un cluster și la eșecul aplicației Master Master Container, ajută la repornirea acestuia. De asemenea, poartă responsabilitatea acceptării depunerii locurilor de muncă.

2) Node Manager

Node Manager este responsabil pentru executarea sarcinii din fiecare nod de date. Node Manager în YARN trimite în mod implicit o bătăi de inimă către Managerul de resurse care transportă informațiile despre containerele care rulează și cu privire la disponibilitatea resurselor pentru noile containere. Este responsabil de vizualizarea individuală a nodurilor din cluster și gestionează fluxul de lucru și lucrările utilizatorului pe un nod specific. Gestionează în principal containerele de aplicații care sunt alocate de către Resource Manager. Node Manager pornește containerele creând procesele containerului care sunt solicitate și, de asemenea, ucide containerele, așa cum a cerut managerul de resurse.

3) Containere

Containerele sunt seturi de resurse precum RAM, CPU și Memorie etc pe un singur nod și sunt programate de Resource Manager și monitorizate de Node Manager. Ciclul de viață al containerului gestionează containerele YARN utilizând contextul de lansare a containerului și oferă acces la aplicație pentru utilizarea specifică a resurselor dintr-o anumită gazdă.

4) Master Application

Monitorizează execuția sarcinilor și, de asemenea, gestionează ciclul de viață al aplicațiilor care rulează pe cluster. Un master individual de aplicație se asociază cu un loc de muncă atunci când este trimis la cadru. Responsabilitatea sa principală este să negocieze resursele de la Managerul de Resurse. Funcționează cu Node Manager pentru a monitoriza și executa sarcinile.

Pentru a rula o aplicație prin YARN, sunt efectuate etapele de mai jos.

  • Clientul contactează Resource Manager care solicită să ruleze procesul de cerere, adică depune cererea YARN.
  • Următorul pas este ca Resource Manager să caute un Node Manager care, la rândul său, să lanseze Application Master într-un container.
  • Aplicația Master poate fie să execute execuția în containerul în care se execută în prezent și să furnizeze rezultatul clientului sau poate solicita mai multe containere de la managerul de resurse care poate fi numit calcul distribuit.
  • Clientul contactează apoi Resource Manager pentru a monitoriza starea aplicației.

Cu MapReduce în versiunea Hadoop 1.0 (MRV1), numărul de hărți și sloturi de reducere au fost definite pe nod. De asemenea, într-un cluster Hadoop, deoarece capacitățile hardware au variat, iar numărul de sarcini de pe un nod specific trebuia limitat manual. Dar cu YARN, acest neajuns este depășit, deoarece aici Resource Manager știe despre capacitatea fiecărui nod, deoarece comunică cu Managerul de noduri care rulează pe fiecare nod.

Concluzie - Arhitectura Hadoop YARN

YARN ajută la depășirea problemei de scalabilitate a MapReduce în Hadoop 1.0, deoarece divizează activitatea Job Job Tracker, atât a planificării lucrărilor, cât și a monitorizării progresului sarcinilor. De asemenea, problema disponibilității este depășită, la fel ca în Hadoop 1.0, eșecul Job Tracker a dus la repornirea sarcinilor. YARN a venit cu multe bonusuri adăugate, cum ar fi o utilizare mai bună a resurselor, deoarece nu există un slot fix pentru sarcini, deoarece oferă gestionarea centrală a resurselor. Deci, cu YARN, multe dintre problemele cu care se confruntă versiunea anterioară a Hadoop sunt depășite, deoarece ajută la segregarea procesării datelor de la planificare și gestionarea resurselor. Cu YARN, este posibil să rulați interogări interactive în mod independent, precum și să furnizați o analiză mai bună în timp real.

Articole recomandate

Acesta a fost un ghid pentru Arhitectura YARN Hadoop. Aici vom discuta despre diferitele componente ale YARN care includ Resource Manager, Node Manager și Containers împreună cu Arhitectura. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Ecosistemul Apache Hadoop
  2. Componentele ecosistemului Hadoop
  3. Componente Hadoop
  4. Ecosistemul Hadoop