Introducere în Arhitectura HBase
HBase este un sistem de stocare de date distribuit cu valoare cheie distribuită și o bază de date orientată pe coloană, cu ieșire mare la scriere și performanță de citire aleatorie cu latență scăzută. Folosind HBase, putem efectua analize online în timp real. Arhitectura HBase are o lizibilitate puternică la întâmplare. În HBase, datele sunt transformate fizic în ceea ce sunt cunoscute sub numele de regiuni. Fiecare regiune este găzduită de un singur server de regiune și una sau mai multe regiuni sunt responsabile pentru fiecare server de regiune. Arhitectura HBase este compusă din servere master-slave. Clusterul HBase are un nod Master numit HMaster și mai mulți servere de regiune numite HRegion Server (HRegion Server). Există mai multe regiuni - regiuni în fiecare server regional.
Mecanism de stocare HDFS
În HDFS, Datele sunt stocate în tabel așa cum se arată mai sus.
Fiecare rând are o cheie.
Coloană: este o colecție de date care aparține unei familii de coloane și sunt incluse în rând.
Familia de coloane: Fiecare familie de coloane constă dintr-una sau mai multe coloane.
Fiecare tabel conține o colecție de familii cu coloane. Aceste coloane nu fac parte din schemă.
HBase are coloane dinamice. Diferitele celule pot avea coloane diferite, deoarece numele coloanelor sunt codificate în interiorul celulelor
Calificator pentru coloană: numele coloanei este cunoscut sub denumirea de calificativ pentru coloană.
Componente de arhitectură HBase
Există elemente principale în arhitectura HBase: HMaster și Region Server. Datele regionale de economisire a HBase.
1. HMaster
Nodul HMaster este ușor și utilizat pentru atribuirea regiunii regiunii server.
Există câteva responsabilități principale ale Hmaster care sunt:
- Efectuarea unor sarcini de administrare, inclusiv încărcare, echilibrare, creare de date, actualizare, ștergere etc.
Responsabil de modificările schemelor sau de modificările datelor META, în funcție de direcția aplicației client
- Multa lucrare DDL la tabelele HBase este tratată de HMaster.
Unele dintre metodele expuse de HMaster Interface sunt în principal. Metode META orientate la date.
- Tabel (creare, eliminare, activare, dezactivare, eliminare tabel)
- ColumnFamily (adăugați Coloana, modifica Coloana)
- Regiune (mutare, atribuire)
Clientul comunică atât cu HMaster, cât și cu ZooKeeper bidirecțional. Contactează direct serverele HRegion pentru a citi și scrie operațiuni. HMaster atribuie regiuni serverelor din regiune și, la rândul său, verifică starea de sănătate a serverelor regionale.
2. Server Region
Putem obține o idee brută despre serverul de regiune printr-o diagramă dată mai jos.
Servitorii de regiune sunt noduri de lucru care gestionează solicitările clienților pentru citire, scriere, actualizare și ștergere. Region Server este ușor, rulează pe toate nodurile din clusterul Hadoop. Sarcina principală a serverului de regiune este salvarea datelor din zone și efectuarea cererilor clienților. O altă sarcină importantă a serverului de regiune HBase este utilizarea metodei de partajare automată pentru a efectua echilibrarea sarcinii prin distribuirea dinamică a tabelului HBase atunci când devine prea mare după introducerea datelor.
HMaster poate contacta mai multe servere HRegion și îndeplinește următoarele funcții:
- Gestionarea și gazdele Regiunilor
- Regiuni împărțite automat
- Tratarea cererilor de citire și scriere
- Comunicare directă cu clienții
3. HDFS
HDFS reprezintă sistemul de fișiere distribuite Hadoop. Stochează fiecare fișier în mai multe blocuri și reproduce blocuri pe un cluster Hadoop pentru a menține toleranța la erori. HDFS oferă o toleranță ridicată la erori și funcționează cu materiale cu costuri reduse. Folosind hardware-ul de marfă ieftin pentru a adăuga noduri în cluster și procesare și economisire, acesta va oferi clientului rezultate mai bune decât hardware-ul existent. HDFS contactează componentele HBase și economisește o mulțime de date într-un mod distribuit.
4. Zookeeper
Zookeeper este un proiect open-source. HMaster și HRegionServers se înregistrează la ZooKeeper.
Oferă diverse servicii, cum ar fi menținerea informațiilor de configurare, denumirea, furnizarea de sincronizare distribuită etc. Sincronizarea distribuită este procesul de furnizare a serviciilor de coordonare între noduri pentru a accesa aplicațiile rulante. Are noduri efemere care reprezintă serverele regiunii. Serverele master utilizează aceste noduri pentru a căuta servere disponibile.
Aceste noduri sunt de asemenea utilizate pentru a urmări partițiile de rețea și eșecurile serverului. Zookeeper este mediul de interacțiune dintre serverul regiunii Client. Dacă un client dorește să comunice cu serverul de regiune, atunci zookeeper este mijlocul de comunicare dintre ei.
Cum inițializează căutarea în Arhitectura HBase
După cum știți, locația tabelului META este salvată de Zookeeper. Ori de câte ori un client se apropie sau scrie solicitări pentru HBase, procedura este următoarea.
Clientul află de la ZooKeeper cum să le plaseze tabelul META. Clientul solicită apoi cheia de rând corespunzătoare din tabelul META pentru a accesa locația serverului de regiune. Cu locația tabelului META, clientul ascunde aceste informații. Clientul nu se va referi la acestea în tabelul META până și dacă zona este mutată sau mutată. Apoi serverul META va fi solicitat din nou și memoria cache va fi actualizată. Ca întotdeauna, clienții nu pierd timpul găsind locația Serverului de regiune pe serverul META, astfel încât economisește timp și grăbește procesul de căutare.
Caracteristici
Este ușor de integrat atât din sursă, cât și din destinație cu Hadoop.
Spațiul de stocare distribuit precum HDFS este acceptat.
Are o caracteristică de acces aleatoriu folosind un tabel Hash intern pentru a stoca date pentru căutări mai rapide în fișierele HDFS.
Avantajele HBase Architecture
- Acestea pot stoca seturi mari de date
- Putem partaja baza de date
- Gigabytes până la petabytes rentabile
- Disponibilitate ridicată prin replicare și eșec
Dezavantajele arhitecturii HBase
- Structura SQL nu acceptă
- Nu acceptă tranzacția
- Doar cu cheie sortată
- Probleme de memorie cluster
Concluzie
HBase este una dintre bazele de date distribuite orientate pe coloane NonSql din apache. În timp ce se compară cu Hadoop sau Hive, HBase funcționează mai bine pentru preluarea mai puține înregistrări. Deci, în acest articol, am discutat despre arhitectura HBase și componentele sale importante.
Articole recomandate
Acesta a fost un ghid pentru HBase Architecture. Aici am discutat Conceptul, componentele, caracteristicile, avantajele și dezavantajele. De asemenea, puteți parcurge și celelalte articole sugerate pentru a afla mai multe -
- Ce este tehnologia Big Data?
- HDFS vs HBase Care este mai bun
- Ce este limbajul de asamblare?
- Introducere în HTML