Comanda HDFS - De bază către comandă avansată cu sfaturi și trucuri

Introducere în comenzile HDFS

Datele mari reprezintă un cuvânt pentru seturi de date atât de uriașe sau compuse încât software-ul convențional de prelucrare a datelor de procesare nu este suficient pentru a intra în acord cu acestea. Hadoop este un cadru de programare bazat pe Java, care asigură procesarea și spațiul de stocare a seturilor de date enorm de voluminoase într-un mediu de calcul diseminat. Fundația software Apache este cheia pentru instalarea Hadoop

Caracteristici ale HDFS:

HDFS rulează pe arhitectura Master / slave
Fișierele sunt utilizate de HDFS pentru stocarea datelor referitoare la utilizator
deține un set imens de directoare și fișiere care sunt stocate într-un format ierarhic.
În interior, un fișier este rupt în blocuri mai mici și aceste blocuri sunt stocate într-un set de date.
Namenode și Datanode sunt porțiunea de software destinată să ruleze pe mașini de produs care rulează clasic pe sistemul de operare GNU / Linux.

Namenode:

Aici sistemul de fișiere este întreținut de nodul de nume
Namenode este, de asemenea, responsabil pentru înregistrarea tuturor modificărilor sistemului de fișiere, în plus, păstrează o imagine a spațiului de nume complet al sistemului de fișiere și al blocului de fișiere în memorie
Verificarea se face periodic. prin urmare, aici se poate recupera ușor stadiul înainte ca punctul de accident să poată fi realizat aici.

Datanode:

Un Datanode furnizează date în fișierele din sistemul său de fișiere local
Pentru a intima asupra existenței sale, nodul de date trimite bătăile inimii către namenode
Un raport de bloc va fi generat pentru fiecare a zecea bătăi de inimă primite
Replicarea este implicată asupra datelor stocate în aceste noduri de date

Replicarea datelor:

Aici secvența de blocuri formează un fișier cu dimensiunea implicită a unui bloc de 128 MB
Toate blocurile din fișier, în afară de cele finale, au o dimensiune similară.
De la fiecare nod de date din cluster, elementul namenod primește o bătăi de inimă
BlockReport conține toate blocurile de pe un Datanode.
deține un set imens de directoare și fișiere care sunt stocate într-un format ierarhic.
În interior, un fișier este rupt în blocuri mai mici și aceste blocuri sunt stocate într-un set de date.
Namenode și Datanode sunt porțiunea de software destinată să ruleze pe mașini de produs care rulează clasic pe sistemul de operare GNU / Linux.

Urmărire job: dezbaterea JobTracker la NameNode pentru a încheia poziția datelor. De asemenea, localizați cele mai fine noduri TaskTracker pentru a efectua sarcini în funcție de localitatea datelor

Task tracker: Un TaskTracker este un nod din cluster care acceptă activități - operațiuni Map, Reduce și Shuffle - de la un JobTracker.

Nodul punctului de control (sau) nume secundar: Obține EditLog din nodul nume la intervale regulate și se aplică imaginii sale FS. Și copiază o imagine FS completată pe nodul de nume în timpul repornirii. Scopul întregului nod al Numelui secundar este de a avea un punct de control în HDFS.

Fire:

YARN are o componentă centrală a managerului de resurse care gestionează resursele și alocă resursele pentru fiecare aplicație.
Aici Managerul de resurse este maestrul care adjudecă resursele asociate clusterului, managerul de resurse este înrolat din două componente, managerul de aplicații și un planificator, aceste două componente gestionează împreună lucrările pe sistemele de cluster. o altă componentă apelează Node Manager (NM), care este responsabilă pentru gestionarea lucrărilor utilizatorilor și a fluxului de lucru pe un nod dat.
Standby NameNode deține o replicare exactă a datelor din namenode activ. Acționează ca un sclav, menține o stare suficientă pentru a furniza un failover rapid, dacă este esențial.

Comenzi HDFS de bază:

Comenzi HDFS de bază
Sr.No	Proprietate de comandă HDFS	Comanda HDFS
1	Tipărire versiune hadoop	Versiunea $ hadoop
2	Enumerați conținutul directorului rădăcină în HDFS	$ hadoop fs -ls
3	Raportați cantitatea de spațiu folosită și disponibilă într-un sistem de fișiere montat în prezent	$ hadoop fs -df hdfs: /
4	Echilibratorul HDFS reechilibrează datele din nodurile DataNode, mutând blocurile de la suprautilizate la nodurile subutilizate.	$ balansator hadoop
5	Comanda de ajutor	$ hadoop fs -help

Comenzi HDFS intermediare:

Comenzi HDFS intermediare
Sr.No	Proprietate de comandă HDFS	Comanda HDFS
6	creează un director la locația HDFS specificată	$ hadoop fs -mkdir / utilizator / cloudera /
7	Copiază datele dintr-o locație în alta	$ hadoop fs -put date / sample.txt / user / training / hadoop
8	Consultați spațiul ocupat de un anumit director din HDFS	$ hadoop fs -du -s -h / utilizator / cloudera /
9	Eliminați un director din Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Înlătură toate fișierele din directorul dat	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	Pentru a goli gunoiul	$ hadoop fs -expunge
12	copiază datele de la și către local la HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / utilizator / cloudera / pigjobs / * / home / cloudera / oozie /

Comenzi avansate HDFS:

Comenzi HDFS intermediare
Sr.No	Proprietate de comandă HDFS	Comanda HDFS
13	modifică permisiunile de fișiere	$ sudo -u hdfs hadoop fs -chmod 777 / utilizator / cloudera / flume /
14	setează factorul de replicare a datelor pentru un fișier	$ hadoop fs -setrep -w 5 / utilizator / cloudera / pigjobs /
15	Numărați numărul de directoare, fișiere și octeți sub hdfs	$ hadoop fs -count hdfs: /
16	face ca namenodul să existe un mod sigur	$ sudo -u hdfs hdfs dfsadmin -safemode leave
17	Hadoop format un namenod	$ hadoop namenod -format

Sfaturi și trucuri HDFS:

1) Putem realiza o recuperare mai rapidă când numărul nodurilor clusterului este mai mare.

2) Creșterea stocării pe unitatea de timp crește timpul de recuperare.

3) Hardware-ul Namenode trebuie să fie foarte fiabil.

4) Monitorizarea sofisticată poate fi realizată prin ambari.

5) Înfometarea sistemului poate fi diminuată prin creșterea numărului reductorului.

Articole recomandate

Acesta a fost un ghid pentru comenzile HDFS. Aici am discutat comenzile, caracteristicile HDFS, comenzile sale de bază, intermediare și avansate, cu reprezentare picturală, sfaturi și trucuri despre comenzi. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

Comenzile nodului
Comenzi Matlab
Avantajele SGBD
Ecosistemul Hadoop
Hadoop fs Commands

Comanda HDFS - De bază către comandă avansată cu sfaturi și trucuri

Cuprins:

Introducere în comenzile HDFS

Caracteristici ale HDFS:

Namenode:

Datanode:

Replicarea datelor:

Fire:

Comenzi HDFS de bază:

Comenzi HDFS intermediare:

Comenzi avansate HDFS:

Sfaturi și trucuri HDFS:

Articole recomandate

Metode de evaluare a afacerilor - Calculator - Certificare

Cumpărare vs Leasing - 7 cele mai bune diferențe de învățat (cu infografie)

Formula CAGR - Calculator (exemple cu șablonul Excel)

C # Rezumat și interfață - Aflați cele mai importante diferențe importante

Anul calendaristic vs Anul fiscal - Top 6 diferențe pe care ar trebui să le știi

Formula de returnare a portofoliului - Calculator (exemple cu șablonul Excel)

Power BI Dashboard vs Raport - 8 comparații uimitoare

Șablon BI de putere - Caracteristici de top ale Power BI pentru vizualizarea datelor

Operatori PostgreSQL - Diferite tipuri de operatori în PostgreSQL

10 întrebări esențiale pentru interviul BI BI Actualizate pentru 2019)

NPER în Excel - Cum se utilizează NPER în Excel (formulă, exemple)

NU în Excel (Formula, exemple) - Cum să folosești funcția NU?

ACUM Funcție în Excel (formulă, exemple) - Cum se utilizează ACUM în Excel?

Funcția NPER în Excel - Cum se utilizează funcția NPER în Excel?

Formula NPV în Excel - Cum se utilizează NPV Formula în Excel?