Comanda HDFS - De bază către comandă avansată cu sfaturi și trucuri

Cuprins:

Anonim

Introducere în comenzile HDFS

Datele mari reprezintă un cuvânt pentru seturi de date atât de uriașe sau compuse încât software-ul convențional de prelucrare a datelor de procesare nu este suficient pentru a intra în acord cu acestea. Hadoop este un cadru de programare bazat pe Java, care asigură procesarea și spațiul de stocare a seturilor de date enorm de voluminoase într-un mediu de calcul diseminat. Fundația software Apache este cheia pentru instalarea Hadoop

Caracteristici ale HDFS:

  • HDFS rulează pe arhitectura Master / slave
  • Fișierele sunt utilizate de HDFS pentru stocarea datelor referitoare la utilizator
  • deține un set imens de directoare și fișiere care sunt stocate într-un format ierarhic.
  • În interior, un fișier este rupt în blocuri mai mici și aceste blocuri sunt stocate într-un set de date.
  • Namenode și Datanode sunt porțiunea de software destinată să ruleze pe mașini de produs care rulează clasic pe sistemul de operare GNU / Linux.

Namenode:

  • Aici sistemul de fișiere este întreținut de nodul de nume
  • Namenode este, de asemenea, responsabil pentru înregistrarea tuturor modificărilor sistemului de fișiere, în plus, păstrează o imagine a spațiului de nume complet al sistemului de fișiere și al blocului de fișiere în memorie
  • Verificarea se face periodic. prin urmare, aici se poate recupera ușor stadiul înainte ca punctul de accident să poată fi realizat aici.

Datanode:

  • Un Datanode furnizează date în fișierele din sistemul său de fișiere local
  • Pentru a intima asupra existenței sale, nodul de date trimite bătăile inimii către namenode
  • Un raport de bloc va fi generat pentru fiecare a zecea bătăi de inimă primite
  • Replicarea este implicată asupra datelor stocate în aceste noduri de date

Replicarea datelor:

  • Aici secvența de blocuri formează un fișier cu dimensiunea implicită a unui bloc de 128 MB
  • Toate blocurile din fișier, în afară de cele finale, au o dimensiune similară.
  • De la fiecare nod de date din cluster, elementul namenod primește o bătăi de inimă
  • BlockReport conține toate blocurile de pe un Datanode.
  • deține un set imens de directoare și fișiere care sunt stocate într-un format ierarhic.
  • În interior, un fișier este rupt în blocuri mai mici și aceste blocuri sunt stocate într-un set de date.
  • Namenode și Datanode sunt porțiunea de software destinată să ruleze pe mașini de produs care rulează clasic pe sistemul de operare GNU / Linux.

Urmărire job: dezbaterea JobTracker la NameNode pentru a încheia poziția datelor. De asemenea, localizați cele mai fine noduri TaskTracker pentru a efectua sarcini în funcție de localitatea datelor

Task tracker: Un TaskTracker este un nod din cluster care acceptă activități - operațiuni Map, Reduce și Shuffle - de la un JobTracker.

Nodul punctului de control (sau) nume secundar: Obține EditLog din nodul nume la intervale regulate și se aplică imaginii sale FS. Și copiază o imagine FS completată pe nodul de nume în timpul repornirii. Scopul întregului nod al Numelui secundar este de a avea un punct de control în HDFS.

Fire:

  • YARN are o componentă centrală a managerului de resurse care gestionează resursele și alocă resursele pentru fiecare aplicație.
  • Aici Managerul de resurse este maestrul care adjudecă resursele asociate clusterului, managerul de resurse este înrolat din două componente, managerul de aplicații și un planificator, aceste două componente gestionează împreună lucrările pe sistemele de cluster. o altă componentă apelează Node Manager (NM), care este responsabilă pentru gestionarea lucrărilor utilizatorilor și a fluxului de lucru pe un nod dat.
  • Standby NameNode deține o replicare exactă a datelor din namenode activ. Acționează ca un sclav, menține o stare suficientă pentru a furniza un failover rapid, dacă este esențial.

Comenzi HDFS de bază:

Comenzi HDFS de bază

Sr.NoProprietate de comandă HDFSComanda HDFS
1Tipărire versiune hadoopVersiunea $ hadoop
2Enumerați conținutul directorului rădăcină în HDFS$ hadoop fs -ls
3Raportați cantitatea de spațiu folosită și disponibilă într-un sistem de fișiere montat în prezent$ hadoop fs -df hdfs: /
4Echilibratorul HDFS reechilibrează datele din nodurile DataNode, mutând blocurile de la suprautilizate la nodurile subutilizate.$ balansator hadoop
5Comanda de ajutor$ hadoop fs -help

Comenzi HDFS intermediare:

Comenzi HDFS intermediare

Sr.NoProprietate de comandă HDFSComanda HDFS
6creează un director la locația HDFS specificată$ hadoop fs -mkdir / utilizator / cloudera /
7Copiază datele dintr-o locație în alta$ hadoop fs -put date / sample.txt / user / training / hadoop
8Consultați spațiul ocupat de un anumit director din HDFS$ hadoop fs -du -s -h / utilizator / cloudera /
9Eliminați un director din Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Înlătură toate fișierele din directorul dat$ hadoop fs -rm -skipTrash hadoop / retail / *
11Pentru a goli gunoiul$ hadoop fs -expunge
12copiază datele de la și către local la HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / utilizator / cloudera / pigjobs / * / home / cloudera / oozie /

Comenzi avansate HDFS:

Comenzi HDFS intermediare

Sr.NoProprietate de comandă HDFSComanda HDFS
13modifică permisiunile de fișiere$ sudo -u hdfs hadoop fs -chmod 777 / utilizator / cloudera / flume /
14setează factorul de replicare a datelor pentru un fișier$ hadoop fs -setrep -w 5 / utilizator / cloudera / pigjobs /
15Numărați numărul de directoare, fișiere și octeți sub hdfs$ hadoop fs -count hdfs: /
16face ca namenodul să existe un mod sigur$ sudo -u hdfs hdfs dfsadmin -safemode leave
17Hadoop format un namenod$ hadoop namenod -format

Sfaturi și trucuri HDFS:

1) Putem realiza o recuperare mai rapidă când numărul nodurilor clusterului este mai mare.

2) Creșterea stocării pe unitatea de timp crește timpul de recuperare.

3) Hardware-ul Namenode trebuie să fie foarte fiabil.

4) Monitorizarea sofisticată poate fi realizată prin ambari.

5) Înfometarea sistemului poate fi diminuată prin creșterea numărului reductorului.

Articole recomandate

Acesta a fost un ghid pentru comenzile HDFS. Aici am discutat comenzile, caracteristicile HDFS, comenzile sale de bază, intermediare și avansate, cu reprezentare picturală, sfaturi și trucuri despre comenzi. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Comenzile nodului
  2. Comenzi Matlab
  3. Avantajele SGBD
  4. Ecosistemul Hadoop
  5. Hadoop fs Commands