Cum se instalează Apache

Înainte de a introduce modul de instalare a piesei Apache, am avea mai întâi o imagine de ansamblu generală asupra Apache și modul în care este utilizat în știința datelor.

Ce este Apache?

Apache Web Server este un server HTTP care prezintă site-urile vizitatorilor care vin pe serverul dvs. Deci, dacă doriți să implementați un site web pentru o companie sau organizație, cel mai probabil ați folosi Apache pentru asta.

Există și alte servere HTTP, cum ar fi IIS, dar Apache este standardul pe care îl folosesc majoritatea oamenilor, indiferent dacă sunt pe Linux, Windows sau Mac. Apache este implicit la care merg majoritatea oamenilor, deoarece este binecunoscut, este foarte de încredere și este gratuit.

Cu toate acestea, un lucru de realizat cu Apache este că, întrucât este un server HTTP, deci dacă instalați acest lucru pe Linux sau Windows sau Mac, tot ce vă va permite este să prezentați site-uri web statice vizitatorilor care vin pe serverul dvs. Prin urmare, dacă codificați un site HTML fără alte limbaje de programare, altele decât JavaScript, îl puteți utiliza doar cu un server Apache. Ați putea conecta toate etichetele pe serverul Apache și le puteți prezenta vizitatorilor.

Cum a folosit Apache în Data Science?

Data Science este cel mai solicitat domeniu de studiu din lumea modernă. Data scientist este considerată cea mai sexy meserie din secolul 21, cu profesioniști din diverse discipline vrea să învețe și să devină un om de știință a datelor. Apache joacă un rol crucial în orice pasionat de știința datelor, deoarece au nevoie de cunoștințe suficiente despre ecosistemul Apache Hadoop.

Ecosistemul Apache Hadoop

Primul lucru este că ecosistemul Hadoop nu este un instrument. Nu este un limbaj de programare sau un singur cadru. Este un grup de instrumente care sunt folosite împreună de diverse companii din domenii diferite pentru sarcini multiple. Vom parcurge fiecare instrument câte unul mai jos: -

  • Apache HDFS (Hadoop Distributed File System) este unitatea de stocare a Hadoop care ar putea stoca date structurate, semi-structurate și nestructurate. HDFS are metadate care păstrează fișierul jurnal despre datele stocate. Are două componente - NameNode și DataNode.
  • Apache Yarn este negociatorul de resurse care efectuează toate activitățile de procesare, precum sarcini de planificare, alocare a resurselor, etc. Are două servicii - În primul rând, este Resource Manager care programează aplicațiile care rulează în topul firelor. Al doilea este Node Manager care monitorizează utilizarea resurselor .
  • Apache Map Reduce este componenta de prelucrare a datelor din Hadoop care procesează seturi de date mari utilizând calcule distribuite și paralele bazate pe funcții Map, Sort și Shuffle și Reduceți. Funcția hartă filtrează datele, apoi se face sortarea și amestecarea și la final Reducerea agregatelor de funcții și rezumarea rezultatului.
  • Apache Pig utilizat mai ales în ETL. Are două părți - Pig Latin și timpul de funcționare Pig. Latin Latin Pig este limba utilizată pentru prelucrarea datelor folosind o interogare, în timp ce runtime de porc este mediul de execuție. O linie de Pig Latin este aproape egală cu 100 de linii de cod Map Reduce. Procesul implică mai întâi încărcarea datelor, apoi gruparea, sortarea, filtrarea și stocarea acestora în HDFS.
  • Apache Hive utilizează o interogare asemănătoare SQL pentru a analiza datele dintr-un mediu distribuit. Are două componente - linia de comandă a stupului și serverul JDBC / ODBC, iar limba folosită se numește HiveQL.
  • Apache Mahout este biblioteca Machine Learning scrisă în Java și folosită pentru a crea aplicații de învățare automată, cum ar fi clustering, clasificare sau regresie. Are algoritmi diferiți integrați pentru cazuri de utilizare diferite.
  • Apache HBase este o bază de date NoSQL scrisă în Java care administrează Hadoop. Este construit pe baza BigTable-ului Google și este capabil să gestioneze toate tipurile de date.
  • Apache Sqoop este unul dintre instrumentele de ingerare a datelor care este utilizat pentru transferul de date structurat în vrac între RDBMS și Hadoop.
  • Apache Flume este un alt instrument de ingestie a datelor care este utilizat pentru transferul de date semestructurat și nestructurat între Hadoop și alte surse de date.
  • ZooKeeper este coordonatorul care asigură coordonarea între diversele instrumente din ecosistemul Hadoop.
  • Apache Ambari este un manager de cluster care furnizează, gestionează clusterele Hadoop și, de asemenea, monitorizează starea lor de sănătate.
  • Apache Tez este un instrument nou în ecosistemul Hadoop care accelerează procesarea interogărilor Hadoop.
  • Apache Presto este un motor de interogare SQL distribuit de sursă deschisă care permite capabilitatea de interogare a platformelor încrucișate.
  • Apache HCatalog este un sistem de gestionare a metadatelor și a tabelelor pentru Hadoop, care permite interoperabilitatea între instrumentele de procesare a datelor. De asemenea, ajută utilizatorii să aleagă cele mai bune instrumente pentru mediile lor.
  • Apache Spark este cel mai utilizat și popular cadru din Data Scientist. Este un sistem de calcul cluster de mare viteză care optimizează utilizarea resurselor în cazul multor sarcini iterative. Oferă flexibilitate atât pentru procesarea lotului, cât și pentru analiza datelor în timp real.

Mai jos sunt pașii pentru Instalarea Apache

Până acum, am aflat despre Apache și despre cum este util pentru oricine dorește să învețe Știința Datelor sau Big Data Analytics. Acum, ne vom scufunda și vom instala apache pe Windows bazat pe pașii de mai jos.

  • Accesați https://httpd.apache.org/ și faceți clic pe linkul Descărcare sub secțiunea Apache httpd 2.4.38 lansată.

  • Vă va duce la pagina următoare, apoi faceți clic pe Fișiere pentru Microsoft Windows.

  • Faceți clic pe Apache Lounge.

  • Puteți descărca fișierul zip pe 32 sau 64 de biți pe baza sistemului de operare Windows. Vom descărca aici versiunea pe 64 de biți. Faceți clic pe linkul .zip corespunzător pentru a descărca.

  • Acum, necesită redistribuibil C ++ Visual Studio 2017. Așadar, îl vom descărca de pe link-ul corespunzător pe 32 de biți sau pe 64 de biți

  • După ce ambele fișiere au fost descărcate, vom merge la locația descărcată și vom instala mai întâi C ++ Redistributable Visual Studio 2017. Faceți dublu clic pe fișierul .exe.

  • Verificați „Sunt de acord” și faceți clic pe Instalare.

  • Instalarea Apache este în desfășurare.

  • Odată finalizat, veți primi un mesaj ca acesta. Faceți clic pe Închidere pentru a termina instalarea.

  • Acum, accesați folderul în care descărcați fișierul zip Apache. Faceți clic dreapta pe ea și selectați extractul aici.

  • Acum, vom avea un folder Apache24 creat. Copiați acest folder pe unitatea C, apoi vom adăuga o cale către variabilele de mediu ale sistemului.

Accesați Proprietățile sistemului -> fila Advanced -> Faceți clic pe butonul Variables de mediu de mai jos.

  • În Variabile, găsiți Calea și faceți clic pe Modificare.

  • Faceți clic pe Parcurgere -> Accesați folderul C unitate Apache24 -> Selectați dosarul bin -> Faceți clic pe Ok.

  • Vom instala Apache ca serviciu Windows. Execută prompt de comandă ca administrator. Tastați httpd –k instalați și apăsați enter.

  • Vom verifica serviciul de instalare Apache. Faceți clic pe pictograma Windows și tastați servicii. Faceți clic pe aplicația Servicii și găsiți serviciul cu numele Apache24.

  • Pentru a porni serverul Apache, faceți clic dreapta pe el și faceți clic pe Start. Starea se va schimba în „Rulare”.

  • Putem testa cu un browser. Deschideți un browser și navigați la http: // localhost și apăsați enter. Un mesaj care spune „Funcționează!” va apărea pentru a confirma instalarea cu succes a Apache.

Articole recomandate

Acesta a fost un ghid despre Cum se instalează Apache. Aici am discutat despre Instrucțiuni și diferiți pași pentru instalarea Apache. De asemenea, puteți consulta articolul următor pentru a afla mai multe -

  1. Întrebări la interviu Apache
  2. Apache Spark vs Apache Flink
  3. Apache Hadoop vs Apache Spark
  4. Apache Kafka vs Flume
  5. Kafka vs Kinesis | Diferențe de top

Categorie: