Cum se instalează Spark?
Spark este un cadru open source pentru rularea aplicațiilor de analiză. Este un motor de prelucrare a datelor găzduit de compania Apache Software Foundation, care funcționează pe seturi de date mari sau date mari. Este un sistem de calcul cluster cu scop general care oferă API-uri la nivel înalt în Scala, Python, Java și R. Acesta a fost dezvoltat pentru a depăși limitările din paradigma MapReduce a Hadoop. Oamenii de știință de date cred că Spark execută de 100 de ori mai rapid decât MapReduce, deoarece poate memora date în memorie în timp ce MapReduce funcționează mai mult citind și scriind pe discuri. Realizează procesarea în memorie ceea ce o face mai puternică și mai rapidă.
Spark nu are propriul sistem de fișiere. Procesează date din surse de date diverse, cum ar fi sistemul de fișiere distribuite Hadoop (HDFS), sistemul S3 Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Se poate rula pe Hadoop YARN (încă o resursă negociator), pe Mesos, pe EC2, pe Kubernetes sau folosind modul de cluster autonom. Utilizează RDDs (Resilient Distributed Dataset) pentru a delega sarcinile de lucru în nodurile individuale care acceptă aplicații iterative. Datorită RDD, programarea este ușoară în comparație cu Hadoop.
Scânteia este formată din diverse componente numite componente ale ecosistemului Spark.
- Spark Core: Este fundamentul aplicației Spark de care alte componente sunt direct dependente. Oferă o platformă pentru o mare varietate de aplicații, cum ar fi programarea, distribuirea sarcinilor distribuite, procesarea memoriei și referința datelor.
- Spark Streaming: este componenta care funcționează pe date live streaming pentru a furniza analize în timp real. Datele live sunt ingerate în unități discrete numite loturi care sunt executate pe Spark Core.
- Spark SQL: este componenta care funcționează deasupra Spark core pentru a rula interogări SQL pe date structurate sau semi-structurate. Data Frame este modalitatea de interacțiune cu Spark SQL.
- GraphX: Este motorul sau cadrul de calcul grafic care permite procesarea datelor grafice. Acesta oferă diferiți algoritmi de grafic pentru a rula pe Spark.
- MLlib: Conține algoritmi de învățare automată care oferă un cadru de învățare automată într-un mediu distribuit bazat pe memorie. Realizează algoritmi iterativi în mod eficient datorită capacității de procesare a datelor din memorie.
- SparkR: Spark oferă un pachet R pentru a rula sau analiza seturi de date folosind shell-ul R.
Există trei moduri de a instala sau de a implementa scânteie în sistemele dvs.:
- Modul autonom în Spache Apache
- Hadoop YARN / Mesos
- SIMR (Spark in MapReduce)
Să vedem desfășurarea în modul autonom.
Modul de desfășurare autonom Spark:
Pasul 1: Actualizați indexul pachetului
Acest lucru este necesar pentru a actualiza toate pachetele prezente în aparatul dumneavoastră.
Utilizați comanda : actualizare $ sudo apt-get
Pasul 2: Instalați Java Development Kit (JDK)
Aceasta va instala JDK în aparatul dvs. și v-ar ajuta să rulați aplicații Java.
Pasul 3: verificați dacă Java s-a instalat corect
Java este o condiție prealabilă pentru utilizarea sau rularea aplicațiilor Apache Spark.
Utilizați comanda : $ java –version
Această captură de ecran arată versiunea java și asigură prezența java pe mașină.
Pasul 4: Instalați Scala pe mașina dvs.
Întrucât Spark este scris în scala, trebuie să fie instalată scala pentru a rula scânteie pe mașina ta.
Utilizați comanda: $ sudo apt-get install scala
Pasul 5: verificați dacă Scala este instalat corect
Acest lucru va asigura instalarea cu succes a scării pe sistemul dvs.
Utilizați comanda : $ scala - inversiune
Pasul 6: Descărcați Apache Spark
Descărcați Apache Spark conform versiunii dvs. Hadoop de la https://spark.apache.org/downloads.html
Când veți merge pe linkul de mai sus, va apărea o fereastră.
Pasul 7: Selectați versiunea corespunzătoare în funcție de versiunea dvs. Hadoop și faceți clic pe linkul marcat.
O altă fereastră ar apărea.
Pasul 8: Faceți clic pe linkul marcat și scânteia Apache va fi descărcată în sistemul dvs.
Verificați dacă fișierul .tar.gz este disponibil în folderul descărcări.
Pasul 9: Instalați Apache Spark
Pentru instalarea Spark, fișierul gudron trebuie extras.
Utilizați comanda: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Trebuie să schimbați versiunea menționată în comandă în funcție de versiunea descărcată. În aceasta, am descărcat versiunea spark-2.4.0-bin-hadoop2.7.
Pasul 10: Variabilă de mediu de configurare pentru Apache Spark
Utilizați comanda: $ source ~ / .bashrc
Adaugă linie : export PATH = $ PATH: / usr / local / spark / bin
Pasul 11: verificați instalarea Apache Spark
Utilizați comanda : $ spark-shell
Dacă instalarea a avut succes, va fi produsă următoarea ieșire.
Acest lucru înseamnă instalarea cu succes a Apache Spark pe aparatul dvs., iar Apache Spark va începe în Scala.
Desfasurarea Spark pe Hadoop YARN:
Există două moduri de a implementa Apache Spark pe Hadoop YARN.
- Modul Cluster: În acest mod YARN din cluster gestionează driverul Spark care rulează în cadrul unui proces master de aplicație. După inițierea aplicației, clientul poate merge.
- Modul client: În acest mod, resursele sunt solicitate de la YARN de către maestrul aplicației și driverul Spark rulează în procesul de client.
Pentru a implementa o aplicație Spark în modul cluster folosiți comanda:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Comanda de mai sus va porni un program client YARN care va porni implicit Master Application.
Pentru a implementa o aplicație Spark în comanda de utilizare a modului client:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Puteți rula spark shell în modul client utilizând comanda:
$ spark-shell –master yarn –deploy-mode client
Sfaturi și trucuri pentru a utiliza spark install:
- Asigurați-vă că Java este instalat pe mașina dvs. înainte de a instala scânteie.
- Dacă utilizați limbajul scala, asigurați-vă că scara este deja instalată înainte de a utiliza Apache Spark.
- Puteți utiliza Python, de asemenea, în loc de Scala pentru programarea în Spark, dar trebuie să fie preinstalat precum Scala.
- Puteți rula și Apache Spark pe Windows, dar se recomandă crearea unei mașini virtuale și instalarea Ubuntu folosind Oracle Virtual Box sau VMWare Player .
- Spark poate funcționa fără Hadoop (adică modul Standalone), dar dacă este necesară o configurație cu mai multe noduri, atunci este nevoie de manageri de resurse precum YARN sau Mesos.
- În timp ce utilizați YARN, nu este necesar să instalați Spark pe toate cele trei noduri. Trebuie să instalați Apache Spark doar pe un singur nod.
- În timp ce utilizați YARN dacă sunteți în aceeași rețea locală cu clusterul, puteți utiliza modul client, în timp ce dacă sunteți departe, puteți utiliza modul cluster.
Articole recomandate - Spark Install
Acesta a fost un ghid despre cum se instalează Spark. Aici am văzut cum să implementăm Apache Spark în modul autonom și în partea de sus a managerului de resurse YARN și, de asemenea, sunt menționate câteva sfaturi și trucuri pentru o instalare lină a Spark. De asemenea, puteți consulta articolul următor pentru a afla mai multe -
- Cum se utilizează Comenzile Spark
- O carieră în Spark - Trebuie să încercați
- Diferențele dintre Splunk și Spark
- Spark Interview Întrebări și răspunsuri
- Avantajele Spark Streaming
- Tipuri de uniri în Spark SQL (Exemple)