Instalați Spark - Ghid complet privind instalarea Spark

Cum se instalează Spark?

Spark este un cadru open source pentru rularea aplicațiilor de analiză. Este un motor de prelucrare a datelor găzduit de compania Apache Software Foundation, care funcționează pe seturi de date mari sau date mari. Este un sistem de calcul cluster cu scop general care oferă API-uri la nivel înalt în Scala, Python, Java și R. Acesta a fost dezvoltat pentru a depăși limitările din paradigma MapReduce a Hadoop. Oamenii de știință de date cred că Spark execută de 100 de ori mai rapid decât MapReduce, deoarece poate memora date în memorie în timp ce MapReduce funcționează mai mult citind și scriind pe discuri. Realizează procesarea în memorie ceea ce o face mai puternică și mai rapidă.

Spark nu are propriul sistem de fișiere. Procesează date din surse de date diverse, cum ar fi sistemul de fișiere distribuite Hadoop (HDFS), sistemul S3 Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Se poate rula pe Hadoop YARN (încă o resursă negociator), pe Mesos, pe EC2, pe Kubernetes sau folosind modul de cluster autonom. Utilizează RDDs (Resilient Distributed Dataset) pentru a delega sarcinile de lucru în nodurile individuale care acceptă aplicații iterative. Datorită RDD, programarea este ușoară în comparație cu Hadoop.

Scânteia este formată din diverse componente numite componente ale ecosistemului Spark.

Spark Core: Este fundamentul aplicației Spark de care alte componente sunt direct dependente. Oferă o platformă pentru o mare varietate de aplicații, cum ar fi programarea, distribuirea sarcinilor distribuite, procesarea memoriei și referința datelor.
Spark Streaming: este componenta care funcționează pe date live streaming pentru a furniza analize în timp real. Datele live sunt ingerate în unități discrete numite loturi care sunt executate pe Spark Core.
Spark SQL: este componenta care funcționează deasupra Spark core pentru a rula interogări SQL pe date structurate sau semi-structurate. Data Frame este modalitatea de interacțiune cu Spark SQL.
GraphX: Este motorul sau cadrul de calcul grafic care permite procesarea datelor grafice. Acesta oferă diferiți algoritmi de grafic pentru a rula pe Spark.
MLlib: Conține algoritmi de învățare automată care oferă un cadru de învățare automată într-un mediu distribuit bazat pe memorie. Realizează algoritmi iterativi în mod eficient datorită capacității de procesare a datelor din memorie.
SparkR: Spark oferă un pachet R pentru a rula sau analiza seturi de date folosind shell-ul R.

Există trei moduri de a instala sau de a implementa scânteie în sistemele dvs.:

Modul autonom în Spache Apache
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

Să vedem desfășurarea în modul autonom.

Modul de desfășurare autonom Spark:

Pasul 1: Actualizați indexul pachetului

Acest lucru este necesar pentru a actualiza toate pachetele prezente în aparatul dumneavoastră.

Utilizați comanda : actualizare $ sudo apt-get

Pasul 2: Instalați Java Development Kit (JDK)

Aceasta va instala JDK în aparatul dvs. și v-ar ajuta să rulați aplicații Java.

Pasul 3: verificați dacă Java s-a instalat corect

Java este o condiție prealabilă pentru utilizarea sau rularea aplicațiilor Apache Spark.

Utilizați comanda : $ java –version

Această captură de ecran arată versiunea java și asigură prezența java pe mașină.

Pasul 4: Instalați Scala pe mașina dvs.

Întrucât Spark este scris în scala, trebuie să fie instalată scala pentru a rula scânteie pe mașina ta.

Utilizați comanda: $ sudo apt-get install scala

Pasul 5: verificați dacă Scala este instalat corect

Acest lucru va asigura instalarea cu succes a scării pe sistemul dvs.

Utilizați comanda : $ scala - inversiune

Pasul 6: Descărcați Apache Spark

Descărcați Apache Spark conform versiunii dvs. Hadoop de la https://spark.apache.org/downloads.html

Când veți merge pe linkul de mai sus, va apărea o fereastră.

Pasul 7: Selectați versiunea corespunzătoare în funcție de versiunea dvs. Hadoop și faceți clic pe linkul marcat.

O altă fereastră ar apărea.

Pasul 8: Faceți clic pe linkul marcat și scânteia Apache va fi descărcată în sistemul dvs.

Verificați dacă fișierul .tar.gz este disponibil în folderul descărcări.

Pasul 9: Instalați Apache Spark

Pentru instalarea Spark, fișierul gudron trebuie extras.

Utilizați comanda: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Trebuie să schimbați versiunea menționată în comandă în funcție de versiunea descărcată. În aceasta, am descărcat versiunea spark-2.4.0-bin-hadoop2.7.

Pasul 10: Variabilă de mediu de configurare pentru Apache Spark

Utilizați comanda: $ source ~ / .bashrc

Adaugă linie : export PATH = $ PATH: / usr / local / spark / bin

Pasul 11: verificați instalarea Apache Spark

Utilizați comanda : $ spark-shell

Dacă instalarea a avut succes, va fi produsă următoarea ieșire.

Acest lucru înseamnă instalarea cu succes a Apache Spark pe aparatul dvs., iar Apache Spark va începe în Scala.

Desfasurarea Spark pe Hadoop YARN:

Există două moduri de a implementa Apache Spark pe Hadoop YARN.

Modul Cluster: În acest mod YARN din cluster gestionează driverul Spark care rulează în cadrul unui proces master de aplicație. După inițierea aplicației, clientul poate merge.
Modul client: În acest mod, resursele sunt solicitate de la YARN de către maestrul aplicației și driverul Spark rulează în procesul de client.

Pentru a implementa o aplicație Spark în modul cluster folosiți comanda:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Comanda de mai sus va porni un program client YARN care va porni implicit Master Application.

Pentru a implementa o aplicație Spark în comanda de utilizare a modului client:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Puteți rula spark shell în modul client utilizând comanda:

$ spark-shell –master yarn –deploy-mode client

Sfaturi și trucuri pentru a utiliza spark install:

Asigurați-vă că Java este instalat pe mașina dvs. înainte de a instala scânteie.
Dacă utilizați limbajul scala, asigurați-vă că scara este deja instalată înainte de a utiliza Apache Spark.
Puteți utiliza Python, de asemenea, în loc de Scala pentru programarea în Spark, dar trebuie să fie preinstalat precum Scala.
Puteți rula și Apache Spark pe Windows, dar se recomandă crearea unei mașini virtuale și instalarea Ubuntu folosind Oracle Virtual Box sau VMWare Player .
Spark poate funcționa fără Hadoop (adică modul Standalone), dar dacă este necesară o configurație cu mai multe noduri, atunci este nevoie de manageri de resurse precum YARN sau Mesos.
În timp ce utilizați YARN, nu este necesar să instalați Spark pe toate cele trei noduri. Trebuie să instalați Apache Spark doar pe un singur nod.
În timp ce utilizați YARN dacă sunteți în aceeași rețea locală cu clusterul, puteți utiliza modul client, în timp ce dacă sunteți departe, puteți utiliza modul cluster.

Articole recomandate - Spark Install

Acesta a fost un ghid despre cum se instalează Spark. Aici am văzut cum să implementăm Apache Spark în modul autonom și în partea de sus a managerului de resurse YARN și, de asemenea, sunt menționate câteva sfaturi și trucuri pentru o instalare lină a Spark. De asemenea, puteți consulta articolul următor pentru a afla mai multe -

Cum se utilizează Comenzile Spark
O carieră în Spark - Trebuie să încercați
Diferențele dintre Splunk și Spark
Spark Interview Întrebări și răspunsuri
Avantajele Spark Streaming
Tipuri de uniri în Spark SQL (Exemple)

Instalați Spark - Ghid complet privind instalarea Spark

Cuprins:

Cum se instalează Spark?

Scânteia este formată din diverse componente numite componente ale ecosistemului Spark.

Există trei moduri de a instala sau de a implementa scânteie în sistemele dvs.:

Modul de desfășurare autonom Spark:

Pasul 1: Actualizați indexul pachetului

Pasul 2: Instalați Java Development Kit (JDK)

Pasul 3: verificați dacă Java s-a instalat corect

Pasul 4: Instalați Scala pe mașina dvs.

Pasul 5: verificați dacă Scala este instalat corect

Pasul 6: Descărcați Apache Spark

Pasul 7: Selectați versiunea corespunzătoare în funcție de versiunea dvs. Hadoop și faceți clic pe linkul marcat.

Pasul 8: Faceți clic pe linkul marcat și scânteia Apache va fi descărcată în sistemul dvs.

Pasul 9: Instalați Apache Spark

Pasul 10: Variabilă de mediu de configurare pentru Apache Spark

Pasul 11: verificați instalarea Apache Spark

Desfasurarea Spark pe Hadoop YARN:

Sfaturi și trucuri pentru a utiliza spark install:

Articole recomandate - Spark Install

Inteligența artificială împotriva inteligenței umane - 5 comparații utile

ASP.NET Framework - Ghid complet pentru cadrul ASP.NET

10 întrebări esențiale pentru interviul Asp.Net MVC (Actualizate pentru 2019)

Top 10 întrebări și răspunsuri la interviu ASP.Net (Actualizate pentru 2019)

ASP.Net Controluri de validare - Prezentare generală și tipuri de ASP.Net cu sintaxă

Formula binomială de distribuție - Calculator (șablon Excel)

Bit Manipulation în Java - Aflați operatorii Java Bit Bit și Bitshift

Distribuția binomială în R - Sintaxă cu exemple adecvate

Tehnici de testare la cutie neagră - Top 8 tehnici în Black Box

23 Tehnici nocive de pălărie neagră în SEO pe care ar trebui să le evitați

Media față de mediană - Top 6 diferențe de învățat (cu infografie)

Maya vs ZBrush - 11 Cele mai minunate diferențe pe care ar trebui să le știi

Algoritmul schimbărilor medii - Clustering și implementare

Ghid uimitor pentru a învăța arta proiectelor de mecatronică

Mentor vs Antrenor - Există o diferență? - edu CBA