Introducere la interviuri și răspunsuri la interviu Spark
Apache Spark este un cadru open-source. Spark, deoarece este o platformă open-source, putem folosi mai multe limbaje de programare, cum ar fi java, python, Scala, R. În comparație cu performanța procesului Map-Reduce, scânteia ajută la îmbunătățirea performanței de execuție. De asemenea, asigură executarea în memorie de 100 de ori mai rapidă decât Map-Reduce. Datorită puterii de procesare a scânteii, în prezent industriile preferă scânteia.
Așadar, în sfârșit, ți-ai găsit jobul de vis în Spark, dar te întrebi cum să spargi Interviul Spark și care ar putea fi întrebările despre Interviul Spark pentru anul 2018. Fiecare interviu este diferit, iar sfera unui loc de muncă este diferită. Reținând acest lucru, am conceput cele mai frecvente întrebări și răspunsuri la interviu Spark pentru 2018 pentru a vă ajuta să obțineți succes în interviu.
Aceste întrebări sunt împărțite în două părți
Partea 1 - Întrebări despre intervievarea scânteie (de bază)
Această primă parte acoperă întrebările și răspunsurile de bază ale interviului Spark
1. Ce este Spark?
Răspuns:
Apache Spark este un cadru open-source. Îmbunătățește performanța de execuție decât procesul Map-Reduce. Este o platformă deschisă în care putem folosi mai multe limbaje de programare precum Java, Python, Scala, R. Spark oferă o execuție în memorie, de 100 de ori mai rapidă decât Map-Reduce. Folosește conceptul de RDD. RDD este un set de date distribuit rezistent, care îi permite să stocheze în mod transparent datele pe memorie și să-l persiste doar pe disc. Aici va reduce timpul de accesare a datelor din memorie în loc de Disk. Astăzi, industria preferă Spark din cauza puterii sale de procesare.
2.Diferența dintre Hadoop și Spark?
Răspuns:
Criterii de caracteristici | Scânteie Apache | Hadoop |
Viteză | De 10 până la 100 de ori mai rapid decât Hadoop | Viteza normala |
Prelucrare | Prelucrare în timp real și lot, In-memory, Caching | Numai procesarea lotului, dependentă de disc |
Dificultate | Ușor din cauza modulelor la nivel înalt | Dificil de învățat |
Recuperare | Permite recuperarea partițiilor folosind RDD | Cu toleranță la erori |
Interactivitate | Are moduri interactive, interactive | Fără mod interactiv, cu excepția Pig & Hive, Fără mod iterativ |
Arhitectura normală Hadoop urmărește Map-Reduce de bază, pentru același proces scânteia asigură executarea în memorie. În loc de citire-scriere de pe hard disk pentru Map-Reduce, scânteia oferă citire-scriere din memoria virtuală.
Haideți să trecem la următoarea întrebare a interviului Spark
3. Care sunt caracteristicile Spark?
Răspuns:
- Oferiți facilitatea de integrare cu Hadoop și Fișiere pe HDFS. Spark se poate rula în partea de sus a Hadoop folosind clustering-ul de resurse YARN. Spark are capacitatea de a înlocui motorul Hadoop Map-Reduce.
- Polyglot: Spark Oferiți un API la nivel înalt pentru Java, Python, Scala și R. Codul Spark poate fi scris în oricare dintre aceste patru limbi. IT oferă un shell independent pentru scară (limba în care este scris Spark) și un interpret de piton. Care va ajuta să interacționați cu motorul de scânteie? Scala shell poate fi accesată prin ./bin/spark-shell și Python shell prin ./bin/pyspark din directorul instalat.
- Viteză: motorul scânteie este de 100 de ori mai rapid decât Hadoop Map-Reduce pentru prelucrarea datelor la scară largă. Viteza va fi obținută prin partiționare pentru paralelizarea procesării distribuite a datelor cu un trafic minim de rețea. Spark Furnizează RDD (seturi de date distribuite rezistente), care pot fi memorate în cache pe nodurile de calcul dintr-un cluster
- Formate multiple: Spark are o API sursă de date. Acesta va oferi un mecanism pentru a accesa date structurate prin SQL spark. Sursele de date pot fi orice, Spark va crea doar un mecanism pentru a converti datele și a le trage în scânteie. Spark acceptă mai multe surse de date precum Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark oferă câteva biblioteci încorporate pentru a efectua mai multe sarcini din același nucleu, cum ar fi procesarea lotului, abur, învățare automată, interogări SQL interactive. Cu toate acestea, Hadoop acceptă doar procesarea lotului. Spark Furnizați MLIb (bibliotecile de învățare automată), care vor fi utile pentru Big-Data Developer pentru a procesa datele. Acest lucru ajută la eliminarea dependențelor de mai multe instrumente în alte scopuri. Spark oferă o platformă puternică comună inginerilor de date și oamenilor de știință de date, atât cu performanțe rapide, cât și ușor de utilizat.
- Apache Spark întârzie executarea procesului până când este necesară acțiunea. Aceasta este una dintre caracteristicile cheie ale scânteii. Spark va adăuga fiecare transformare la DAG (Direct Acyclic Graph) pentru executare, iar atunci când acțiunea dorește să o execute, va declanșa efectiv DAG-ul pentru procesare.
- Streaming în timp real: Apache Spark Oferă calcule în timp real și latență scăzută, din cauza executării în memorie. Spark este proiectat pentru scalabilități mari, precum o mie de noduri ale clusterului și mai multe modele pentru calcule.
4. Ce este YARN?
Răspuns:
Aceasta este Întrebările de bază ale interviului Spark puse într-un interviu. YARN (încă un Resurs Negociator) este managerul resurselor. Spark este o platformă care oferă o execuție rapidă. Spark va folosi YARN pentru execuția lucrării în cluster, mai degrabă decât propriul manager încorporat. Există câteva configurații pentru a rula Fire. Acestea includ master, modul de implementare, memorie driver, memorie executor, nuclee executor și coadă. Aceasta este întrebarea comună a interviului cu scânteie, care sunt puse într-un interviu de mai jos este avantajele scânteiei:
Avantajele Scânteii asupra Reducerii Hărții
Spark are avantaje față de Map-Reduce astfel: -
Datorită capacității procesului In-memory, Spark este capabil să execute de 10 până la 100 de ori mai rapid decât Map-Reduce. Unde Map-Reduce poate fi utilizat pentru persistența datelor în stadiul Map and Reduce.
Apache Spark oferă un nivel ridicat de biblioteci încorporate pentru a prelucra mai multe sarcini în același timp, precum procesarea lotului, streamingul în timp real, Spark-SQL, Streamingul structurat, MLib, etc. În același timp, Hadoop oferă doar procesare pe lot.
Procesul Hadoop Map-Reduce va depinde de disc, unde Spark oferă Caching și In-Memory.
Spark are atât iterativ, efectuează mai multe calcule pe același set de date, cât și interactiv, efectuează calcule între seturi de date diferite în care Hadoop nu acceptă calcul iterativ.
5. Care este limba suportată de Spark?
Răspuns:
Spark suport scala, Python, R și Java. Pe piață, dezvoltatorul de date mari preferă mai ales scala și pitonul. Pentru o scală pentru a compila codul, avem nevoie de Setare cale de scară / director bin sau pentru a crea un fișier jar.
6. Ce este RDD?
Răspuns:
RDD este o abstractizare a Dataset-ului distribuit rezistent, care oferă o colecție de elemente partiționate pe toate nodurile clusterului, care vor ajuta la executarea mai multor procese în paralel. Utilizarea dezvoltatorului RDD poate stoca datele In-Memory sau caching, pentru a fi reutilizate eficient pentru executarea paralelă a operațiunilor. RDD poate fi recuperat cu ușurință din eșecul nodului.
Partea a 2-a - Întrebări despre interviu (avansate)
Haideți să aruncăm o privire asupra întrebărilor avansate de interviu Spark.
7. Care sunt factorii responsabili de execuția Spark?
Răspuns:
1. Spark oferă execuție în memorie în loc de disc, precum Hadoop Map-Reduce.
2.DDD Dataset distribuit rezistent, care este o execuție paralelă responsabilă a mai multor operațiuni pe toate nodurile unui cluster.
3. Spark oferă o caracteristică variabilă partajată pentru execuție paralelă. Aceste variabile ajută la reducerea transferului de date între noduri și la partajarea unei copii a tuturor nodurilor. Există două variabile.
4. Variabilă străină: Această variabilă poate fi folosită pentru a memora în cache o valoare în memorie pe toate nodurile
5. Variabilă acumulatoare: această variabilă este „adăugată” doar la, cum ar fi contoare și sume.
8. Ce este memoria executorului?
Răspuns:
Acestea sunt întrebările frecvente pentru interviu Spark într-un interviu. Este dimensiunea de grădină alocată executantului de scânteie. Această proprietate poate fi controlată de proprietatea spark.executor.memory a steagului –executor-memory. Fiecare aplicație Spark are câte un executant pentru fiecare nod muncitor. Această proprietate se referă la câtă memorie a nodurilor lucrătorului va fi alocată pentru o aplicație.
9. Cum folosiți Spark Stream? Explicați un caz de utilizare?
Răspuns:
Spark Stream este una dintre caracteristicile utile pentru un caz de utilizare în timp real. În acest scop putem folosi flume, Kafka, cu o scânteie. Flume va declanșa datele dintr-o sursă. Kafka va persista datele în subiect. De la Kafka Spark va trage datele folosind fluxul și va transmite D-stream și va efectua transformarea.
Putem folosi acest proces pentru o tranzacție suspectă în timp real, oferte în timp real etc.
Haideți să trecem la următoarea întrebare a interviului Spark
10. Putem folosi Spark pentru procesul ETL?
Răspuns:
Da, putem folosi platforma de scânteie pentru procesul ETL.
11. Ce este Spark SQL?
Răspuns:
Este o componentă specială a scânteiei care va sprijini interogările SQL.
12. Ce evaluare leneșă?
Răspuns:
Când lucrăm cu o scânteie, Transformările nu sunt evaluate până când efectuați o acțiune. Acest lucru ajută la optimizarea fluxului general de procesare a datelor. La definirea transformării, se va adăuga la DAG (Direct Acyclic Graph). Și în timpul acțiunii va începe să execute transformări în trepte. Aceasta este utilă Spark Interview Întrebare adresată într-un interviu.
Articol recomandat
Acesta a fost un ghid la Lista întrebărilor și răspunsurilor la interviu de scânteie, astfel încât candidatul să poată împărți cu ușurință aceste întrebări de interviu Spark. De asemenea, puteți consulta următoarele articole pentru a afla mai multe-
- Java vs Nodul JS simplificând diferențele
- Întrebări de interviu Mongo Database | Utile și cele mai solicitate
- 15 Cele mai de succes întrebări și răspunsuri la interviu R
- Întrebări și răspunsuri la interviu Perl
- Întrebări de interviu SAS System - Top 10 Întrebări utile