Ce este Porcul? - Caracteristici și înțelegere - Arhitectură și carieră

Cuprins:

Anonim

Ce este Porcul?

Porcul este un motor open source, care face parte din tehnologiile ecosistemului Hadoop. Pig lucrează excelent în lucrul cu date care sunt dincolo de baze de date tradiționale sau depozite de date. Acest lucru poate trata bine datele lipsă, incomplete sau inconsistente, care nu au nicio schemă. Porcul are propria limbă de exprimare a manipulărilor de date, care este Latin Pig.

Înțelegerea porcului

Pig este o tehnologie care vă permite să scrieți un nivel înalt, dar scripturi extrem de granulare, care vă permite să lucrați cu date în care schema este fie necunoscută, fie inconsistentă. Porcul este o tehnologie open source, care se află în vârful Hadoop și face parte din ecosistemul Hadoop extrem de vibrant și popular.

Pig funcționează bine cu date nestructurate și incomplete, deci nu trebuie să aveți aspectul tradițional al regulilor și coloanelor pentru orice.

Este bine definit și poate lucra direct la fișierele în HDFS (Hadoop Distributed File System).

Porcul va fi tehnologia dvs. la alegere atunci când doriți să obțineți date de la sursă într-un depozit de date.

De exemplu, o conductă vizuală a modului în care datele curg în mod obișnuit înainte de a le putea utiliza pentru a genera graficele frumoase pe care le utilizați pentru a lua decizii de afaceri.

Datele brute provin dintr-o varietate de surse, cum ar fi senzori, telefoane mobile, etc. Vei folosi apoi Pig pentru a efectua o operație ETL. ETL reprezintă extras, transformare și încărcare, după ce aceste operațiuni sunt efectuate, datele curățate sunt stocate într-o altă bază de date. Un exemplu de astfel de bază de date ar fi HDFS, care face parte din Hadoop. Hive este un depozit de date care va rula deasupra unui sistem de fișiere precum acesta. Stupul este ceea ce ați folosi pentru analiză, pentru a genera rapoarte și pentru a extrage informații.

ETL este un pas foarte important în procesarea datelor pentru a face curățarea datelor brute și pentru a fi stocate într-o formă corectă într-o bază de date. Extractul se referă la operarea de extragere a datelor nestructurate, inconsistente, cu câmpul și valorile lipsă din sursa inițială. Transform reprezintă o serie de operații pe care le-ați aplica pe date pentru a le curăța sau obține.

Pre-calcularea informațiilor agregate utile, procesarea câmpurilor pentru a se potrivi cu un anumit format, toate acestea fac parte din curățarea datelor din câmpurile de transformare.

În cele din urmă, Pig realizează operațiunea de încărcare unde aceste date curate sunt stocate într-o bază de date, unde pot fi analizate în continuare. Un exemplu de operație standard pe care Pig îl realizează este curățarea fișierelor jurnal.

Explicați Arhitectura porcului

În Arhitectură există numeroase piese de porc, preferați:

  • Parser : Parser se ocupă de scripturile Pig, precum și, verifică sintaxa scriptului, va tasta verificarea și diverse verificări asortate. În plus, rezultatul lor ar putea fi un DAG (Direct Acyclic Graph) care semnifică, de obicei, revendicările Latin Pig, împreună cu operatorii logici.

De asemenea, operatorii logici cu scriptul vor fi arătați ca nodurile, precum și fluxurile de date vor fi afișate de la marginile prin DAG.

  • Optimizator: Mai târziu, planul logic (DAG) este de obicei depășit spre optimizatorul logic. Realizează optimizări logice suplimentare inclusiv proiecție și promovează scăzut
  • Compilator: De asemenea, compilatorul compilează acel plan logic îmbunătățit într-un grup de lucrări MapReduce.
  • Motor de execuție: în cele din urmă, toate lucrările MapReduce vor fi postate pe Hadoop într-o secvență sortată. În cele din urmă, acest lucru generează rezultatele necesare, deși aceste lucrări MapReduce vor fi realizate cu Hadoop.
  • MapReduce: MapReduce a fost proiectat inițial în Google ca o modalitate de procesare a paginilor web pentru a alimenta căutarea Google. MapReduce distribuie calcularea pe mai multe mașini din cluster. MapReduce profită de paralelismul inerent în procesarea datelor. Sistemele moderne, cum ar fi senzorii sau chiar actualizările de stare Facebook generează milioane de înregistrări de date brute.

O activitate cu acest nivel poate fi pregătită în două faze:

  1. Hartă
  2. Reduce

Dvs. decideți ce logică doriți să implementați în aceste faze pentru a vă procesa datele.

  • HDFS (sistem de fișiere distribuite Hadoop): Hadoop permite o explozie de stocare și analiză a datelor la o scară într-o capacitate nelimitată. Dezvoltatorii folosesc o aplicație precum Pig, Hive, HBase și Spark pentru a prelua date de la HDFS.

Caracteristici

Porcul Apache vine cu mai multe caracteristici:

  • Simplitatea programării: Pig Latin este comparabilă cu SQL și, prin urmare, este destul de simplu pentru dezvoltatori să creeze un script Pig. În cazul în care aveți o înțelegere a limbajului SQL, este incredibil de simplu să învățați limba Latin Pig, deoarece este la fel ca limbajul SQL.
  • Set bogat de operatori: Pig include o varietate de seturi bogate de operatori pentru a putea executa proceduri la fel ca unirea, depunerea, sortarea și multe altele.
  • Posibilități de optimizare: Performanța cu sarcina în Apache Pig poate fi îmbunătățită instantaneu de sarcina în sine; prin urmare, dezvoltatorii trebuie să se concentreze doar pe semantica acestui limbaj.
  • Extensibilitate: utilizând operatori accesibili, utilizatorii își pot dezvolta pur și simplu funcțiile pentru a citi, prelucra și scrie date.
  • Funcții de definire a utilizatorului (UDF): Folosind serviciul oferit de Pig pentru realizarea UDF-urilor, am putea produce funcții definite de utilizator pe numărul de limbi de dezvoltare, inclusiv Java, precum și, invocat sau încorporat toate în scripturile Pig.

Pentru ce este util Porcul?

Este utilizat atât pentru examinarea, cât și pentru executarea responsabilităților, inclusiv manipulare ad-hoc. Apache Pig poate fi folosit pentru:
Analiza cu colecții enorme de date brute preferă procesarea datelor pentru a obține site-uri de căutare. Cum ar fi Yahoo, Google beneficiază de Apache Pig pentru a evalua datele colectate prin Google, precum și motoarele de căutare Yahoo. Gestionarea colecțiilor mari de date la fel ca înregistrările web, transmiterea informațiilor online și așa mai departe. Chiar și actualizările de stare ale Facebook genera milioane de înregistrări de date brute.

Cum te ajută această tehnologie să crești în cariera ta?

Multe organizații implementează Apache Pig incredibil de rapid. Aceasta înseamnă că profesiile în carierele de porci și porci cresc în fiecare zi. Au fost înregistrate progrese uriașe în dezvoltarea Apache Hadoop în ultimii doi ani. Elemente Hadoop la fel ca Hive, Pig, HDFS, HBase, MapReduce și așa mai departe.

Deși ofertele Hadoop au intrat în a doua decadă în acest moment, încă au explodat în recunoaștere prin anii trecu-patru. Un număr mare de companii de software aplică foarte des grupuri Hadoop. Aceasta poate fi cu siguranță cea mai bună parte a datelor mari. Experții vizatori s-ar putea transforma în experiență în această tehnologie excelentă.

Concluzie

Expertiza Apache Pig are cerințe mari pe piață și poate continua să fie extinsă. Înțelegând pur și simplu conceptele și obținând experiență cu cei mai buni porci Apache în abilitățile Hadoop, experții se pot implica perfect în profesia lor de Apache Pig.

Articol recomandat

Acesta a fost un ghid pentru Ce este Porcul? Aici am discutat Conceptele, definiția și arhitectura cu caracteristicile Pig. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Cum se instalează Apache
  2. Întrebări la interviu Apache PIG
  3. Ce este ASP.Net Web Services?
  4. Ce este tehnologia Blockchain?