Introducerea procesului ETL

ETL este unul dintre procesele importante solicitate de Business Intelligence. Business Intelligence se bazează pe datele stocate în depozitele de date din care sunt generate numeroase analize și rapoarte, ceea ce ajută la construirea de strategii mai eficiente și duce la informații tactice și operaționale și la luarea deciziilor.

ETL se referă la procesul de extragere, transformare și încărcare. Este un fel de etapă de integrare a datelor în care datele provenite din surse diferite sunt extrase și trimise în depozitele de date. Datele sunt extrase din diferite resurse, mai întâi transformate pentru a le transforma într-un format specific în conformitate cu cerințele de afaceri. Diferite instrumente care ajută la îndeplinirea acestor sarcini sunt -

  • IBM DataStage
  • Abinitio
  • Informatica
  • Tablou
  • Talend

Procesul ETL

Cum functioneazã?

Procesul ETL este un proces în trei etape care începe cu extragerea datelor din diverse surse de date, iar apoi datele brute suferă diverse transformări pentru a le face adecvate pentru stocarea în depozitul de date și încărcarea acestora în depozitele de date în formatul necesar și pregătirea analiză.

Pasul 1: Extras

Această etapă se referă la preluarea datelor necesare din diferite surse, care sunt prezente în diferite formate, cum ar fi XML, fișiere Hadoop, Flat Files, JSON, etc. Datele extrase sunt stocate în zona de punere în scenă unde se efectuează transformări ulterioare. Astfel, datele sunt verificate amănunțit înainte de a le muta în depozitele de date, altfel vor deveni o provocare pentru a readuce modificările din depozitele de date.

O hartă adecvată de date este necesară între sursă și țintă înainte de extragerea datelor, deoarece procesul ETL trebuie să interacționeze cu diferite sisteme precum Oracle, Hardware, Mainframe, sisteme în timp real, cum ar fi ATM, Hadoop, etc. .

Notă - Dar trebuie să aveți grijă ca aceste sisteme să rămână neafectate în timpul extragerii.

Strategii de extragere a datelor
  • Extragerea completă: aceasta este urmată atunci când datele întregi din surse sunt încărcate în depozitele de date care arată că depozitul de date este populat prima dată sau nu a fost elaborată nicio strategie pentru extragerea datelor.
  • Extracție parțială (cu notificare de actualizare): Această strategie este, de asemenea, cunoscută delta, în care se extrag doar datele modificate și se actualizează depozitele de date
  • Extragere parțială (fără notificare de actualizare): Această strategie se referă la extragerea datelor specifice necesare din surse în funcție de încărcarea în depozitele de date, în loc să extragă date întregi.

Pasul 2: Transformare

Acest pas este cel mai important pas al ETL. În acest pas, multe transformări sunt efectuate pentru a face datele pregătite pentru încărcare în depozitele de date, aplicând mai jos transformările: -

A. Transformări de bază: aceste transformări sunt aplicate în fiecare scenariu, deoarece au nevoie de bază în timp ce se încarcă datele care au fost extrase din diverse surse, în depozitele de date

  • Curățarea sau îmbogățirea datelor: se referă la curățarea datelor nedorite din zona de înregistrare, astfel încât datele greșite să nu fie încărcate din depozitele de date.
  • Filtrare: Aici filtrăm datele solicitate dintr-o cantitate mare de date prezente în conformitate cu cerințele de afaceri. De exemplu, pentru generarea rapoartelor de vânzări, este nevoie doar de înregistrări de vânzări pentru acel an specific.
  • Consolidare: Datele extrase sunt consolidate în formatul necesar înainte de a le încărca în depozitele de date.4.
  • Standardizări: câmpurile de date sunt transformate pentru a-l aduce în același format necesar, de exemplu, câmpul de date trebuie specificat ca MM / DD / AAAA.

B. Transformări avansate: Aceste tipuri de transformări sunt specifice cerințelor de afaceri.

  • Alăturarea: în această operație, datele din 2 sau mai multe surse sunt combinate t generează date cu coloane dorite doar cu rânduri care sunt legate între ele
  • Verificarea validării pragului de date: valorile prezente în diferite câmpuri sunt verificate dacă sunt corecte sau nu, cum ar fi numărul de cont bancar nul în cazul datelor bancare.
  • Utilizați căutări pentru a îmbina date: Pentru a extrage informațiile specifice, se utilizează diverse fișiere plate sau alte fișiere, efectuând operațiunea de căutare.
  • Utilizarea oricărei validări complexe a datelor: Multe validări complexe sunt aplicate pentru a extrage date valide numai din sistemele sursă.
  • Valori calculate și derivate: Se aplică diverse calcule pentru a transforma datele în unele informații necesare
  • Duplicare: datele duplicate care provin din sistemele sursă sunt analizate și eliminate înainte de a le încărca în depozitele de date.
  • Restructurarea cheilor: În cazul capturării datelor care se schimbă lent, trebuie să fie generate diverse chei-surogat pentru a structura datele în formatul dorit.

Notă - Procesarea paralelă în paralel MPP-Massive este utilizată uneori pentru a efectua unele operații de bază, cum ar fi filtrarea sau curățarea datelor din zona de stadializare, pentru a prelucra mai rapid o cantitate mare de date.

Pasul 3: încărcare

Această etapă se referă la încărcarea datelor transformate în depozitul de date de unde pot fi utilizate pentru a genera multe decizii de analiză, precum și raportarea.

1. Încărcarea inițială: Acest tip de încărcare apare la încărcarea datelor în depozitele de date pentru prima dată.

2. Încărcarea incrementală: Acesta este tipul de încărcare care se realizează pentru actualizarea depozitului de date în mod periodic, cu modificări apărute în datele sistemului sursă.

3. Actualizare completă: acest tip de încărcare se referă la situația în care datele complete ale tabelului sunt șterse și încărcate cu date proaspete.

Depozitul de date permite apoi caracteristicile OLAP sau OLTP.

Dezavantaje ale procesului ETL

  1. Creșterea datelor - Există o limită a datelor extrase din diverse surse de către instrumentul ETL și împinse către depozitele de date. Astfel, odată cu creșterea datelor, colaborarea cu instrumentul ETL și depozitele de date devin greoaie.
  2. Personalizare - Aceasta se referă la soluții sau răspunsuri rapide și eficiente la datele generate de sistemele sursă. Dar folosirea instrumentului ETL aici încetinește acest proces.
  3. Scump - Utilizarea unui depozit de date pentru a stoca o cantitate din ce în ce mai mare de date generate periodic este un cost ridicat pe care o organizație trebuie să îl plătească.

Concluzie - Proces ETL

Instrumentul ETL cuprinde procese de extragere, transformare și încărcare unde ajută la generarea de informații din datele culese din diverse sisteme sursă. Datele din sistemul sursă pot veni în orice formate și pot fi încărcate în orice format dorit în depozitele de date, astfel instrumentul ETL trebuie să sprijine conectivitatea la toate tipurile de astfel de formate.

Articole recomandate

Acesta este un ghid pentru un proces ETL. Aici discutăm introducerea, Cum funcționează ?, Instrumente ETL și dezavantajele acesteia. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Instrumente ETL Informatica
  2. Instrumente de testare ETL
  3. Ce este ETL?
  4. Ce este testarea ETL?

Categorie: