Introducere în integrarea datelor de talente

Integrare de date Talend înseamnă combinarea datelor din diferite surse și combinarea lor într-o singură vizualizare pentru a obține date semnificative din ceea ce poate ajuta compania sau organizația să își îmbunătățească activitatea analizând aceste date. Integrarea ajută la obținerea de date, curățarea datelor făcând unele transformări necesare etc, apoi încărcarea acestora într-un depozit de date.

Ce este Talend Data Integration?

  • Talend este un instrument ETL care este utilizat pentru integrarea datelor. Talend oferă o soluție pentru pregătirea datelor, calitatea datelor, integrarea datelor și date mari.
  • Talend oferă Open Studio, care este un open-source pentru integrare de date și date mari.
  • Talend open studio ajută la gestionarea datelor uriașe cu componente de date mari. Are mai mult de 800+ componente pentru diverse scopuri de integrare. Aici vom discuta despre unele componente. Pentru a face mai ușor, vedeți exemplul de mai jos
  • Un operator sim are date uriașe despre planuri, clienți, detalii despre SIM, etc. Aceste date sunt uriașe, astfel încât datele sunt de asemenea utilizate în integrare.

Client A cumpărarea unui SIM folosind un cod de guvernare.
Dându-i numele: AB C
Adresa ca: Chennai, Chennai
Număr de telefon: 1234567890

După integrarea datelor

Prenume: AB
Prenume: C
Adresa: Chennai, India
Număr de telefon: +911234567890

Aici datele sunt curățate și transformate în ceva mai semnificativ.

Beneficiile integrării datelor

Aici vom discuta despre beneficiile integrării datelor.

  1. Analizarea tendințelor de afaceri folosind integrarea datelor
  2. Combinarea datelor într-un singur sistem
  3. Economisirea timpului și mai eficientă și mai puțin reelaborată
  4. Generare ușoară de raport - folosită de instrumentele BI
  5. Menținerea și inserarea datelor în depozitul de date și în marts-urile de date

Aplicarea integrării de date Talend

Aici vom discuta despre aplicarea integrării de date Talend.

1. Lucrul cu Talend

  • Asigurați-vă că aveți instalate java și variabilele de mediu setate.
  • Descărcați sursa deschisă de pe site-ul Talend și instalați software-ul.
  • Creați un proiect nou și terminați configurarea
  • Talend se va deschide cu fila designer.
  • Talend este un instrument bazat pe eclipse, iar componentele pot fi trase din paletă sau puteți da clic și introduceți numele componentelor.

2. Prima lucrare citind un fișier

  • Căutați componenta tFileinputdelimitată. Această componentă este utilizată pentru citirea fișierelor delimitate.
  • Puneți componenta tFileinputdelimitată. Căutați tLogRow și plasați-l în proiectantul postului.
  • Faceți clic dreapta pe TFileinputdelimitat și selectați rând-> principal și trasați o linie la tLogRow.
  • În componentă, fila selectează calea fișierului pe care doriți să-l citiți și oferă separatorul de rând ca \ n. Dacă fișierul are delimiter, puteți menționa delimitatorul.
  • Faceți clic pe schemă și dați detaliile tipului de coloană sau puteți citi întregul rând, întrucât un șir cu o coloană și valoarea delimiteră ar trebui să fie goală.
  • Puteți sări de asemenea antetul și subsolul.
  • În componenta tLogRow selectați modul în care doriți să vedeți datele. Formatul tabelului sau formatul cu o singură linie.
  • tLogRow afișează ieșirea în consola de rulare.
  • După conectarea ambelor tFileinputdelimited și tLogRow executați lucrarea din fila de rulare.
  • Puteți vedea conținutul fișierului în consolă.

3. Al doilea job folosind Tmap

  • Citiți un fișier și filtrați-l în fișiere de ieșire diferite.
  • Citiți un fișier din componenta tFileinputdelimitată cu o schemă de coloană ca înregistrare.
  • Componenta Tmap - Această componentă ajută la transformarea datelor cu unele funcții încorporate, precum căutare, aderari etc.
  • În tmap creați două ieșiri out1 și out2.
  • În filtrul out1 adăugați record.conține („talend”) și trageți înregistrarea la out1.
  • Desenați linia de înregistrare la alte ieșiri2.
  • De la tmap, luați rândurile principale și conectați-vă la două tFileoutputelimitate.
  • out1 link către un tfileoutputdelimited1 ca fișier1.txt și out2 către alte tfileoutputdelimited2 ca fișier2.txt.
  • txt va avea înregistrări care conțin talend.
  • txt va avea înregistrări care au alte nume.

4. încorporat și depozit

  • Built-in înseamnă că ar trebui să setați schema sau detaliile pentru conectarea la o bază de date de fiecare dată.
  • Depozitul este util pentru a salva detaliile din metadate, astfel încât să puteți refolosi aceleași detalii de fiecare dată fără a introduce manual detalii de fiecare dată. În metadate, puteți salva schema fișierului, conexiunile la baza de date, conexiunea Hadoop, conexiunea hive, conexiunea s3 și multe altele.

Componentele integrării de date Talend

Aici vom discuta despre componentele integrării Talend Data.

1. tFileList: Această componentă listează fișierele dintr-un director sau folder cu un model de mască de fișier dat.

2. tMysqlConnection: Această componentă este utilizată pentru conectarea cu baza de date MySQL. Componentele Mysql pot utiliza această conexiune pentru configurarea ușoară a conectării la baza de date.

3. tMysqlInput: Această componentă ajută la rularea unei interogări a bazei de date mysql și la obținerea tabelului sau a coloanelor. Această componentă este utilizată pentru a selecta interogări și pentru a obține detaliile.

4. tMysqlOutput: Această componentă este utilizată pentru inserarea sau actualizarea datelor în baza de date Mysql.

5. tPrejob: Această componentă este prima care se execută în job și poate fi conectată cu alte componente cu Subjob ok.

6. tPostjob: Această componentă este ultima care se execută în lucrare. Puteți conecta acest lucru cu componente apropiate de conexiune.

7. tLogcatcher: Această componentă surprinde avertizarea și erorile din lucrare. Aceasta este cea mai importantă componentă folosită în tehnica de gestionare a erorilor. Jurnalele de eroare pot fi scrise folosind această componentă împreună cu tfileoutputdelimitat. Există mai mult de 800+ componente.

8. Variabilă de context: Variabilele de context sunt variabile care pot fi utilizate în lucrare oriunde. Păstrează valori și poate fi trecut la o altă lucrare folosind componente tRun. Utilizările variabilelor de context sunt că putem modifica valoarea în diferite scopuri. De exemplu, putem avea un set de valori pentru grupul de context de dezvoltare și diferite seturi de valori de context pentru producție. În acest fel, nu trebuie să schimbăm locul de muncă, doar schimbarea parametrilor de context este suficientă.

9. Construirea unei lucrări: Pentru a construi o lucrare faceți clic dreapta pe lucrare și selectați o lucrare de construcție. Puteți importa jobul de construire în TAC. În Talend Administration Console, planificați o lucrare pentru a declanșa și dependența setului de lucrări. De asemenea, puteți importa lucrarea din depozitul Nexus utilizând o lucrare artefact.

10. Creați o sarcină în TAC: Deschideți conductorul de lucru în TAC. Faceți clic pe sarcini noi și selectați activități normale sau artefacte. Importați lucrarea de construire sau selectați din nexus. Selectați serverul de lucru în care va rula talentul. Salvați sarcina. Acum puteți implementa și rula lucrarea.

Concluzie

  • „Simplificați ETL și ELT cu instrumentul principal gratuit de ETL open source pentru date mari.” Este eticheta pentru studio deschis.
  • Talend Bigdata are multe componente pentru manipularea datelor uriașe.
  • Job standard, job Bigdata, joburi de streaming Bigdata sunt diferite tipuri de locuri de muncă disponibile în Talend.
  • Joburile Bigdata pot fi create într-un cadru Spark sau MapReduce.

Articol recomandat

Acesta este un ghid pentru Talend Data Integration. Aici vom discuta despre introducerea în Talend Data Integration și beneficiile împreună cu aplicațiile și componentele. Puteți parcurge și alte articole sugerate pentru a afla mai multe

  1. Instrument de integrare a datelor | Cele mai bune 12 instrumente
  2. Talend interviuri și răspunsuri
  3. Cele mai bune instrumente de vizualizare a datelor cu tipurile sale
  4. Talend vs Mulesoft - Diferențe
  5. Ce este Data Mart?

Categorie: