Introducere în Talend Open Studio
Talend oferă Open Studio, care este un open-source pentru integrarea datelor. Are mai mult de 800+ componente pentru diverse scopuri de integrare. Descărcați Talend Open Studio de pe https://www.talend.com/download/
Integrarea datelor înseamnă combinarea datelor din surse diferite și combinarea lor într-o singură vizualizare pentru a obține date semnificative din ceea ce poate ajuta compania sau organizația să își îmbunătățească activitatea analizând aceste date. Integrarea ajută la obținerea de date, curățarea datelor făcând unele transformări necesare etc, apoi încărcarea acestora într-un depozit de date.
Ce este Talend?
Talend este un instrument ETL care este utilizat pentru integrarea datelor. Talend oferă o soluție pentru pregătirea datelor, calitatea datelor, integrarea datelor și date mari. Aici vom discuta despre unele componente. Pentru a face mai ușor să vedeți exemplul de mai jos, un operator sim are date uriașe despre planuri, clienți, detalii SIM etc.
Client A cumpărarea unui SIM folosind un cod de guvernare
Dându-și numele de AB C
adresa ca Chennai, Chennai
număr de telefon 1234567890
După integrarea datelor
Prenume: AB
Prenume: C
Adresa: Chennai, India
Număr de telefon: +911234567890
Aici datele sunt curățate și transformate în ceva mai semnificativ.
Beneficii
- Analizarea tendințelor de afaceri folosind integrarea datelor
- Combinarea datelor într-un singur sistem
- Economisirea timpului și mai eficientă și mai puțin reelaborată
- Generare ușoară de raport - folosită de instrumentele BI
- Menținerea și inserarea datelor în depozitul de date și în marts-urile de date
cerere
Iată următoarele aplicații menționate mai jos
1. Lucrul cu Talend
- Asigurați-vă că aveți instalate java și variabilele de mediu setate.
- Descărcați sursa deschisă de pe site-ul Talend și instalați software-ul.
- Creați un proiect nou și terminați configurarea
- Talend se va deschide cu fila designer.
- Talend este un instrument bazat pe eclipse, iar componentele pot fi trase din paletă sau puteți da clic și introduceți numele componentelor.
2. Prima lucrare Citind un fișier
- Căutați componenta tFileinputdelimitată. Această componentă este utilizată pentru citirea fișierelor delimitate.
- Plasați componenta tfileinpută delimitată. Caută tlogrow și plasează-l în proiectantul postului.
- Faceți clic dreapta pe tfileinputdelimitat și selectați rândul>> principal și trasați o linie către Tlogrow.
- În componentă, fila selectează calea fișierului pe care doriți să-l citiți și oferă separatorul de rând ca \ n. Dacă fișierul are delimiter, puteți menționa delimitatorul.
- Faceți clic pe schemă și dați detaliile tipului de coloană sau puteți citi întregul rând, întrucât un șir cu o coloană și valoarea delimiteră ar trebui să fie goală.
- Puteți sări de asemenea antetul și subsolul.
- În componenta tlogrow selectați modul în care doriți să vedeți datele. Formatul tabelului sau formatul cu o singură linie.
- tlogrow afișează ieșirea în consola de rulare.
- După conectarea ambelor tfileinputdelimited și tlogrow rulați lucrarea din fila rulare.
- Puteți vedea conținutul fișierului în consolă.
3. Un al doilea job folosind Tmap
- Citiți un fișier și filtrați-l în fișiere de ieșire diferite.
- Citiți un fișier în componenta tfileinputdelimitată cu o schemă de coloană ca înregistrare.
- Componenta Tmap - Această componentă ajută la transformarea datelor cu unele funcții încorporate, precum căutare, aderari etc.
- În tmap creați două ieșiri out1 și out2.
- În filtrul out1 adăugați row3.record.contains („talend”) și trageți înregistrarea la out1.
- Desenați linia de înregistrare la alte ieșiri2.
- De la tmap, luați rândurile principale și conectați-vă la două tfileoutputdelimitate.
- out1 link către un tfileoutputdelimited1 ca fișier1.txt și out2 către alte tfileoutputdelimited2 ca fișier2.txt.
- txt va avea înregistrări care conțin talend.
- txt va avea înregistrări care au alte nume.
4. Built-in și depozit
- Built-in înseamnă că ar trebui să setați schema sau detaliile pentru conectarea la o bază de date de fiecare dată.
- Depozitul este util pentru a salva detaliile din metadate, astfel încât să puteți refolosi aceleași detalii de fiecare dată fără a introduce manual detalii de fiecare dată. În metadate, puteți salva schema fișierului, conexiunile la baza de date, conexiunea Hadoop, conexiunea hive, conexiunea s3 și multe altele.
Componente ale Talend Open Studio
Iată următoarele mențiuni ale componentei Talend Open Studio de mai jos
1. tFileList
- Această componentă listează fișierele dintr-un director sau folder cu un model de mască de fișier dat.
2. TMysqlConnection
- Această componentă este utilizată pentru conectarea cu baza de date mysql.
- Componentele Mysql pot utiliza această conexiune pentru configurarea ușoară a conectării la baza de date.
3. tMysqlinput
- Această componentă ajută la rularea unei interogări a bazei de date mysql și la obținerea tabelului sau a coloanelor. Această componentă este utilizată pentru a selecta interogări și pentru a obține detaliile.
4. tMysqlOutput
- Această componentă este utilizată pentru inserarea sau actualizarea datelor în baza de date Mysql.
5. tprejob
- Această componentă este prima care se execută în lucrare și poate fi conectată cu alte componente cu funcția de subbaș ok.
6. tpostjob
- Această componentă este ultima care se execută în lucrare. Puteți conecta acest lucru cu componente apropiate de conexiune.
7. tlogcatcher
- Această componentă surprinde avertismentul și erorile din lucrare.
- Cea mai importantă componentă folosită în tehnica de gestionare a erorilor.
- Jurnalele de eroare pot fi scrise folosind această componentă împreună cu tfileoutputdelimitat.
- Există mai mult de 800+ componente.
Variabilă de context
- Variabilele de context sunt variabile care pot fi utilizate în lucrare oriunde.
- Păstrează valori și poate fi trecut la o altă lucrare folosind și componenta trunchi.
- Utilizările variabilelor de context este că putem modifica valoarea în diferite scopuri.
- De exemplu, putem avea un set de valori pentru grupul de context de dezvoltare și un set diferit de valori de context pentru producție.
- În acest fel, nu trebuie să schimbăm locul de muncă, doar schimbarea parametrilor de context este suficientă.
Construirea unui loc de muncă
- Pentru a construi o lucrare faceți clic dreapta pe lucrare și selectați Construiți lucrare.
- Puteți importa jobul de construire în TAC.
- În Talend Administration Console, planificați o lucrare pentru a declanșa și dependența setului de lucrări.
- De asemenea, puteți importa lucrarea din depozitul Nexus utilizând o lucrare artefact.
Creați o sarcină în TAC
- Conducător de post deschis în TAC
- Faceți clic pe sarcini noi și selectați activități normale sau artefacte.
- Importați lucrarea construită sau selectați din nexus.
- Selectați serverul de lucru în care va rula talentul.
- Salvați sarcina.
- Acum puteți implementa și rula lucrarea.
Concluzie - Talend Open Studio
„Simplificați ETL și ELT cu instrumentul principal gratuit de ETL open source pentru date mari.” Este eticheta pentru studio deschis. Talend Bigdata are multe componente pentru manipularea datelor uriașe. Job standard, job Bigdata, joburi de streaming Bigdata sunt diferite tipuri de locuri de muncă disponibile în Talend. Joburile Bigdata pot fi create într-un cadru de scânteie sau mapreduce.
Articole recomandate
Acesta este un ghid pentru Talend Open Studio. Aici discutăm Beneficiile, aplicațiile și componentele Talend Open Studio. De asemenea, puteți arunca o privire la următoarele articole pentru a afla mai multe -
- Ghid pentru integrarea datelor Talend
- Întrebări importante pentru interviul Talend
- Talend vs Mulesoft: Diferențe
- Talend vs Pentaho: 8 comparații utile de învățat