Introducere în Data Engineer Interview Întrebări și răspunsuri

Ingineria datelor este un termen în care toată lumea este conștientă și este destul de populară în domeniul Big Data. Ingineria datelor se referă la infrastructura de date sau arhitectura de date. Datele brute generate din diferite surse, cum ar fi social media, telefoane mobile, www (internet), trebuie transformate, curățate, profilate și agregate pentru nevoile de afaceri. Aceste date brute sunt denumite și Date întunecate. Practica de proiectare, arhitectură și implementare a sistemului de procesare a datelor ajută la transformarea datelor într-o informație adecvată sau set de date, astfel de informații sau set de date se numește Ingineria datelor.

Mai jos este lista cu cele mai bune întrebări și răspunsuri la intervievul Data Engineer din 2019:

Dacă sunteți în căutarea unui loc de muncă care are legătură cu Data Engineer, trebuie să vă pregătiți pentru întrebările pentru interviul Data Engineer din 2019. Deși fiecare întrebare de interviu Data Engineer este diferită și sfera unui job este, de asemenea, diferită, vă putem ajuta cu cele mai bune întrebări de interviu Data Engineer cu răspunsuri, care vă vor ajuta să faceți saltul și să vă obțineți succesul în interviul dvs. pentru inginerul de date.

1. Ce este Ingineria datelor?

Răspuns:
Ingineria datelor este un termen destul de popular în domeniul Big Data și se referă mai ales la Infrastructura de date sau la Arhitectura datelor.
Datele generate de multe surse precum social media, telefoane mobile, www (internet) sunt date brute. Trebuie transformat, curățat, profilat și agregat pentru nevoile afacerii. Putem numi aceste date brute drept Date întunecate, pe care le vom lumina, pentru a face utile aceste Date Întunecate. Practica de proiectare, arhitectură și implementare a sistemului de procesare a datelor care va ajuta la transformarea datelor în informații utile se numește Ingineria datelor.

2. Explicați activitatea zilnică a unui inginer de date?

Răspuns:
Locul de muncă de inginer de date constă în:
A. gestionarea administrării datelor în cadrul organizației
b. manipularea și întreținerea sistemelor sursă de date și a zonelor de înscenare
c. efectuarea ETL sau ELT și transformarea datelor
d. simplificarea curățării datelor și îmbunătățirea duplicării și construirii datelor
e. efectuarea de extragere și extragere de interogare de date ad-hoc
Vezi mai jos vizualizarea informând lucrurile pe care lucrează un inginer de date: -

3. Aveți experiență cu modelarea datelor?

Răspuns:
Se poate spune că a lucrat la un proiect pentru un client de finanțe / asigurări de sănătate, unde au folosit instrumente ETL precum Informatica / Talend / Pentaho etc. pentru a transforma și prelucra datele preluate dintr-o bază de date MySQL / RDS / SQL și trimite transmite aceste informații furnizorilor care pot ajuta la creșterea veniturilor lor. Se poate arăta mai jos arhitectura la nivel înalt a modelului de date. Constă dintr-o cheie primară, entitate, atribute, relație, constrângeri etc.

4. Care sunt diferite tipuri de scheme de proiectare în modelarea datelor? Explicați cu un exemplu?

Răspuns:
Există două tipuri de scheme în modelarea datelor:
A. Schema stelelor
Această schemă este împărțită în două, una este tabel de fapt, iar alta este tabel de dimensiuni unde toate tabelele de dimensiuni sunt conectate la un tabel de fapt. Tabelul extern cheie de fapt se referă la cheile primare prezente în tabelele de dimensiuni. Vezi mai jos arhitectura schemei stelelor:

b. Schema fulgilor de zăpadă
În această schemă nivelul de normalizare este crescut, aici tabelul de fapt va rămâne același ca al schemei de stele, aici tabelele de dimensiuni sunt normalizate. Datorită multor straturi de tabele cu dimensiuni, arată ca un fulg de zăpadă, astfel schemele de fulgi de zăpadă. Vezi mai jos arhitectura: -

5. Ce instrument ETL utilizați și cum este cel mai bine comparativ cu alții?

Răspuns:
Se poate spune că a folosit Informatica ca instrument ETL din multe puncte de vedere, în primul rând este faptul că, conform Gartner Magic Quadrant pentru Instrumente de Integrare a Datelor Informatica este poziționat ca lider pentru al 10-lea an consecutiv. Este ușor de utilizat și de învățat și are funcții de conectat cu o varietate diferită de date sursă și tipuri de date, componente reutilizabile și funcții care îl fac cel mai preferat pentru dezvoltatorii ETL. De asemenea, are un program propriu care este un alt avantaj, în cazul în care alte instrumente ETL trebuie să utilizeze un programator extern pentru a planifica lucrările.

6. Ce tehnologii / limbaj de programare ar trebui să aibă / Învață să fii inginer de date?

Răspuns:
Matematică (algebră liniară și probabilitate)
Statistici (statistici sumare)
Tehnici de învățare automată
Limbi R și SAS
Baze de date SQL, QL Hive
Python (cel mai des utilizat)
În afară de acestea, ar trebui să avem cunoștințe de rezolvare a problemelor, analitice și arhitecturale a bazei de date.

7. Care sunt unele probleme comune cu care se confruntă inginerii de date?

Răspuns:
1. Integrare în timp real / Integrare continuă
2. Stocarea unei cantități enorme de date este o problemă, informațiile din aceste date sunt o altă problemă.
3. Ce instrumente pot fi utilizate, care vor oferi cele mai bune performanțe, stocare, eficiență și rezultate.
4. Scala de stocare? Să presupunem cum să știți că pentru procesarea întregului set de date cât timp va dura?
5. Având în vedere procesoarele și configurația RAM
6. Cum să rezolvi eșecurile, există toleranță la erori acolo sau nu?

8. Cum diferă arhitectul de date de Data Engineer?

Răspuns:
Data Architect este persoana care gestionează datele, în special atunci când avem de-a face cu numere diferite dintr-o varietate de surse de date. Unul ar trebui să cunoască în profunzime modul în care funcționează o bază de date, modul în care datele se raportează la problemele de afaceri și modul în care schimbările vor perturba utilizarea datelor organizației, apoi arhitectul de date va manipula / transforma arhitectura de date în funcție de acestea.
Principala responsabilitate a arhitectului de date este lucrul la Depozitarea datelor, dezvoltarea arhitecturii de date sau a hubului / depozitului de date al întreprinderii.
În timp ce un inginer de date ajută la instalarea soluțiilor pentru depozit de date, modelarea datelor, dezvoltarea și testarea arhitecturii bazelor de date.

9. Descrieți momentul în care ați găsit un nou caz de utilizare pentru baza de date existentă care a avut un impact pozitiv asupra afacerii?

Răspuns:
În timp ce era în Big Data cu SQL nu va avea mai jos caracteristici:
A. RDBMS sunt DB orientate spre schemă, deci este mai bine pentru datele structurate nu pentru datele semistructurate sau nestructurate.
b. Nu este capabil să proceseze date imprevizibile și nestructurate.
c. Nu este scalabil orizontal, adică execuția și stocarea paralelă nu sunt posibile în SQL.
d. Suferă de problema performanței odată ce un număr de utilizatori crește.
e. Este utilizat în principal pentru procesarea tranzacțiilor online.

Pentru a depăși aceste dezavantaje, putem folosi NoSQL DB adică Nu numai SQL.
Deci, în proiect, se pot utiliza diferite tipuri de DB NoSQL precum Cassandra, Mongo DB, Graph DB, HBase etc.

10. Aveți experiență de lucru într-un mediu de cloud computing? Ce beneficii vedeți lucrând într-unul singur?

Răspuns:
Se poate spune da Mediul Cloud Computing este gata să mute mediul pentru producție, dezvoltare și testare fără să ne gândim să integrăm multe instanțe / servere Linux / windows împreună. Există diverse servicii de cloud computing pe o piață precum AWS (servicii web Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Serviciul de calcul cloud oferă mai jos caracteristici, cum ar fi flexibilitatea, adică mediul se va extinde conform cerințelor, recuperare în caz de catastrofe, luând backup-uri și instantanee, Lucrați de oriunde cu VPN-uri, mediu securizat și ecologic, deoarece funcționează pe hardware-ul mărfurilor, adică computere cu scop general care sunt costuri reduse.

Concluzie

În blogul de mai sus, am păstrat cele mai solicitate întrebări de interviu pe Data Engineer și cum se poate răspunde la acest lucru, oferind puncte de caracteristică.

Articol recomandat:

Acesta a fost un ghid cuprinzător pentru întrebările și răspunsurile la Data Engineer Interview, astfel încât candidatul să poată împărți cu ușurință aceste Întrebări de interviu Data Engineer. acest articol este format din toate întrebările și răspunsurile la interviu de date pentru inginerul de date. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Cel mai important Azure Paas vs Iaas
  2. Întrebări la interviu Big Data
  3. 5 Cele mai importante întrebări la interviu Elasticsearch
  4. Întrebări la interviu PIG și răspuns
  5. Top 5 Cele mai valoroase întrebări la interviu pentru știința datelor