Data Warehouse vs Hadoop - 6 diferențe importante de știut

Cuprins:

Anonim

Diferențele dintre Data Warehouse și Hadoop

În fiecare deceniu, industria IT experimentează o inovație majoră care zguduie întreaga industrie IT. În ultimii ani, Apache Hadoop a făcut același lucru prin infuzarea centrelor de date cu infrastructură nouă

Dând puterea procesării paralele programatorului Hadoop este într-o creștere atât de exponențială a adopției, iar ecosistemul său se extinde atât în ​​profunzime cât și în lățime, este firesc să ne întrebăm dacă Hadoop va înlocui tradiționalul Data Warehouse.

Să vedem ce a spus Alasdair Anderson (vicepreședinte executiv la Nordea) la un Summit de la Hadoop despre acest subiect fierbinte din oraș.

„Nu există nicio relație între EDW și Hadoop în acest moment - vor fi complementare. NU este vorba despre rip și înlocuiește: nu vom scăpa de RDBMS sau MPP, ci, în schimb, folosiți instrumentul potrivit pentru munca potrivită - și asta va fi foarte mult determinat de preț.

De fiecare dată când această discuție interesantă începe o mulțime de întrebări ne vin în minte precum:

1) Dacă aveți date mari, aveți nevoie de un depozit de date?

2) Hadoop va înlocui depozitul de date?

3) Este aceasta moartea epocii tradiționale a depozitului de date?

Pentru a cunoaște răspunsurile la toate aceste întrebări, trebuie să analizăm contextul mai larg al acestei imagini.

1. Ce este Hadoop?

Cine nu a auzit de Big Data în ultima vreme? Cu sute de terabyți de date generate în fiecare zi din diferite surse, este clar că lumea modernă de astăzi este o lume Big Data

Când începeți să vorbiți despre Big Data, mai devreme sau mai târziu veți începe să discutați despre cel mai tare subiect al lumii Big Data: Hadoop - dar ce este exact?

Hadoop este un open-source, un cadru de programare bazat pe Java care acceptă procesarea și stocarea seturilor de date extrem de mari într-un mediu de calcul distribuit.

Cele 4 module ale Hadoop -

Hadoop este format din 4 module -

  1. Sistem de fișiere distribuit

Sistemul de fișiere distribuit permite stocarea datelor într-un format ușor accesibil, pe un număr mare de dispozitive de stocare legate.

  1. Reduceți harta

Map Reduce este combinația a două operații - citirea datelor din baza de date și punerea ei într-un format potrivit pentru analiză (hartă) și efectuarea operațiunilor matematice (reduce).

  1. Hadoop comun

Hadoop Common oferă instrumentele necesare pentru datele stocate în HDFS (sistem de fișiere distribuite Hadoop)

  1. FIRE

YARN gestionează resursele sistemelor care stochează datele și rulează analiza.

2. Ce este un depozit de date?

Un depozit de date este o bază de date relațională care este proiectată pentru interogare și date de analiză. De obicei conține date istorice derivate din surse diferite.

Mediul depozitului de date include soluții ETL, un motor de procesare analitică online (OLAP), instrumente de analiză a clienților și alte aplicații care gestionează procesul de analiză a datelor și furnizarea acestora către utilizatorii de afaceri.

Să rezumăm ce este depozitul de date -

  1. Subiect-orientat

Un depozit de date poate fi utilizat pentru a analiza un anumit domeniu de subiect, cum ar fi vânzările, finanțele și inventarul. Fiecare domeniu de subiect conține date detaliate.

  1. Integrat

Un depozit de date integrează date din mai multe surse de date. De exemplu, datele sunt în același format, codurile bărbat / femeie sunt consistente. Într-un depozit de date, va exista doar o singură modalitate de identificare a unui produs și se utilizează aceeași înregistrare a clienților, nu copii

  1. Ne volatil

Datele sunt stocate în depozitul de date nemodificate și nu se vor schimba. Deci, datele istorice dintr-un depozit de date nu ar trebui niciodată modificate.

  1. Time-varianta

se pot prelua date de la 3 luni, 6 luni, 12 luni sau chiar date mai vechi dintr-un depozit de date.

  1. Nu virtual

Depozitul de date este un depozit fizic și persistent.

Data Warehouse vs Hadoop (Infografie)

Mai jos sunt cele mai bune 6 comparații între Data Warehouse și Hadoop

Data Warehouse vs Hadoop - Care este de utilizat?

  • Dacă aveți date curate, consecvente și de înaltă calitate, ar trebui să vă adresați pentru Data Warehouse, deoarece Hadoop nu are calitatea datelor în unele dintre soluțiile sale.
  • Dacă aveți date brute nestructurate, atunci ar trebui să mergeți pentru Hadoop, deoarece Hadoop funcționează bine cu date brute / nestructurate, dar Data Warehouse funcționează numai cu date structurate.
  • Pentru rapoarte de latență scăzută și interactive, ar trebui să accesați Data Warehouse
  • Pentru întrebări OLTP / în timp real / punct, trebuie să accesați Data Warehouse, deoarece Hadoop funcționează bine cu datele lotului.
  • Pentru seturi de date de volum mare, ar trebui să accesați Hadoop, deoarece Hadoop este proiectat pentru a rezolva problemele de date mari.

Tabelul de comparație dintre cap și cap între Data Warehouse și Hadoop

Mai jos este o listă de puncte care descriu Comparațiile dintre Data Warehouse și Hadoop

Baza pentru comparațieDepozitul de dateHadoop
DateÎn Data Warehouse analizăm datele structurate și procesateÎn Hadoop, putem prelucra orice fel de date, inclusiv structurate / nestructurate / semi-structurate și brute
PrelucrarePrelucrarea sa se bazează pe concepte schema-pe-scrierePrelucrarea sa se bazează pe concepte de schemă pe citit
DepozitarePotrivit pentru date cu volum mic și este prea scump pentru datele cu volum mareFuncționează bine cu seturi de date mari având volum, viteză și varietate uriașe
AgilitateEste mai puțin agil și de configurare fixăEste extrem de agil, configura și reconfigurează după cum este necesar
SecuritateTehnologiile Data Warehouse sunt în jur de zeci de ani. Astfel, în termeni de securitate, ne putem baza pe Data WarehouseÎn timp ce tehnologiile Hadoop sunt relativ noi în comparație cu Data Warehouse, deci securitatea este o problemă majoră aici
UtilizatoriProfesioniștii de afaceri folosesc de obicei depozitul de dateHadoop este destul de celebru în domeniul științei datelor și ingineriei datelor

Concluzie - Data Warehouse vs Hadoop

Acum știm despre Data Warehouse și Hadoop, amândoi să revenim și să examinăm întrebarea pe care am pus-o la începutul acestui articol Data Warehouse și Hadoop -

1) dacă aveți date mari, aveți nevoie de un depozit de date?

Răspuns - atâta timp cât organizația dvs. are nevoie de date fiabile, credibile și accesibile, atunci aveți nevoie de un depozit de date.

2) Hadoop va înlocui depozitul de date?

Răspuns - Compararea datelor Warehouse vs Hadoop este ca și cum ai compara mere și portocale. Amândoi Data Warehouse și Hadoop au propriile avantaje în diferite scenarii de caz de utilizare. În unele cazuri, încă mai depindem de tehnicile tradiționale de depozitare a datelor, dar pe măsură ce se schimbă timpul, ne concentrăm mai mult pe Hadoop Framework pentru a face față problemelor Big Data.

3) Este aceasta o moarte a erei tradiționale a depozitului de date?

Răspuns - După cum vedeți, aceasta nu este într-adevăr o întrebare simplă și, prin urmare, nu se acordă bine unui răspuns simplu. Este adevărat că datele mari vor schimba abordarea tradițională de depozitare a datelor în următorii câțiva ani, dar nu va învechi conceptele și practicile de depozitare a datelor.

Articol recomandat

Acesta a fost un ghid util pentru Data Warehouse vs Hadoop aici am discutat despre Semnificația lor, comparația dintre cap și cap, diferența cheie și concluzie. De asemenea, puteți consulta articolul următor pentru a afla mai multe -

  1. Hadoop vs Splunk - Aflați cele mai bune 7 diferențe
  2. Hadoop vs Elasticsearch - Care este mai util
  3. Big Data vs Data Warehouse - Aflați cele mai bune diferențe
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios