Diferență între Date mici și date mari

Date mici, nu sunt decât datele suficient de mici și cuprinzătoare pentru om într-un volum și, de asemenea, pentru formatare, ceea ce îl face accesibil, informativ și acționabil. Prelucrarea tradițională a datelor nu poate trata date mari sau complexe, aceste date sunt denumite date mari. Când volumul de date crește peste o anumită limită sistemele și metodologiile tradiționale nu sunt suficiente pentru a prelucra date sau a transforma datele într-un format util. Acesta este motivul pentru care datele sunt clasificate în general în două - Date mici și Date mari

Comparație de la cap la cap între date mici și date mari (Infographics)

Mai jos este top 10 diferență între date mici și date mari

Diferențe cheie între date mici și date mari

  • Colectarea datelor - De obicei, datele mici sunt parte a sistemelor OLTP și colectate într-o manieră mai controlată, apoi sunt introduse în stratul de memorie în cache sau în baza de date. Bazele de date vor avea citite replici pentru a sprijini interogările analitice imediate, dacă este necesar. Conducta de colectare a datelor Big va avea cozi precum AWS Kinesis sau Google Pub / Sub pentru a echilibra datele de mare viteză. Downstream va avea conducte de streaming pentru analize în timp real și joburi pentru loturi pentru procesarea datelor la rece.
  • Prelucrarea datelor - Deoarece majoritatea datelor mici generate prin sistemul de tranzacții, analizele de deasupra vor fi orientate pe lot de cele mai multe ori. În unele cazuri rare, interogările analitice se execută direct pe sistemele de tranzacții. Mediile Big Data vor avea conducte de procesare atât pe lot, cât și pe flux. Un flux este utilizat pentru analitice în timp real, cum ar fi detectarea fraudei cu cardul de credit sau predicția prețului acțiunilor. Procesarea lotului utilizată pentru implementarea logicii de afaceri complexe cu date și algoritmi avansați.
  • Scalabilitate - sistemele de date mici de obicei se scalează pe verticală. Scalarea verticală crește capacitatea sistemului prin adăugarea mai multor resurse la aceeași mașină. Scalarea verticală este complexă și costisitoare, dar este mai puțin complexă de gestionat. Sistemele Big Data depind în cea mai mare parte de o arhitectură scalabilă orizontală, care oferă mai multă agilitate la un cost mai mic. Mașinile virtuale preventive disponibile în cloud fac ca sistemele scalabile orizontal să fie și mai accesibile.
  • Modelarea datelor - Datele mici generate din sistemele de tranzacții vor fi într-o formă normalizată.ETL (conducta de extragere a transformării) conductele o transformă în schemă cu stea sau fulg de zăpadă într-un depozit de date. Aici schema este întotdeauna aplicată în timp ce se scriu date care sunt relativ ușoare, deoarece datele sunt mai structurate. După cum am menționat mai sus, datele tabulare reprezintă doar o fracțiune din Big Data. Aici datele sunt reproduse mult mai mult din diferite motive, cum ar fi cedarea eșecului sau din cauza unei limitări a motorului bazei de date de bază (De exemplu, unele baze de date acceptă doar un indice secundar per set de date). O schemă nu este aplicată la scriere. În schimb, o schemă este validată în timp ce citiți date.
  • Cuplarea stocării și calculului - În bazele de date tradiționale care se ocupă în mare parte de date mici, stocarea și calcularea sunt cuplate strâns. Introducerea și regăsirea datelor către și din baza de date este posibilă doar prin interfața dată. Datele nu pot fi introduse direct în sistemul de fișiere al bazei de date sau datele existente nu pot fi interogate cu alte motoare DB. De fapt, această arhitectură ajută foarte mult la asigurarea integrității datelor. Sistemele Big Data au cuplaje foarte libere între stocare și calcul. De obicei, datele sunt stocate într-un sistem distribuit de stocare a datelor, cum ar fi HDFS, AWS S3 sau Google GCS și calculează motorul pentru a interoga date sau pentru a selecta ETL ulterior. De exemplu, interogările interactive pot fi executate folosind Presto (Link) și ETL folosind Apache Hive pe aceleași date.
  • Data Science - Algoritmii de învățare automată necesită date de intrare într-un format bine structurat și codificat corespunzător, iar cea mai mare parte a datelor de intrare vor fi atât din sisteme tranzacționale, cum ar fi un depozit de date, cât și stocare Big Data, precum un lac de date. Algoritmii de învățare automată care rulează exclusiv pe Small Data vor fi ușori, deoarece etapa de pregătire a datelor este restrânsă. Pregătirea și îmbogățirea datelor în mediul Big Data necesită mult mai mult timp. Big Data oferă o mulțime de opțiuni pentru experimentarea științei datelor datorită volumului ridicat și a varietății de date.
  • Securitatea datelor - Practici de securitate pentru datele mici, care se află în depozitul de date sau sistemele de tranzacții ale companiei furnizate de furnizorii de baze de date corespondenți, care ar putea include privilegii de utilizator, criptare de date, hashing etc. Cele mai bune practici de securitate includ criptarea datelor în repaus și tranzit, izolarea rețelei de cluster, reguli puternice de control de acces etc.

Tabelul comparativ cu date mici și date mari

Bazele comparațieiDate miciDate mare
DefinițieDate suficient de mici pentru înțelegerea umană. Într-un volum și un format care îl fac accesibil, informativ și acționabilSeturi de date atât de mari sau complexe încât aplicațiile tradiționale de prelucrare a datelor nu le pot trata
Sursă de date● Date din sisteme tradiționale de întreprindere, cum ar fi
○ Planificarea resurselor companiei
○ Managementul relațiilor cu clienții (CRM)
● Date financiare, cum ar fi datele de evidență generală
● Date despre tranzacțiile de plată de pe site-ul web
● Cumpărați date din punctul de vânzare
● Date în fluxul de pe site-uri
● Date de flux GPS - date de mobilitate trimise către un server
● Social media - facebook, twitter
VolumMajoritatea cazurilor sunt cuprinse într-o gamă de zeci sau sute de GB. Unele cazuri sunt câteva TB (1 TB = 1000 GB)Mai mult de câțiva Terabytes (TB)
Viteza (viteza la care apar datele)● Flux de date controlat și constant
● Acumularea datelor este lentă
● Datele pot ajunge la viteze foarte rapide.
● Datele enorme se pot acumula în perioade foarte scurte de timp
varietateDate structurate în format tabular cu schemă fixă ​​și date semi-structurate în format JSON sau XMLSeturi de date de înaltă varietate care includ date tabulare, fișiere text, imagini, video, audio, XML, JSON, jurnale, date senzor etc.
Veracity (Calitatea datelor)Conține mai puțin zgomot, deoarece datele colectate într-o manieră controlată.De obicei, calitatea datelor nu este garantată. Înainte de procesare, este necesară o validare riguroasă a datelor.
ValoareInformații de afaceri, analiză și raportareExploatare complexă de date pentru predicție, recomandare, găsirea modelului etc.
Variația timpuluiDatele istorice la fel de valabile ca și datele reprezintă interacțiuni solide de afaceriÎn unele cazuri, datele îmbătrânesc în curând (de exemplu, detectarea fraudei).
Locația datelorBaze de date din cadrul unei întreprinderi, servere locale etc.Mai ales în depozitele distribuite pe Cloud sau în sisteme de fișiere externe.
InfrastructurăAlocare de resurse previzibilă. Hardware hardware scalabil în mare măsură verticalInfrastructură mai agilă, cu o arhitectură scalabilă orizontal. Încărcarea pe sistem variază foarte mult.

Concluzie - Date mici față de date mari

Scopul final al analizei de date pentru a obține informații în timp util pentru a sprijini luarea deciziilor. Clasificarea datelor în mici și mari ajută la rezolvarea provocărilor în analiza datelor din fiecare lume separat cu instrumente adecvate. Linia dintre două categorii variază cu sisteme avansate de prelucrare a datelor, ceea ce face ca interogarea de date chiar și mai mare să fie mult mai rapidă și mai puțin complexă.

Articole recomandate:

Acesta a fost un ghid pentru date mici și date mari, semnificația lor, comparația dintre capete, diferențele cheie, tabelul de comparare și concluzii. acest articol include toate diferențele importante între date mici și date mari. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Big Data vs Știința Datelor - Cum sunt ele diferite?
  2. Date mari: important pentru confluența analizelor tehnologice și de afaceri
  3. Top 5 mari tendințe de date pe care companiile vor trebui să le stăpânească
  4. 16 Sfaturi interesante pentru transformarea datelor mari către succesul mare

Categorie: