Introducere în metodele de extragere a datelor

Datele cresc zilnic pe o scară enormă. Dar toate datele colectate sau colectate nu sunt utile. Datele semnificative trebuie să fie separate de datele zgomotoase (date fără sens). Acest proces de separare se realizează prin extragerea datelor.

Ce este Data Mining?

Exploatarea datelor este un proces de extragere a informațiilor sau cunoștințelor utile dintr-o cantitate extraordinară de date (sau date mari). Diferența dintre date și informații a fost redusă folosind diferite instrumente de extragere a datelor. Exploatarea datelor poate fi, de asemenea, denumită descoperire de cunoștințe din date sau KDD .

Surse: - www.ques10.com

Exploatarea datelor poate fi realizată pe diverse tipuri de baze de date și depozite de informații, cum ar fi baze de date relaționale, depozite de date, baze de date tranzacționale, fluxuri de date și multe altele.

Metode diferite de extragere a datelor:

Există multe metode utilizate pentru Data Mining, dar pasul crucial este să selectați metoda adecvată din ele în funcție de afacere sau de declarația problemei. Aceste metode de extragere a datelor ajută la prezicerea viitorului și la luarea deciziilor în consecință. Acestea ajută, de asemenea, la analiza tendinței pieței și la creșterea veniturilor companiei.

Unele metode de extragere a datelor sunt:

  • Asociere
  • Clasificare
  • Analiza de clustering
  • prezicere
  • Modele secvențiale sau Urmărirea modelelor
  • Arbori de decizie
  • Analiza anterioară sau analiza anomaliei
  • Retea neurala

Să înțelegem fiecare metodă de extragere a datelor una câte una.

1. Asociere:

Este o metodă utilizată pentru a găsi o corelație între două sau mai multe elemente, prin identificarea modelului ascuns în setul de date și, de asemenea, denumită și analiză a relațiilor . Această metodă este utilizată în analiza coșului de piață pentru a prezice comportamentul clientului.

Să presupunem că managerul de marketing al unui supermarket dorește să stabilească ce produse sunt achiziționate frecvent împreună.

Ca exemplu,

Cumpără (x, „bere”) -> cumpără (x, „chipsuri”) (suport = 1%, încredere = 50%)

  • Aici x reprezintă un client care cumpără bere și chipsuri împreună.
  • Încrederea arată certitudinea că, dacă un client cumpără o bere, există șanse de 50% ca acesta să cumpere și chipsurile.
  • Sprijinul înseamnă că 1% din toate tranzacțiile analizate au arătat că berea și chipsurile au fost cumpărate împreună.

Multe exemple similare precum pâinea și untul sau computerul și software-ul pot fi luate în considerare.

Există două tipuri de reguli de asociere:

  • Regula de asociere unidimensională: Aceste reguli conțin un singur atribut care se repetă.
  • Regula de asociere multidimensională: Aceste reguli conțin multiple atribute care se repetă.

https://bit.ly/2N61gzR

2. Clasificare:

Această metodă de extragere a datelor este utilizată pentru a distinge elementele din seturile de date în clase sau grupuri. Ajută la prezicerea cu exactitate a comportamentului elementelor din cadrul grupului. Este un proces în două etape:

  • Etapa de învățare (faza de pregătire): În acest caz, un algoritm de clasificare construiește clasificatorul prin analizarea unui set de antrenament.
  • Etapa de clasificare: datele de testare sunt utilizate pentru a estima exactitatea sau precizia regulilor de clasificare.

De exemplu, o companie bancară folosește pentru a identifica solicitanții de împrumut cu riscuri de credit mici, medii sau mari. În mod similar, un cercetător medical analizează datele privind cancerul pentru a prezice ce medicament să prescrie pacientului.

Surse: - www.tutorialspoint.com

3. Analiza grupării:

Clustering-ul este aproape similar cu clasificarea, dar în acest grup sunt realizate în funcție de asemănările elementelor de date. Diferite clustere au obiecte diferite sau fără legătură. Este, de asemenea, denumit sub formă de segmentare de date, deoarece partiționează seturi de date uriașe în clustere în funcție de asemănări.

Există diferite metode de clustering care sunt utilizate:

  • Metode aglomerative ierarhice
  • Metode bazate pe grilă
  • Metode de partiționare
  • Metode bazate pe model
  • Metode bazate pe densitate

Un exemplu similar de solicitanți de împrumuturi poate fi luat în considerare și aici. Există unele diferențe care sunt prezentate în figura de mai jos.

https://bit.ly/2N6aZpP

4. Predicție:

Această metodă este utilizată pentru a prezice viitorul bazat pe tendințele din trecut și din prezent sau setul de date. Predicția este utilizată mai ales cu combinația altor metode de extragere a datelor, cum ar fi clasificarea, potrivirea modelului, analiza tendințelor și relația.

De exemplu, dacă managerul de vânzări al unui supermarket ar dori să prezice suma veniturilor pe care le-ar genera fiecare articol pe baza datelor de vânzări anterioare. Modelează funcția evaluată continuu care prezice lipsa valorilor numerice ale datelor.

Surse: - data-mining.philippe-furnizier

Analiza de regresie este cea mai bună alegere pentru a efectua predicția. Poate fi utilizat pentru a stabili o relație între variabile independente și variabile dependente.

5. Modele secvențiale sau urmărirea modelului:

Această metodă de extragere a datelor este utilizată pentru a identifica tiparele care apar frecvent într-o anumită perioadă de timp.

De exemplu, directorul de vânzări al companiei de îmbrăcăminte vede că vânzările de jachete par să crească chiar înainte de sezonul de iarnă, sau vânzările în brutărie cresc în timpul Crăciunului sau al Revelionului.

Să ne uităm la un exemplu cu un grafic

Surse: - data-mining.philippe-fournier-viger

6. Arbori de decizie:

Un arbore de decizie este o structură de arbore (așa cum sugerează și numele), unde

  • Fiecare nod intern reprezintă un test pe atribut.
  • Sucursala denotă rezultatul testului.
  • Nodurile terminale dețin eticheta clasei.
  • Cel mai înalt nod este nodul rădăcină care are întrebarea simplă care are două sau mai multe răspunsuri. În consecință, copacul crește și este generată o diagramă de flux, precum structura.

Surse: - www.tutorialride.com

În această decizie, guvernul arborilor clasifică cetățenii cu vârsta sub 18 ani sau peste 18 ani. Acest lucru i-ar ajuta să decidă dacă o licență trebuie eliberată unui anumit cetățean sau nu.

7. Analiza anterioară sau analiza anomaliilor:

Această metodă de extragere a datelor este utilizată pentru a identifica elementele de date care nu respectă modelul sau comportamentul scontat. Aceste date neașteptate sunt considerate ca valori de zgomot sau de zgomot. Sunt utile în multe domenii precum detectarea fraudei cu cardul de credit, detectarea intruziunilor, detectarea defectelor etc.

De exemplu, să presupunem că graficul de mai jos este reprezentat folosind câteva seturi de date din baza noastră de date.

Deci se trage cea mai bună linie. Punctele situate în apropierea liniei prezintă un comportament scontat, în timp ce punctul departe de linie este un Outlier.

Acest lucru ar ajuta la detectarea anomaliilor și la acțiunile posibile în consecință.

https://bit.ly/2GrgjDP

8. Rețea neuronală:

Această metodă sau model de extragere a datelor se bazează pe rețele neuronale biologice. Este o colecție de neuroni precum unitățile de procesare cu conexiuni ponderate între ei. Sunt utilizate pentru modelarea relației dintre intrări și ieșiri. Este utilizat pentru clasificare, analiza regresiei, prelucrarea datelor etc. Această tehnică funcționează pe trei piloni -

  • Model
  • Algoritmul de învățare (supravegheat sau nesupravegheat)
  • Funcția de activare

Surse: - www.saedsayad.com

Articole recomandate

Acesta a fost un ghid al metodelor de extragere a datelor Aici am discutat despre ce este Data Mining și diferite tipuri de metode Data Mining cu exemplul. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Software de analiză de date mari
  2. Întrebări privind interviul privind structura datelor
  3. Tehnici importante de extragere a datelor
  4. Arhitectura de exploatare a datelor

Categorie: