Introducere în Tipuri de Minerit de Date

Termenul „Data Mining” înseamnă că trebuie să analizăm un set de date mare și datele mine din același lucru pentru a înfățișa esența a ceea ce vor să spună datele. Foarte asemănător cu modul în care se face exploatarea cărbunelui, unde cărbunele adânc sub pământ este extras folosind diverse instrumente, extragerea de date are, de asemenea, instrumente asociate pentru a profita la maximum de date. O interpretare greșită foarte frecventă în ceea ce privește extragerea datelor este că, este gândit ca un lucru în care încercăm să extragem date noi, dar nu întotdeauna este adevărat. De asemenea, se referă la ceva în care încercăm să obținem sens din datele pe care le avem deja. Astfel, extragerea de date în sine este un domeniu vast în care în următoarele câteva paragrafe ne vom aprofunda în mod special în instrumentele din Data Mining. În acest articol, vom discuta despre Tipurile de Data Mining.

Ce este Data Mining?

Așa cum am vorbit mai demult despre extragerea datelor, extragerea datelor este un proces prin care încercăm să scoatem cele mai bune rezultate din date. Instrumentele de extragere a datelor acționează ca o punte de legătură între datele și informațiile din date. În câteva bloguri, extragerea datelor este denumită și descoperire a cunoștințelor. Aici am dori să oferim o scurtă idee despre procesul de implementare a mineritului de date, astfel încât intuiția din spatele mineritului de date să fie clară și să devină ușor de înțeles cititorilor. Sub diagramă este reprezentat fluxul:

În procesul discutat mai sus, există instrumente la fiecare nivel și am încerca să facem o scufundare profundă în cele mai importante.

Tipuri de date mining

Exploatarea datelor poate fi efectuată pe următoarele tipuri de date:

1. Netezirea (Pregătirea datelor)

Această metodă particulară de tehnică de extragere a datelor intră sub genul de pregătire a datelor. Principala intenție a acestei tehnici este eliminarea zgomotului din date. Aici algoritmi precum exponențial simplu, media mobilă sunt folosiți pentru a elimina zgomotul. În timpul analizei exploratorii, această tehnică este foarte utilă pentru a vizualiza tendințele / sentimentele.

2. Agregare (Pregătirea datelor)

După cum sugerează termenul, un grup de date este agregat pentru a obține mai multe informații. Această tehnică este utilizată pentru a oferi o imagine de ansamblu asupra obiectivelor de afaceri și poate fi realizată manual sau folosind software specializat. Această tehnică este în general folosită pe date mari, deoarece datele mari nu furnizează informațiile solicitate în ansamblu.

3. Generalizare (Pregătirea datelor)

Din nou, după cum sugerează și numele, această tehnică este folosită pentru a generaliza datele în ansamblu. Acest lucru este diferit de agregare într-un mod în care datele în timpul generalizării nu sunt grupate pentru a obține mai multe informații, dar, la rândul său, întregul set de date este generalizat. Acest lucru va permite unui model de știință a datelor să se adapteze la punctele de date mai noi.

4. Normalizare (Pregătirea datelor)

În această tehnică, se acordă o atenție specială punctelor de date pentru a le aduce în aceeași scară pentru analiză. De exemplu, vârsta și salariul unei persoane se încadrează în diferite scale de măsurare, prin urmare, plasarea acestora pe un grafic nu ne va ajuta să obținem informații utile despre tendințele prezente ca o caracteristică colectivă. Folosind normalizarea, le putem aduce la o scară egală, astfel încât să poată fi efectuată compararea mărului cu mărul.

5. Selectare atribut / caracteristică (Pregătirea datelor)

În această tehnică, folosim metode pentru a efectua o selecție de caracteristici, astfel încât modelul utilizat pentru a antrena seturile de date poate implica valoare pentru a prezice datele pe care nu le-a văzut. Acest lucru este foarte analog cu alegerea ținutei potrivite dintr-o garderobă plină de haine pentru a se potrivi singur pentru eveniment. Caracteristicile care nu sunt relevante pot afecta negativ performanța modelului, cu atât mai puțin îmbunătățirea performanței.

6. Clasificare (modelarea datelor)

În această tehnică de extragere a datelor, ne ocupăm de grupuri cunoscute sub numele de „clase”. În această tehnică, utilizăm funcțiile selectate (așa cum s-a discutat în punctul de mai sus) colectiv pentru grupuri / categorii. De exemplu, într-un magazin, dacă trebuie să evaluăm dacă o persoană va cumpăra sau nu un produs, există „n” un număr de funcții pe care le putem folosi în mod colectiv pentru a obține un rezultat al Adevărului / Falsului.

7. Urmărirea modelului

Aceasta este una dintre tehnicile de bază folosite în extragerea datelor pentru a obține informații despre tendințe / tipare care ar putea fi expuse de punctele de date. De exemplu, putem determina o tendință de mai multe vânzări în timpul unui week-end sau timp de vacanță, mai degrabă decât în ​​zilele lucrătoare sau zilele lucrătoare.

8. Analiza anterioară sau detectarea anomaliilor

Aici, precum sugerează și denumirea, această tehnică este folosită pentru găsirea sau analizarea valorilor exterioare sau anomaliilor. Schemele de evidență sau anomaliile nu sunt puncte de date negative, ci sunt doar ceva care se evidențiază din tendința generală a întregului set de date. La identificarea valorilor exterioare, le putem elimina complet din setul de date, care apare la pregătirea datelor. Sau, altfel, această tehnică este folosită pe scară largă în seturile de date ale modelului pentru a prezice valori superioare.

9. Clustering

Această tehnică este destul de asemănătoare cu clasificarea, dar singura diferență este că nu știm grupul în care punctele de date vor cădea după gruparea după colectarea funcțiilor. Această metodă este utilizată de obicei în gruparea oamenilor pentru a viza recomandări similare ale produselor.

10. Regresie

Această tehnică este utilizată pentru a prezice probabilitatea unei caracteristici cu prezența altor caracteristici. De exemplu, putem formula probabilitatea prețului unui articol în raport cu cererea, concurența și alte câteva caracteristici.

11. Rețea neuronală

Această tehnică se bazează pe principiul modului în care funcționează neuronii biologici. Similar cu ceea ce face neuronii din corpul uman, neuronii dintr-o rețea neuronală în activitatea de extragere a datelor acționează, de asemenea, ca unitate de procesare și conectând un alt neuron pentru a transmite informațiile de-a lungul lanțului.

12. Asociere

În această metodă de extragere a datelor, relația dintre diferite caracteristici este determinată și, la rândul lor, utilizată pentru a găsi patternuri ascunse sau analiza aferentă este efectuată conform cerințelor de afaceri. De exemplu, folosind asocierea, putem găsi funcții corelate între ele și astfel să subliniem eliminarea oricui, astfel încât să eliminăm unele caracteristici redundante și să îmbunătățim puterea / timpul de procesare.

Concluzie

În concluzie, există cerințe diferite, trebuie să țineți cont în timp ce se efectuează extragerea datelor. Unul trebuie să fie foarte atent la ceea ce este de așteptat să fie astfel încât tehnicile corespunzătoare pot fi utilizate pentru a atinge obiectivul. Deși extragerea datelor este un spațiu în curs de evoluție, am încercat să creăm o listă exhaustivă pentru toate tipurile de instrumente din Data mining de mai sus pentru cititori.

Articole recomandate

Acesta este un ghid pentru tipul de extragere a datelor. Aici discutăm Introducerea și Top 12 tipuri de date mining. De asemenea, puteți parcurge și alte articole sugerate -

  1. Avantajele extragerii datelor
  2. Arhitectura de exploatare a datelor
  3. Metode de exploatare a datelor
  4. Instrument de extragere a datelor
  5. Tipuri de modele în Data Mining

Categorie: