Introducere în Metode de Clustering
Acest articol prezintă o imagine de ansamblu a diferitelor metode de clustering utilizate în tehnicile de extragere a datelor cu principii diferite. Clustering-ul este un set de obiecte de date organizate într-o grupare logică diferită. Gruparea elementelor de date similare și atribuirea elementelor de date similare în grupuri individuale. Gruparea se face în seturi mari de date pentru învățare nesupravegheată. În acest timp, vom efectua partiții pe setul de date în grupuri. Structura clusteringului este reprezentată după cum urmează cu subseturile. C = c1, c2 … c n . Deoarece grupurile de clustering au obiecte similare, unele măsuri trebuie luate în metode de clustering pentru a determina măsuri de distanță și similaritate. Metodele de clustering se bazează pe modele probabilistice. Exploatarea datelor necesită clustering pentru scalabilitate pentru a face față bazelor de date înalte, gestionând spațiul multidimensional, pentru a face față datelor și zgomotului eronat.
Explicați metodele de clustering?
Această metodă de clustering ajută la gruparea unor date valoroase în clustere și din aceasta se obțin rezultate adecvate pe baza diferitelor tehnici. De exemplu, în regăsirea informațiilor, rezultatele interogării sunt grupate în grupuri mici și fiecare cluster are rezultate irelevante. Prin tehnici de clustering, acestea sunt grupate în categorii similare și fiecare categorie este subdivizată în sub-categorii pentru a ajuta la explorarea rezultatelor interogărilor. Există diferite tipuri de metode de clustering, acestea sunt
- Metode ierarhice
- Metode de partiționare
- Densitate bazată
- Clustering bazat pe model
- Model bazat pe grilă
Urmează o prezentare generală a tehnicilor utilizate în minerirea datelor și inteligența artificială.
1. Metoda ierarhică
Această metodă creează un cluster prin partitionare într-o manieră de sus în jos și de jos în sus. Ambele abordări produc dendrogramă, fac conectivitate între ele. Dendrogramul este un format asemănător arborelui care păstrează succesiunea grupurilor de fuziune. Metodele ierarhice sunt produse mai multe partiții cu niveluri de similaritate. Ele sunt împărțite în grupări ierarhice aglomerative și grupări ierarhice divizive. Aici se creează un arbore de cluster folosind tehnici de fuziune. Pentru divizarea procesului se folosește diviziunea, fuzionarea utilizează aglomerativ. Gruparea aglomerativă implică:
- Inițial, luarea tuturor punctelor de date și luarea lor în considerare ca grupuri individuale încep de la capăt în jos. Aceste grupări sunt îmbinate până când am obținut rezultatele dorite.
- Următoarele două grupuri similare sunt grupate pentru a forma un singur cluster imens.
- Din nou calculând proximitatea în clusterul imens și îmbină grupurile similare.
- Etapa finală presupune contopirea tuturor grupurilor obținute la fiecare etapă pentru a forma un singur grup final.
2. Metoda de partiționare:
Scopul principal al partiției este relocarea. Acestea transferă partiții trecând de la un cluster la altul ceea ce face o partiționare inițială. Împparte „n” obiecte de date în „k” număr de clustere. Această metodă partițională este preferată mai mult decât un model ierarhic în recunoașterea modelului. Următoarele criterii sunt stabilite pentru a satisface tehnicile:
- Fiecare cluster ar trebui să aibă un singur obiect.
- Fiecare obiect de date aparține unui singur cluster.
Cele mai utilizate tehnici de partiție sunt Algoritmul cu media K. Ei se împart în grupuri „K” reprezentate de centrezi. Fiecare centru de cluster este calculat ca o medie a acelui cluster, iar funcția R vizualizează rezultatul. Acest algoritm are următorii pași:
- Selectarea aleatorie a obiectelor K din setul de date și formează centrele inițiale (centroide)
- Următoarea alocarea distanței euclidiene între obiecte și centrul mediu.
- Alocarea unei valori medii pentru fiecare cluster individual.
- Pași de actualizare centroid pentru fiecare „k” Cluster.
3. Model de densitate:
În acest model, grupurile sunt definite prin localizarea regiunilor cu densitate mai mare într-un cluster. Principiul principal din spatele lor este concentrarea pe doi parametri: raza maximă a cartierului și numărul minim de puncte. Modelul bazat pe densitate identifică grupuri de forme și zgomot diferite. Funcționează prin detectarea tiparelor prin estimarea locației spațiale și distanța față de metoda vecinului folosită aici este DBSCAN (clustering spațial bazat pe densitate) care dă mâini bazelor de date spațiale mari. Utilizarea a trei puncte de date pentru clustering, și anume punctele de bază, punctele de graniță și valorile exterioare. Scopul principal este identificarea clusterelor și parametrii de distribuție a acestora. Procesul de clustering este oprit cu necesitatea parametrilor de densitate. Pentru a găsi clusterele, este important să existe un parametru Caracteristici minime per cluster în calculul distanței de bază. Cele trei instrumente diferite oferite de acest model sunt DBSCAN, HDBSCAN, Multi-scale.
4. Clustering bazat pe model
Acest model combină două sau trei grupuri împreună de distribuția datelor. Ideea de bază din spatele acestui model este necesară împărțirea datelor în două grupuri pe baza modelului de probabilitate (distribuții normale multivariate). Aici fiecare grup este atribuit ca concepte sau clase. Fiecare componentă este definită printr-o funcție de densitate. Pentru a găsi parametrul în acest model, estimarea maximă a probabilității este utilizată pentru montarea distribuției amestecului. Fiecare cluster „K” este modelat prin distribuția Gaussiană cu vector mediu cu doi parametri µ k și vector de covarianță £ k .
5. Model bazat pe grilă
În această abordare, obiectele sunt considerate a fi conduse de spațiu prin împărțirea spațiului într-un număr finit de celule pentru a forma o grilă. Cu ajutorul rețelei, tehnica de clustering este aplicată pentru o procesare mai rapidă, care este de obicei dependentă de celulele care nu sunt pe obiecte. Etapele implicate sunt:
- Crearea structurii grilei
- Densitatea celulelor este calculată pentru fiecare celulă
- Aplicarea unui mecanism de sortare la densitățile acestora.
- Căutarea centrelor de cluster și traversarea pe celulele vecine pentru a repeta procesul.
Importanța metodelor de clustering
- Având metode de clustering ajută la repornirea procedurii de căutare locală și la eliminarea ineficienței. Clusteringul ajută la determinarea structurii interne a datelor.
- Această analiză de grup a fost folosită pentru analiza modelului, regiunea vectorială a atracției.
- Clusteringul ajută la înțelegerea grupării naturale într-un set de date. Scopul lor este de a da un sens partitionării datelor într-un grup de grupări logice.
- Calitatea de clustering depinde de metode și de a identifica tipare ascunse.
- Acestea joacă un rol larg în aplicații precum cercetarea economică de marketing, blogurile web pentru a identifica tiparele în măsuri de asemănare, procesarea imaginilor, cercetarea spațială.
- Acestea sunt utilizate în detecții anterioare pentru a detecta fraudarea cardului de credit.
Concluzie
Clustering-ul este considerat o sarcină generală pentru a rezolva problema care formulează o problemă de optimizare. Acesta joacă o importanță esențială în domeniul mineritului și analizei datelor. Am văzut diferite metode de clustering care divizează setul de date depinde de cerințe. Cea mai mare parte a cercetării se bazează pe tehnici tradiționale precum mijloacele K și modele ierarhice. Zonele de cluster sunt aplicate în stări dimensionale înalte, ceea ce constituie un scop viitor al cercetătorilor.
Articol recomandat
Acesta a fost un ghid pentru metodele de clustering. Aici am discutat conceptul, importanța și tehnicile metodelor de clustering. Puteți parcurge și alte articole sugerate pentru a afla mai multe -
- Ce este ETL?
- Ce este știința datelor
- Ce este Teradata?
- Top 6 alternative AWS
- Gruparea în învățarea mașinilor
- Regresie multivariată
- Gruparea Ierarhică | Gruparea aglomerativă și divizivă