Ce este Analiza Clusterului
Analiza clusterului grupează datele pe baza caracteristicilor pe care le posedă. Analiza clusterului grupează obiectele pe baza factorilor care le fac asemănătoare. Analiza clusterului se numește altfel analiză de segmentare sau taxonomie. Analiza clusterului nu diferențiază variabilele dependente și independente. Analiza clusterului este utilizată într-o mare varietate de domenii precum psihologia, biologia, statisticile, minerirea datelor, recunoașterea tiparelor și alte științe sociale.
Obiectivul analizei clusterului
Principalul obiectiv de analiză a clusterului este de a aborda eterogenitatea din fiecare set de date. Celelalte obiective ale analizei clusterului sunt
- Descrierea taxonomiei - identificarea grupurilor în cadrul datelor
- Simplificarea datelor - Capacitatea de a analiza grupuri de observații similare în locul tuturor observațiilor individuale
- Generarea sau testarea ipotezei - Dezvoltați ipoteze bazate pe natura datelor sau pentru a testa ipoteza declarată anterior
- Identificarea relațiilor - Structura simplificată din analiza clusterului care descrie relațiile
Există două scopuri principale ale analizei clusterului - Înțelegere și utilitate.
În condițiile Înțelegerii, analiza clusterului grupează obiecte care împărtășesc unele caracteristici comune
În scopul Utilității, analiza clusterului oferă caracteristicile fiecărui obiect de date clusterilor din care fac parte.
Analiza clusterului merge mână în mână cu analiza factorilor și analiza discriminantă.
Ar trebui să vă adresați câteva întrebări de analiză a clusterului înainte de a începe
- Ce variabile sunt relevante?
- Dimensiunea eșantionului este suficientă?
- Poate fi detectate valorile exterioare și ar trebui eliminate?
- Cum trebuie măsurat similitudinea obiectului?
- Ar trebui ca datele să fie standardizate?
Tipuri de clustere
Există trei tipuri majore de clustering
- Gruparea Ierarhică - care conține metoda aglomerativă și divizivă
- Clustering parțial - conține mijloace K, mijloace K fuzzy, izodata sub el
- Clustering pe bază de densitate - are sub Denclust, CLUPOT, Change Shift, SVC, Parzen-Watershed under it
Ipoteze în analiza clusterului
În analiza clusterului există întotdeauna două ipoteze
- Se presupune că eșantionul este un reprezentant al populației
- Se presupune că variabilele nu sunt corelate. Chiar dacă variabilele sunt corelate, eliminați variabilele corelate sau folosiți măsuri de distanță care compensează corelația.
Pași în analiza clusterului
-
- Pasul 1: Definiți problema
- Pasul 2: Decideți măsura de similaritate corespunzătoare
- Pasul 3: Decideți cum să grupați obiectele
- Pasul 4: Decideți numărul de clustere
- Pasul 5: Interpretați, descrieți și validați clusterul
Analiza clusterului în SPSS
În SPSS puteți găsi opțiunea de analiză a clusterului în opțiunea Analiza / Clasificare. În SPSS există trei metode pentru analiza clusterului - Clanul K-Means, Clusterul Ierarhic și Clusterul în doi pași.
Metoda clusterului K-Means clasifică un set de date dat printr-un număr fix de clustere. Această metodă este ușor de înțeles și oferă cele mai bune rezultate atunci când datele sunt bine separate unele de altele.
Analiza clusterului în doi pași este un instrument conceput pentru a gestiona seturi de date mari. Creează grupuri atât pentru variabile categorice cât și pentru variabile continue.
Clusterul ierarhic este cea mai frecventă metodă de analiză a clusterului. Acesta combină cazurile în grupuri omogene prin reunirea lor printr-o serie de pași secvențiali.
Analiza clusterului ierarhic conține trei pași
- Calculați distanța
- Legați clusterele
- Alegerea unei soluții prin selectarea numărului potrivit de clustere
În cele ce urmează, sunt prezentați pașii pentru efectuarea analizei ierarhice a clusterului în SPSS.
- Primul pas este selectarea variabilelor care urmează să fie grupate. Caseta de dialog de mai jos vă explică
- Făcând clic pe opțiunea statistică din caseta de dialog de mai sus, veți obține caseta de dialog unde doriți să specificați ieșirea
- În diagramele din caseta de dialog, adăugați diagramă. Dendrogram este reprezentarea grafică a metodei de analiză a ierarhiei clusterului. Acesta arată modul în care grupurile sunt combinate la fiecare pas până când formează un singur cluster.
- Metoda casetei de dialog este crucială. Puteți menționa aici distanța și metoda de clustering. În SPSS există trei măsuri pentru intervale, numărări și date binare.
- Distanța euclidiană pătrată este suma diferențelor pătrate fără a lua rădăcina pătrată.
- În numărătoare puteți selecta între Chi Square și Phi Square măsura
- În secțiunea Binar aveți o mulțime de opțiuni de ales. Distanța euclidiană pătrată este cea mai bună opțiune de utilizat.
- Următorul pas este alegerea metodei clusterului. Se recomandă întotdeauna utilizarea unei singure legături sau a celui mai apropiat vecin, deoarece ajută cu ușurință la identificarea valorilor exterioare. După identificarea conturului, puteți utiliza metoda lui Ward.
- Ultimul pas este Standardizarea
Critici ale analizei clusterului
Cele mai frecvente critici sunt enumerate mai jos
- Este descriptiv, teoretic și neferențial.
- Va produce clustere, indiferent de existența reală a oricărei structuri
- Nu poate fi utilizat pe scară largă, deoarece depinde în totalitate de variabilele utilizate ca bază pentru măsura de asemănare
Ce este analiza factorilor?
Analiza factorilor este o analiză exploratorie care ajută la gruparea variabilelor similare în dimensiuni. Poate fi utilizată pentru simplificarea datelor prin reducerea dimensiunilor observațiilor. Analiza factorilor are mai multe metode de rotație diferite.
Analiza factorilor este utilizată mai ales în scopuri de reducere a datelor.
Există două tipuri de analize ale factorilor - Explorator și Confirmatoriu
- Metoda exploratorie se utilizează atunci când nu aveți o idee predefinită despre structurile sau dimensiunile dintr-un set de variabile.
- Metoda de confirmare este utilizată atunci când doriți să testați ipoteze specifice despre structurile sau dimensiunile dintr-un set de variabile.
Obiectivele analizei factorilor
Există două obiective principale ale Analizei Factorilor, menționate mai jos
- Identificarea factorilor care stau la baza - Aceasta include gruparea variabilelor în seturi omogene, crearea de noi variabile și contribuirea la acumularea de cunoștințe despre categorii
- Screening de variabile - Este util în regresie și identifică grupări pentru a vă permite să selectați o variabilă care reprezintă multe.
Ipoteze ale analizei factorilor
Există patru ipoteze principale ale analizei factorilor care sunt menționate mai jos
- Modelele se bazează de obicei pe relații liniare
- Presupune că datele colectate sunt scalate pe intervale
- Multicollinearitatea în date este de dorit, deoarece obiectivul este de a afla setul de variabile interrelaționate
- Datele ar trebui să fie deschise și să răspundă pentru analiza factorilor. Nu ar trebui să fie în așa fel încât o variabilă să fie corelată doar cu ea însăși și nu există nicio corelație cu nicio altă variabilă. Analiza factorilor nu poate fi făcută pe astfel de date.
Tipuri de factorizare
- Factoringul principal al componentelor - Metoda cea mai frecvent utilizată în care se calculează ponderile factorilor pentru a extrage variația maximă posibilă și continuă până nu mai rămâne o varianță semnificativă.
- Analiza factorului canonic - Găsește factori care au cea mai mare corelație canonică cu variabilele observate
- Analiza factorilor comuni - Caută cel mai mic număr de factori care pot contabiliza variația comună a unui set de variabile
- Factorizarea imaginii - Bazat pe matricea de corelație în care fiecare variabilă este prevăzută de la celelalte folosind regresie multiplă
- Factoring Alpha - Maximizează fiabilitatea factorilor
- Modelul de regresie a factorului - Combinația modelului factorului și modelul de regresie ai cărui factori sunt parțial cunoscuți
Criterii de analiză a factorilor
-
Criteriile valorii proprii
- Reprezintă cantitatea de variație în variabilele originale care este conectată cu un factor
- Suma pătratului încărcărilor factorilor din fiecare variabilă pe un factor reprezintă valoarea propie
- Se păstrează factori cu valori proprii mai mari de 1, 0
-
Criterii de complot
- Un complot al valorilor proprii în raport cu numărul de factori, în ordinea extracției.
- Forma parcelei determină numărul de factori
-
Procentul criteriilor de variație
- Numărul de factori extras este descoperit astfel încât procentul din ce în ce mai mare de varianță extras de factori să atingă nivelul de satisfacție.
-
Criterii de testare a semnificației
- Se constată importanța statistică a valorilor proprii proprii și se păstrează doar acei factori care sunt semnificați statistic
Analiza factorilor este utilizată în diverse domenii precum psihologia, sociologia, științele politice, educația și sănătatea mintală.
Analiza factorilor în SPSS
În SPSS, opțiunea de analiză a factorilor poate fi găsită în Analiza reducerii dimensiunii în factor
- Începeți prin adăugarea variabilelor la secțiunea listei de variabile
- Faceți clic pe fila descriptivă și adăugați câteva statistici sub care sunt verificate ipotezele analizei factorilor.
- Faceți clic pe opțiunea Extracție care vă va permite să alegeți metoda de extracție și să reduceți valoarea pentru extragere
- Componentele principale (PCA) este metoda de extracție implicită care extrage chiar și combinații liniare necorelate ale variabilelor. PCA poate fi utilizat atunci când o matrice de corelație este singulară. Este foarte asemănător analizei corelațiilor canonice, unde primul factor are o variație maximă, iar următorii factori explică o porțiune mai mică a variației.
- A doua cea mai generală analiză este factoring axis principal. Identifică construcțiile latente din spatele observațiilor.
- Următorul pas este să selectați o metodă de rotație. Cea mai frecventă metodă este Varimax. Această metodă simplifică interpretarea factorilor.
- A doua metodă este Quartimax. Această metodă rotește factorii pentru a minimiza numărul de factori. Simplifică interpretarea variabilei observate.
- Metoda următoare este Equamax, care este o combinație dintre cele două metode de mai sus.
- În caseta de dialog făcând clic pe „opțiuni” puteți gestiona valorile care lipsesc
- Înainte de a salva rezultatele în setul de date, rulați mai întâi analiza factorului și verificați ipotezele și confirmați că rezultatele sunt semnificative și utile.
Analiza clusterului și analiza factorilor
Atât analiza clusterului, cât și analiza factorilor sunt o metodă de învățare nesupravegheată, care este utilizată pentru segmentarea datelor. Mulți cercetători care sunt noi în acest domeniu consideră că analiza clusterului și analiza factorilor sunt similare. Poate părea similară, dar diferă în multe feluri. Diferențele dintre analiza clusterului și analiza factorilor sunt enumerate mai jos
-
Obiectiv
Obiectivul analizei clusterului și al factorilor sunt diferite. Obiectivul analizei clusterului este divizarea observațiilor în grupuri omogene și distincte. Analiza factorului, pe de altă parte, explică omogenitatea variabilelor rezultate din similitudinea valorilor.
-
Complexitate
Complexitatea este un alt factor pentru care diferă analiza clusterului și a factorilor. Mărimea datelor afectează diferit analiza. Dacă dimensiunea datelor este prea mare, atunci devine calculabilă în analiza clusterului.
-
Soluţie
Soluția unei probleme este mai mult sau mai puțin similară atât în analiza factorului, cât și în cea a clusterului. Însă analiza factorilor oferă o soluție mai bună cercetătorului într-un aspect mai bun. Analiza clusterului nu dă cel mai bun rezultat, deoarece toți algoritmii din analiza clusterului sunt ineficienți din punct de vedere al calculului.
-
Aplicații
Analiza factorilor și analiza clusterului sunt aplicate diferit la datele reale. Analiza factorilor este potrivită pentru simplificarea modelelor complexe. Reduce setul mare de variabile la un set de factori mult mai mic. Cercetătorul poate dezvolta un set de ipoteze și poate rula analiza factorilor pentru a confirma sau a nega aceste ipoteze.
Analiza clusterului este potrivită pentru clasificarea obiectelor pe baza anumitor criterii. Cercetătorul poate măsura anumite aspecte ale unui grup și le poate împărți în categorii specifice folosind analiza clusterului.
Există de asemenea multe alte diferențe menționate mai jos
- Analiza cluster încearcă să grupeze cazuri, în timp ce analiza factorilor încearcă să grupeze caracteristici.
- Analiza clusterului este utilizată pentru a găsi grupuri mai mici de cazuri reprezentative ale unei date în ansamblu. Analiza factorilor este utilizată pentru a găsi un grup mai mic de caracteristici reprezentative pentru seturile de date caracteristici originale.
- Cea mai importantă parte a analizei clusterului este găsirea numărului de clustere. Practic, metodele de grupare sunt împărțite în două - Metoda aglomerativă și Metoda de partiționare. Metoda aglomerativă începe cu fiecare caz în propriul său cluster și se oprește atunci când este atins un criteriu. Metoda de partiționare începe cu toate cazurile dintr-un singur cluster.
- Analiza factorilor este utilizată pentru a afla o structură de bază într-un set de date.
Concluzie
Sper că acest articol v-ar fi ajutat să înțelegeți elementele de bază ale analizei clusterului și analizei factorilor și a diferențelor dintre cele două.
Cursuri conexe: -
- Curs de analiză cluster