K- Mijloace algoritmul de clustering - Cum funcționează - Analiză și implementare

Introducere în K- Mijloace de clustering algoritm?

K- Gruparea mijloacelor aparține algoritmului de învățare nesupravegheat. Se utilizează atunci când datele nu sunt definite în grupuri sau categorii, adică date fără marcă. Scopul acestui algoritm de clustering este căutarea și găsirea grupurilor în date, unde variabila K reprezintă numărul de grupuri.

Înțelegerea K- înseamnă algoritmul de clustering

Acest algoritm este un algoritm iterativ care partiționează setul de date în funcție de caracteristicile lor în numărul K de predefinite care nu se suprapun clustere sau subgrupuri distincte. Acesta face ca punctele de date ale inter-grupurilor să fie cât mai asemănătoare și, de asemenea, încearcă să mențină grupurile cât mai mult posibil. Alocă punctele de date unui cluster dacă suma distanței pătrate dintre centroidul clusterului și punctele de date este la un minim în care centroidul clusterului este media aritmetică a punctelor de date care se află în cluster. O mai mică variație a clusterului determină puncte de date similare sau omogene din cluster.

Cum funcționează algoritmul de clustering K-Means?

K- Means Algoritm de clustering are nevoie de următoarele intrări:

K = numărul de subgrupuri sau grupuri
Set de probă sau antrenament = (x ₁, x ₂, x ₃, ……….. x _n )

Să presupunem acum că avem un set de date care nu este etichetat și că trebuie să îl împărțim în grupuri.

Acum trebuie să găsim numărul de clustere. Acest lucru se poate face prin două metode:

Metoda cotului
Scopul metodei.

Să le discutăm pe scurt:

Metoda cotului

În această metodă, se realizează o curbă între „în suma celor pătrate” (WSS) și numărul de clustere. Curba trasată seamănă cu un braț uman. Se numește metoda cotului, deoarece punctul cotului în curbă ne oferă numărul optim de clustere. În grafic sau curbă, după punctul cotului, valoarea WSS se schimbă foarte încet, astfel încât punctul cotului trebuie să fie considerat a da valoarea finală a numărului de clustere.

Scop-Bazat

În această metodă, datele sunt împărțite pe baza unor valori diferite și după aceea se apreciază cât de bine au fost efectuate pentru acel caz. De exemplu, aranjarea cămășilor în departamentul de îmbrăcăminte pentru bărbați într-un mall se face pe criteriile mărimilor. Poate fi realizat pe baza prețului și a mărcilor. Cel mai potrivit ar fi ales pentru a oferi numărul optim de clustere, adică valoarea lui K.

Acum ne permite să revenim la setul de date dat mai sus. Putem calcula numărul de clustere adică valoarea lui K folosind oricare dintre metodele de mai sus.

Cum se utilizează metodele de mai sus?

Acum să vedem procesul de execuție:

Pasul 1: Inițializare

În primul rând, inițializează orice punct aleatoriu numit centru de cluster. La inițializare trebuie să aveți grijă ca centrezii clusterului să fie mai mici decât numărul de puncte de instruire. Acest algoritm este un algoritm iterativ, de aceea următorii doi pași sunt realizați iterativ.

Pasul 2: Alocare cluster

După inițializare, toate punctele de date sunt traversate și se calculează distanța dintre toate centrele și punctele de date. Acum grupurile ar fi formate în funcție de distanța minimă față de centroide. În acest exemplu, datele sunt împărțite în două clustere.

Pasul 3: mutarea Centroid

Deoarece grupurile formate în etapa de mai sus nu sunt optimizate, trebuie să formăm clustere optimizate. Pentru aceasta, trebuie să mutăm iterativ centrii într-o nouă locație. Luați puncte de date ale unui cluster, calculați-le media și apoi mutați centroidul acelui cluster în această nouă locație. Repetați același pas pentru toate celelalte clustere.

Pasul 4: Optimizarea

Cele două etape de mai sus sunt făcute iterativ până când centrezii nu mai mișcă, adică nu-și mai schimbă pozițiile și devin statice. Odată ce se face acest lucru, algoritmul k- este denumit a fi convergent.

Pasul 5: Convergență

Acum, acest algoritm a convergut și sunt formate clustere distincte și vizibile clar. Acest algoritm poate da rezultate diferite în funcție de modul în care au fost inițializate grupurile în prima etapă.

Aplicații ale algoritmului K-Means Clustering

Segmentarea pieței
Gruparea documentelor
Segmentarea imaginii
Compresia imaginii
Cuantificarea vectorială
Analiza grupului
Învățarea caracteristică sau învățarea dicționarului
Identificarea zonelor predispuse la crimă
Detectarea fraudei de asigurare
Analiza datelor de transport public
Gruparea activelor IT
Segmentarea clienților
Identificarea datelor canceroase
Folosit în motoarele de căutare
Predicția activității medicamentelor

Avantajele algoritmului de aglomerare a mijloacelor K

E rapid
Robust
Ușor de înțeles
Comparativ eficient
Dacă seturile de date sunt distincte, atunci se oferă cele mai bune rezultate
Produceți clustere mai strânse
Atunci când centroidele sunt recomputate, clusterul se schimbă.
Flexibil
Ușor de interpretat
Cost de calcul mai bun
Îmbunătățește precizia
Funcționează mai bine cu clustere sferice

Dezavantajele algoritmului de clustering K-Means

Necesită specificarea prealabilă a numărului de centre de cluster
Dacă există două date care se suprapun foarte mult, atunci nu se poate distinge și nu se poate spune că există două grupuri
Cu reprezentarea diferită a datelor, rezultatele obținute sunt de asemenea diferite
Distanța euclidiană poate cântări în mod inegal un factor
Dă optima locală a funcției de eroare pătrată
Uneori alegerea centrelor la întâmplare nu poate da rezultate fructuoase
Poate fi folosit doar dacă sensul este definit
Nu se pot gestiona valorile exterioare și datele zgomotoase
Nu funcționați pentru setul de date neliniare
Lipsește consecvența
Sensibil la scară
Dacă se întâlnesc seturi de date foarte mari, atunci computerul se poate bloca.
Probleme de predicție

Articole recomandate

Acesta a fost un ghid pentru algoritmul de clustering K-Means. Aici am discutat despre modul de lucru, aplicațiile, avantajele și dezavantajele algoritmului de clustering K-Means. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

Ce este rețelele neuronale?
Ce este data mining? | Rolul exploatării datelor
Întrebare de interviu pentru extragerea datelor
Învățare de mașini și rețea neuronală
Gruparea în învățarea mașinilor

K- Mijloace algoritmul de clustering - Cum funcționează - Analiză și implementare

Cuprins:

Introducere în K- Mijloace de clustering algoritm?

Înțelegerea K- înseamnă algoritmul de clustering

Cum funcționează algoritmul de clustering K-Means?

Metoda cotului

Scop-Bazat

Cum se utilizează metodele de mai sus?

Pasul 1: Inițializare

Pasul 2: Alocare cluster

Pasul 3: mutarea Centroid

Pasul 4: Optimizarea

Pasul 5: Convergență

Aplicații ale algoritmului K-Means Clustering

Avantajele algoritmului de aglomerare a mijloacelor K

Dezavantajele algoritmului de clustering K-Means

Articole recomandate

Metode de evaluare a afacerilor - Calculator - Certificare

Cumpărare vs Leasing - 7 cele mai bune diferențe de învățat (cu infografie)

Formula CAGR - Calculator (exemple cu șablonul Excel)

C # Rezumat și interfață - Aflați cele mai importante diferențe importante

Anul calendaristic vs Anul fiscal - Top 6 diferențe pe care ar trebui să le știi

Formula de returnare a portofoliului - Calculator (exemple cu șablonul Excel)

Power BI Dashboard vs Raport - 8 comparații uimitoare

Șablon BI de putere - Caracteristici de top ale Power BI pentru vizualizarea datelor

Operatori PostgreSQL - Diferite tipuri de operatori în PostgreSQL

10 întrebări esențiale pentru interviul BI BI Actualizate pentru 2019)

NPER în Excel - Cum se utilizează NPER în Excel (formulă, exemple)

NU în Excel (Formula, exemple) - Cum să folosești funcția NU?

ACUM Funcție în Excel (formulă, exemple) - Cum se utilizează ACUM în Excel?

Funcția NPER în Excel - Cum se utilizează funcția NPER în Excel?

Formula NPV în Excel - Cum se utilizează NPV Formula în Excel?