Introducere în K- Mijloace de clustering algoritm?

K- Gruparea mijloacelor aparține algoritmului de învățare nesupravegheat. Se utilizează atunci când datele nu sunt definite în grupuri sau categorii, adică date fără marcă. Scopul acestui algoritm de clustering este căutarea și găsirea grupurilor în date, unde variabila K reprezintă numărul de grupuri.

Înțelegerea K- înseamnă algoritmul de clustering

Acest algoritm este un algoritm iterativ care partiționează setul de date în funcție de caracteristicile lor în numărul K de predefinite care nu se suprapun clustere sau subgrupuri distincte. Acesta face ca punctele de date ale inter-grupurilor să fie cât mai asemănătoare și, de asemenea, încearcă să mențină grupurile cât mai mult posibil. Alocă punctele de date unui cluster dacă suma distanței pătrate dintre centroidul clusterului și punctele de date este la un minim în care centroidul clusterului este media aritmetică a punctelor de date care se află în cluster. O mai mică variație a clusterului determină puncte de date similare sau omogene din cluster.

Cum funcționează algoritmul de clustering K-Means?

K- Means Algoritm de clustering are nevoie de următoarele intrări:

  • K = numărul de subgrupuri sau grupuri
  • Set de probă sau antrenament = (x 1, x 2, x 3, ……….. x n )

Să presupunem acum că avem un set de date care nu este etichetat și că trebuie să îl împărțim în grupuri.

Acum trebuie să găsim numărul de clustere. Acest lucru se poate face prin două metode:

  • Metoda cotului
  • Scopul metodei.

Să le discutăm pe scurt:

Metoda cotului

În această metodă, se realizează o curbă între „în suma celor pătrate” (WSS) și numărul de clustere. Curba trasată seamănă cu un braț uman. Se numește metoda cotului, deoarece punctul cotului în curbă ne oferă numărul optim de clustere. În grafic sau curbă, după punctul cotului, valoarea WSS se schimbă foarte încet, astfel încât punctul cotului trebuie să fie considerat a da valoarea finală a numărului de clustere.

Scop-Bazat

În această metodă, datele sunt împărțite pe baza unor valori diferite și după aceea se apreciază cât de bine au fost efectuate pentru acel caz. De exemplu, aranjarea cămășilor în departamentul de îmbrăcăminte pentru bărbați într-un mall se face pe criteriile mărimilor. Poate fi realizat pe baza prețului și a mărcilor. Cel mai potrivit ar fi ales pentru a oferi numărul optim de clustere, adică valoarea lui K.

Acum ne permite să revenim la setul de date dat mai sus. Putem calcula numărul de clustere adică valoarea lui K folosind oricare dintre metodele de mai sus.

Cum se utilizează metodele de mai sus?

Acum să vedem procesul de execuție:

Pasul 1: Inițializare

În primul rând, inițializează orice punct aleatoriu numit centru de cluster. La inițializare trebuie să aveți grijă ca centrezii clusterului să fie mai mici decât numărul de puncte de instruire. Acest algoritm este un algoritm iterativ, de aceea următorii doi pași sunt realizați iterativ.

Pasul 2: Alocare cluster

După inițializare, toate punctele de date sunt traversate și se calculează distanța dintre toate centrele și punctele de date. Acum grupurile ar fi formate în funcție de distanța minimă față de centroide. În acest exemplu, datele sunt împărțite în două clustere.

Pasul 3: mutarea Centroid

Deoarece grupurile formate în etapa de mai sus nu sunt optimizate, trebuie să formăm clustere optimizate. Pentru aceasta, trebuie să mutăm iterativ centrii într-o nouă locație. Luați puncte de date ale unui cluster, calculați-le media și apoi mutați centroidul acelui cluster în această nouă locație. Repetați același pas pentru toate celelalte clustere.

Pasul 4: Optimizarea

Cele două etape de mai sus sunt făcute iterativ până când centrezii nu mai mișcă, adică nu-și mai schimbă pozițiile și devin statice. Odată ce se face acest lucru, algoritmul k- este denumit a fi convergent.

Pasul 5: Convergență

Acum, acest algoritm a convergut și sunt formate clustere distincte și vizibile clar. Acest algoritm poate da rezultate diferite în funcție de modul în care au fost inițializate grupurile în prima etapă.

Aplicații ale algoritmului K-Means Clustering

  • Segmentarea pieței
  • Gruparea documentelor
  • Segmentarea imaginii
  • Compresia imaginii
  • Cuantificarea vectorială
  • Analiza grupului
  • Învățarea caracteristică sau învățarea dicționarului
  • Identificarea zonelor predispuse la crimă
  • Detectarea fraudei de asigurare
  • Analiza datelor de transport public
  • Gruparea activelor IT
  • Segmentarea clienților
  • Identificarea datelor canceroase
  • Folosit în motoarele de căutare
  • Predicția activității medicamentelor

Avantajele algoritmului de aglomerare a mijloacelor K

  • E rapid
  • Robust
  • Ușor de înțeles
  • Comparativ eficient
  • Dacă seturile de date sunt distincte, atunci se oferă cele mai bune rezultate
  • Produceți clustere mai strânse
  • Atunci când centroidele sunt recomputate, clusterul se schimbă.
  • Flexibil
  • Ușor de interpretat
  • Cost de calcul mai bun
  • Îmbunătățește precizia
  • Funcționează mai bine cu clustere sferice

Dezavantajele algoritmului de clustering K-Means

  • Necesită specificarea prealabilă a numărului de centre de cluster
  • Dacă există două date care se suprapun foarte mult, atunci nu se poate distinge și nu se poate spune că există două grupuri
  • Cu reprezentarea diferită a datelor, rezultatele obținute sunt de asemenea diferite
  • Distanța euclidiană poate cântări în mod inegal un factor
  • Dă optima locală a funcției de eroare pătrată
  • Uneori alegerea centrelor la întâmplare nu poate da rezultate fructuoase
  • Poate fi folosit doar dacă sensul este definit
  • Nu se pot gestiona valorile exterioare și datele zgomotoase
  • Nu funcționați pentru setul de date neliniare
  • Lipsește consecvența
  • Sensibil la scară
  • Dacă se întâlnesc seturi de date foarte mari, atunci computerul se poate bloca.
  • Probleme de predicție

Articole recomandate

Acesta a fost un ghid pentru algoritmul de clustering K-Means. Aici am discutat despre modul de lucru, aplicațiile, avantajele și dezavantajele algoritmului de clustering K-Means. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Ce este rețelele neuronale?
  2. Ce este data mining? | Rolul exploatării datelor
  3. Întrebare de interviu pentru extragerea datelor
  4. Învățare de mașini și rețea neuronală
  5. Gruparea în învățarea mașinilor

Categorie: