Introducere în algoritmul KNN în R

În algoritmul KNN în R, KNN reprezintă K algoritmul vecinului cel mai apropiat, iar R este un limbaj de programare. Se spune că este cel mai simplu dintre algoritmul de învățare automată. KNN este un algoritm supravegheat care clasifică punctele de date într-o clasă țintă prin compararea caracteristicilor cu cel mai apropiat vecin.

Exemplu: Să presupunem că doriți să clasificați un ecran tactil și un telefon cu tastatură. Există diverși factori care implică diferențierea ambelor telefoane. Cu toate acestea, factorul care diferențiază ambele telefoane este tastatura. Deci, când primim un punct de date (adică telefon). O comparăm cu caracteristicile similare ale punctelor de date vecine pentru a o clasifica ca tastatură sau telefon telefon.

Caracteristici ale algoritmului KNN

Aici vom studia caracteristicile algoritmului KNN:

  • Algoritmul KNN folosește datele de intrare pentru a prezice punctele de date setate de ieșire.
  • Algoritmul poate fi aplicat la diferite seturi de probleme.
  • Se concentrează pe asemănarea caracteristicilor pentru clasificarea datelor.
  • Algoritmul KNN gestionează date realiste și nu face presupuneri despre punctele de date.
  • KNN memorează setul de date de instruire, mai degrabă decât intuitiv. De asemenea, se poate spune că are o abordare leneșă.
  • Poate rezolva problemele de clasificare și regresie.

Abordarea problemelor în algoritmul KNN în R

Urmărirea problemei:

1. Problema de clasificare

În problema de clasificare, valorile sunt discrete la fel ca dacă doriți să mâncați pizza cu toppinguri sau fără. Există un teren comun. Algoritmul KNN ajută la rezolvarea unei astfel de probleme.

2. Problema de regresie

Problema de regresie apare în imagine atunci când avem o variabilă dependentă și o variabilă independentă. Ex: indicele IMC. De obicei, fiecare rând conține o observație sau punct de date și un exemplu.

Algoritmul KNN în R

Să ne uităm la pașii algoritmului care urmează:

Pasul 1: Încărcați datele de intrare.

Pasul 2: Inițializează K cu numărul vecinilor apropiați.

Pasul 3: Calcularea datelor (adică distanța dintre curent și cel mai apropiat vecin)

Pasul 4: Adăugarea distanței la setul curent de date comandat.

Pasul 5: Culegeți intrările K și etichetați-le.

Pasul 6: Returnați valoarea medie a problemei de regresie.

Pasul 7: Returnați valoarea modului pentru problemele de clasificare.

Punctele de reținut în timp ce implementați algoritmul KNN

  • Ar trebui să ne asigurăm că valoarea K este mai mare decât una, aceasta împiedică predicția să fie exactă.
  • Cu cât valoarea K este mai mare cu atât predicția poate fi mai precisă.
  • Este de preferat să aveți K ca număr impar. În caz contrar, poate duce la un tie-breaker.

Pseudocod KNN

În formula de mai jos, reprezintă variabile și reprezintă puncte de date unde (i = 1, 2, 3….)

Set(, )

Cazuri de utilizare

Urmează cazurile de utilizare în algoritmul KNN în R:

1. Compararea produselor și ajutorul în recomandările de cumpărături

Atunci când cumpărăm un laptop sau computer de pe un site web de comerț electronic, vedem, de asemenea, recomandări de cumpărături, cum ar fi achiziționarea de software sau boxe anti-virus. Toate acestea se datorează faptului că atunci când un client anterior cumpără un laptop, acesta este cumpărat în mare parte împreună cu antivirus sau boxe. Învățarea automată ajută la recomandările de comerț electronic.

2. Recomandări alimentare

Învățarea automată ajută, de asemenea, la recomandările bazate pe mâncarea comandată anterior și, de asemenea, sugerează restaurante în consecință.

Exemplu de algoritm KNN

Urmează exemplele algoritmului KNN:

1. Importarea datelor

Să luăm datele dummy despre noi care prezic mărimea tricoului unui tip cu ajutorul înălțimii și a greutății.

Înălțime (cms) Greutate (kg) mărimea
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Găsirea asemănărilor prin calcularea distanței

Putem folosi atât distanța Manhattan, cât și cea euclidiană, deoarece datele sunt continue. Calculăm distanța dintre noul eșantion și setul de date de instruire, apoi găsim cea mai apropiată K.

Exemplu: Să spunem că „Raj” are o înălțime de 165 cm și cântărește 63 Kgs. Calculăm distanța euclidiană folosind prima observație cu noul eșantion: SQRT ((165-140) 2 + (63-58) 2)

3. Găsirea vecinilor apropiați de K

Să presupunem că K = 4, Există 4 clienți în care 3 dintre aceștia aveau dimensiuni medii și 1 fiind de dimensiuni mari. Cea mai bună predicție este ca mărimea medie se potrivește lui Raj.

Diferența dintre KNN și media K

Urmează diferența:

  • KNN este un algoritm supravegheat (variabilă dependentă), în timp ce media K este un algoritm nesupravegheat (nicio variabilă dependentă).
  • K-mean folosește o tehnică de clustering pentru a împărți punctele de date formând clustere K.KNN folosește vecinii cei mai apropiați K pentru a clasifica punctele de date și a le combina.

Avantajele și dezavantajele KNN

Următoarele sunt avantajele:

  • Algoritmul KNN este versatil, poate fi utilizat pentru probleme de clasificare și regresie.
  • Nu este nevoie de un model anterior pentru a construi algoritmul KNN.
  • Simplu și ușor de implementat.

Următoarele sunt dezavantajele:

  • Algoritmul pe măsură ce numărul de eșantioane crește (adică nr de variabile)

Articole recomandate

Acesta este un ghid pentru algoritmul KNN din R. Aici vom discuta caracteristici, exemple, pseudocod, pași care trebuie urmați în algoritmul KNN. Puteți, de asemenea, să parcurgeți alte articole conexe pentru a afla mai multe-

  1. Algoritmi de știință a datelor
  2. Ce este Algoritmul genetic?
  3. Algoritmi de rutare
  4. Algoritmi de rețea neuronală
  5. C ++ Algoritm | Exemple de algoritm C ++

Categorie: