Introducere în algoritmii de clasificare

Acest articol despre algoritmii de clasificare prezintă o imagine de ansamblu asupra diferitelor metode de clasificare utilizate în mod obișnuit în tehnicile de extragere a datelor cu principii diferite. Clasificarea este o tehnică care clasifică datele într-un număr distinct de clase și, la rândul lor, sunt atribuite etichete pentru fiecare clasă. Obiectivul principal al clasificării este identificarea clasei pentru a lansa date noi prin analiza setului de instruire, văzând limitele adecvate. Într-un mod general, prezicerea clasei țintă și a procesului de mai sus se numește clasificare.

De exemplu, managementul spitalului înregistrează numele, adresa, vârsta, istoricul anterior al stării de sănătate a pacientului pentru a le diagnostica, acest lucru ajută la clasificarea pacienților. Ele pot fi caracterizate în două faze: o fază de învățare și o etapă de evaluare. Modelele de fază de învățare oferă baza de abordare și nu oferă date de instruire, în timp ce faza de evaluare prevede producția pentru datele date. Am putea găsi aplicațiile lor în e-mail-uri de spam, predicție de împrumut bancar, recunoaștere de vorbire, analiză sentimente. Tehnica include funcția matematică f cu intrarea X și ieșirea Y.

Explicați algoritmii de clasificare în detaliu

Clasificarea poate fi efectuată atât pe date structurate cât și pe cele nestructurate. Clasificarea poate fi clasificată în

  1. Clasificatorul Naive Bayes
  2. Arbori de decizie
  3. Suport Vector Machine
  4. Pădurea întâmplătoare
  5. K- Vecini apropiați

1) Clasificatorul Naive Bayes

Este un algoritm bazat pe teorema lui Bayes, una dintre clasificările statistice și necesită puține cantități de date de instruire pentru a estima parametrii cunoscuți și ca clasificatori probabilistici. Este considerat cel mai rapid clasificator, extrem de scalabil și gestionează atât date discrete cât și date continue. Acest algoritm folosit pentru a face o predicție în timp real. Există diferite tipuri de clasificator naiv, multinomial Naïve Bayes, Bernoulli Naïve Bayes, naiv gaussian.

Clasificarea bayesiană cu probabilități posterioare este dată de

Unde A, B sunt evenimente, P (A | B) - Probabilități posterioare.

Dacă două valori sunt independente una de alta, atunci,

P (A, B) = P (A) P (B)

Naïve Bayes poate fi construit folosind biblioteca python. Predictorii Naïve sunt independenți, deși sunt folosiți în sistemele de recomandare. Sunt utilizate în multe aplicații în timp real și sunt bine utilizate în cunoștință de clasificare a documentelor.

avantaje:

Avantajele sunt că necesită o putere de calcul foarte mică, asumată în mai multe probleme de predicție de clasă, funcționează cu exactitate pe seturi de date mari.

Dezavantaj:

Principalul dezavantaj al acestui clasificator este că vor atribui probabilitate zero. Și au caracteristici cu sunt independenți unul de celălalt.

2) Arborele decizional

Este un model de abordare de sus în jos, cu structura fluxurilor care gestionează date de dimensiuni înalte. Rezultatele sunt prezise pe baza variabilei de intrare date. Arborele decizional compus din următoarele elemente: O rădăcină, multe noduri, ramuri, frunze. Nodul rădăcină face partiția bazată pe valoarea atributului clasei, nodul intern ia un atribut pentru o clasificare ulterioară, ramurile fac o regulă de decizie de a împărți nodurile în noduri frunze, în cele din urmă, nodurile frunze ne oferă rezultatul final. Complexitatea de timp a arborelui decizional depinde de numărul de înregistrări, atribute ale datelor de instruire. Dacă arborele decizional este prea lung, este dificil să obții rezultatele dorite.

Avantaj: sunt aplicate pentru analize predictive pentru rezolvarea problemelor și obișnuite în activitățile zilnice pentru a alege ținta bazată pe analiza decizională. Construiește automat un model bazat pe datele sursă. Cel mai bun în gestionarea valorilor lipsă.

Dezavantaj: Mărimea arborelui este incontrolabilă până când are câteva criterii de oprire. Datorită structurii lor ierarhice, arborele este instabil.

3) Mașină Vector Suport

Acest algoritm joacă un rol vital în problemele de clasificare și cel mai popular un algoritm supravegheat de învățare automată. Este un instrument important folosit de cercetător și om de știință de date. Acest SVM este foarte ușor, iar procesul său este de a găsi un hiperplan într-un punct de date cu spații N-dimensionale. Hiperplanurile sunt granițe de decizie care clasifică punctele de date. Tot acest vector se apropie de hiperplan, maximizează marja clasificatorului. Dacă marja este maximă, cea mai mică este eroarea de generalizare. Implementarea lor se poate face cu nucleul folosind python cu câteva seturi de date de instruire. Principala țintă a SVM este formarea unui obiect într-o anumită clasificare. SVM nu este restricționat să devină un clasificator liniar. SVM este preferat mai mult decât orice model de clasificare, datorită funcției lor de nucleu care îmbunătățește eficiența calculației.

Avantaj: sunt de preferat pentru puterea sa de calcul mai mică și pentru precizia eficientă. Eficient în spațiu dimensional înalt, eficiență bună a memoriei.

Dezavantaj: Limitări de viteză, sâmbure și dimensiune

4) Pădurea întâmplătoare

Este un algoritm puternic de învățare automată bazat pe abordarea Ensemble learning. Blocul de bază al pădurii aleatorii este arborele de decizie utilizat pentru a construi modele predictive. Demonstrația de lucru include crearea unei păduri de arbori de decizie aleatorie, iar procesul de tăiere se realizează prin setarea unei despicături de oprire pentru a da un rezultat mai bun. Pădurea întâmplătoare este implementată folosind o tehnică numită bagaj pentru luarea deciziilor. Acest bagaj împiedică supra-montarea datelor prin reducerea prejudecății, în mod similar, această întâmplare poate obține o precizie mai bună. O predicție finală este luată în medie de mulți arbori de decizie, adică predicții frecvente. Pădurea aleatorie include multe cazuri de utilizare precum previziuni ale pieței bursiere, detectarea fraudelor, predicții de știri.

avantaje:

  • Nu necesită nicio prelucrare mare pentru a procesa seturile de date și un model foarte ușor de construit. Oferă o precizie mai mare ajută la rezolvarea problemelor predictive.
  • Funcționează bine în gestionarea valorilor lipsă și detectează automat o valoare anterioară.

Dezavantaj:

  • Necesită costuri de calcul ridicate și memorie ridicată.
  • Necesită mult mai mult timp.

5) K- Vecini apropiați

Aici vom discuta despre algoritmul K-NN cu învățare supravegheată pentru CART. Ei folosesc K întregi mici pozitivi; un obiect este atribuit clasei în funcție de vecini sau vom spune că alocăm un grup prin observarea în ce grup se află vecinul. Acest lucru este ales prin măsura distanței distanță euclidiană și o forță brută. Valoarea lui K poate fi găsită folosind procesul de acordare. KNN nu preferă să învețe niciun model pentru a antrena un nou set de date și să folosească normalizarea pentru revânzarea datelor.

Avantaj: produce rezultate eficiente dacă datele de instruire sunt uriașe.

Dezavantaj: Problema cea mai mare este că, dacă variabila este mică, funcționează bine. În al doilea rând, alegerea factorului K în timp ce se clasifică.

Concluzie

În concluzie, am trecut prin capabilitățile diferiților algoritmi de clasificare acționează în continuare ca un instrument puternic în ingineria caracteristicilor, clasificarea imaginilor care joacă o resursă excelentă pentru învățarea mașinilor. Algoritmii de clasificare sunt algoritmi puternici care rezolvă problemele grele.

Articole recomandate

Acesta este un ghid pentru algoritmii de clasificare în învățarea mașinii. Aici discutăm că Clasificarea poate fi efectuată atât pe date structurate cât și pe cele nestructurate. De asemenea, puteți parcurge și alte articole sugerate -

  1. Algoritmi de rutare
  2. Algoritmul de clustering
  3. Procesul de extragere a datelor
  4. Algoritmi de învățare a mașinilor
  5. Cele mai utilizate tehnici de învățare a ansamblurilor
  6. C ++ Algoritm | Exemple de algoritm C ++

Categorie: