Regresie vs Clasificare - Principale diferențe de bază și comparație

Diferența dintre regresie și clasificare

În acest articol Regresie vs Clasificare, să discutăm despre diferențele cheie dintre regresie și clasificare. Învățarea automată este împărțită în general în două tipuri, care sunt învățare automată supravegheată și învățare automată nesupervizată În învățarea automată supravegheată, avem o valoare de ieșire cunoscută în setul de date și formăm modelul bazat pe acestea și îl utilizăm pentru predicție, în timp ce în învățarea automată nesupravegheată nu avem un set cunoscut de valori de ieșire. Pentru a face diferența între Clasificare și Regresie, să înțelegem ce înseamnă această terminologie în Învățarea automată. Regresia este un algoritm în învățarea mașinii supravegheate care poate fi instruit pentru a prezice rezultatele numărului real. Clasificarea este un algoritm în învățarea automată supravegheată, care este instruit pentru a identifica categoriile și a prezice în ce categorie se încadrează valorile noi.

Comparație dintre cap și cap între clasificare și regresie (Infografie)

Mai jos este Top 5 Comparație între Regresie și Clasificare :

Diferențe cheie între regresie și clasificare

Să discutăm câteva diferențe cheie între regresie și clasificare în următoarele puncte:

Clasificarea se referă la prezicerea unei etichete sau categorii. Algoritmul de clasificare clasifică datele necesare setate într-una sau mai multe etichete, un algoritm care se ocupă de două clase sau categorii este cunoscut ca clasificator binar și dacă există mai mult de două clase, atunci poate fi numit algoritm de clasificare cu mai multe clase.
Regresia constă în găsirea unei funcții optime pentru identificarea datelor valorilor reale continue și pentru a face predicții ale acestei cantități. Regresia cu variabile multiple ca intrare sau caracteristici pentru a antrena algoritmul este cunoscută ca o problemă de regresie multivariată. Dacă în problema de regresie, valorile de intrare sunt dependente sau ordonate în timp, atunci este cunoscută sub numele de problemă de prognoză a seriilor de timp.
Cu toate acestea, modelul de clasificare va prezice, de asemenea, o valoare continuă care este probabilitatea de a se întâmpla evenimentul aparținând acelei clase de ieșire respective. Aici probabilitatea evenimentului reprezintă probabilitatea unui exemplu dat care aparține unei clase specifice. Valoarea de probabilitate prevăzută poate fi convertită într-o valoare de clasă selectând eticheta de clasă care are cea mai mare probabilitate.
Să înțelegem asta mai bine, văzând un exemplu, presupunem că antrenăm modelul pentru a prezice dacă o persoană are cancer sau nu pe baza unor trăsături. Dacă avem probabilitatea ca o persoană să aibă cancer la 0, 8 și să nu aibă cancer la 0, 2, am putea converti probabilitatea 0, 8 într-o etichetă de clasă care are cancer, deoarece are cea mai mare probabilitate.
După cum am menționat mai sus în clasificare, pentru a vedea cât de performant este modelul de clasificare, calculăm precizia. Să vedem cum se realizează calculul, precizia în clasificare poate fi efectuată luând raportul dintre predicțiile corecte și predicțiile totale înmulțit cu 100. Dacă sunt 50 de predicții făcute și 10 dintre acestea sunt corecte și 40 sunt incorecte, atunci precizia va fi de 20. %.

Precizia = (Numărul de predicții corecte / Numărul total de predicții) * (100)

Precizia = (10/50) * (100)
Precizia = 20%

Așa cum am menționat mai sus în regresie, pentru a vedea cât de bun este modelul de regresie cel mai popular mod este de a calcula o eroare pătrată medie (RMSE). Să vedem cum va fi efectuat calculul.

Valoarea estimată a modelului de regresie este de 4, 9, în timp ce valoarea reală este 5, 3.

Valoarea estimată a modelului de regresie este de 2, 3, în timp ce valoarea reală este de 2, 1.

Valoarea estimată a modelului de regresie este 3, 4, în timp ce valoarea reală este 2, 9.

Acum, Root înseamnă că eroarea pătrată poate fi calculată folosind formula.

Eroarea pătrată este (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Media erorii pătrate = 0, 45 / 3 = 0, 15

Eroare pătrată medie rădăcină = rădăcină pătrată de 0, 15 = 0, 38

Adică RMSE = 0, 38. Există multe alte metode pentru a calcula eficiența modelului, dar RMSE este cea mai utilizată, deoarece RMSE oferă scorul de eroare în aceleași unități ca și valoarea prevăzută.

Exemple:

Cei mai mulți ingineri oameni de știință a datelor găsesc dificilă alegerea unuia dintre regresie și clasificare în etapa de început a carierei lor. Pentru a facilita, să vedem cum arată problemele de clasificare și cum arată problemele de regresie,

Clasificare

Prezicând dacă va ploua sau nu mâine.
Previziunea unei persoane ar trebui să cumpere acel bun sau să nu facă profit.
Prezicând dacă o persoană are sau nu o boală.

Dacă observați pentru fiecare situație aici, poate exista un Da sau Nu ca valoare prevăzută pentru ieșire.

regresiune

Previziunea prețului terenului.
Prezicerea prețului acțiunilor.

Dacă observați pentru fiecare situație, aici majoritatea au valoare numerică ca ieșire prevăzută.

Tabelul de comparație al regresiei față de clasificare

Tabelul de mai jos rezumă comparațiile dintre regresie și clasificare :

Parametru	regresiune	Clasificare
Tipul funcției de mapare	În acești algoritmi, funcția de mapare va fi aleasă de tipul care poate alinia valorile la ieșirea continuă.	În acești algoritmi, funcția de mapare va fi aleasă de tipul care poate alinia valorile la clasele predefinite.
Implică predicția	Pentru acest tip de algoritmi, datele prezise aparțin categoriei valorilor continue. (Ca 23, 34, 45, 67, 28)	Pentru datele prezentate de acest tip de algoritm, aparține categoriei valorilor discrete. (Ca și Da sau Nu, aparține A sau B sau C).
Metoda de calcul	Se va calcula eroarea pătrată medie Root pentru a identifica cea mai bună potrivire a setului de date.	Precizia va fi calculată pentru a identifica cea mai bună potrivire a setului de date.
Natura datelor preconizate	Natura datelor previzionate este ordonată. (Adică valorile preconizate vor fi într-o secvență).	Natura datelor preconizate este neordonată. (Adică valorile prezise nu vor fi în nicio secvență).
algoritmi	Susține arborele de regresie și regresie vectorială sunt, de asemenea, cunoscute sub denumirea de Random Forest, care sunt câteva dintre cele mai populare exemple de algoritmi de regresie.	Naive Bayes, arbori de decizie și K vecinii apropiați sunt câteva dintre cele mai populare exemple de algoritmi de clasificare.

Concluzie

Acestea sunt câteva dintre diferențele cheie între clasificare și regresie. În unele cazuri, valorile de ieșire continuă preconizate în regresie pot fi grupate în etichete și schimbate în modele de clasificare. Deci, trebuie să înțelegem clar care să alegem în funcție de situație și ce dorim să fie rezultatul prevăzut.

Articole recomandate

Acesta este un ghid pentru diferența maximă dintre regresie și clasificare. Aici vom discuta, de asemenea, diferențele cheie de regresie și clasificare cu infografie și tabelul de comparație. De asemenea, puteți arunca o privire la următoarele articole pentru a afla mai multe -