Regresia liniară vs regresia logistică - Top 6 diferențe de învățat

Cuprins:

Anonim

Diferența dintre regresia liniară și regresia logistică

Următorul articol Linear Regression vs Logistic Regression oferă cele mai importante diferențe între ambele, dar înainte de a vedea ce înseamnă Regresiunea?

regresiune

Regresia este practic o măsură statistică pentru a determina puterea relației dintre o variabilă dependentă adică ieșirea Y și o serie de alte variabile independente, adică X 1, X 2 și așa mai departe. Analiza de regresie este folosită practic pentru predicție și prognoză.

Ce este regresia liniară?

Regresia liniară este un algoritm care se bazează pe domeniul învățării supravegheate a învățării automate. Moștenește o relație liniară între variabilele sale de intrare și variabila de ieșire unică în care variabila de ieșire este de natură continuă. Se folosește pentru a prezice valoarea ieșirii, să zicem Y de la intrări, să zicem X. Când este considerată o singură intrare este numită regresie liniară simplă.

Poate fi clasificat în două categorii principale:

1. Regresie simplă

Principalul operației: Scopul principal este de a afla ecuația unei linii drepte care se potrivește cel mai bine datelor eșantionate. Această ecuație descrie algebric relația dintre cele două variabile. Cea mai potrivită linie dreaptă se numește drept linie de regresie.

Y = β 0 + β 1 X

Unde,

β reprezintă caracteristicile

β 0 reprezintă interceptarea

β 1 reprezintă coeficientul caracteristicii X

2. Regresie multivariabilă

Este utilizat pentru a prezice o corelație între mai mult de o variabilă independentă și o variabilă dependentă. Regresia cu mai mult de două variabile independente se bazează pe adaptarea formei la constelația datelor pe un grafic multidimensional. Forma de regresie trebuie să fie astfel încât să minimizeze distanța formei de la fiecare punct de date.

Un model de relație liniară poate fi reprezentat matematic ca mai jos:

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ……. + β n X n

Unde,

β reprezintă caracteristicile

β 0 reprezintă interceptarea

β 1 reprezintă coeficientul caracteristicii X1

β n reprezintă coeficientul caracteristicii X n

Avantajele și dezavantajele regresiei liniare

Mai jos sunt prezentate avantajele și dezavantajele:

avantaje

  • Datorită simplității sale, este utilizat pe scară largă modelarea pentru predicții și inferențe.
  • Se concentrează pe analiza datelor și preprocesarea datelor. Deci, se ocupă de date diferite, fără să vă deranjeze detaliile modelului.

Dezavantaje

  • Funcționează eficient atunci când datele sunt distribuite în mod normal. Astfel, pentru modelarea eficientă, trebuie evitată colinearitatea.

Ce este regresia logistică?

Este o formă de regresie care permite predicția variabilelor discrete printr-un amestec de predictori continua și discretă. Rezultă o transformare unică a variabilelor dependente care afectează nu numai procesul de estimare, ci și coeficienții variabilelor independente. Acesta abordează aceeași întrebare pe care o face regresia multiplă, dar fără presupuneri de distribuție asupra predictorilor. În regresia logistică variabila rezultat este binară. Scopul analizei este de a evalua efectele mai multor variabile explicative, care pot fi numerice sau categorice sau ambele.

Tipuri de regresie logistică

Mai jos sunt cele 2 tipuri de regresie logistică:

1. Regresia logistică binară

Se folosește atunci când variabila dependentă este dicotomă adică ca un copac cu două ramuri. Se utilizează atunci când variabila dependentă este non-parametrică.

Folosit când

  • Dacă nu există liniaritate
  • Există doar două niveluri ale variabilei dependente.
  • Dacă normalitatea multivariat este îndoielnică.

2. Regresie logistică multinomială

Analiza regresiei logistice multinomiale necesită ca variabilele independente să fie metrice sau dicotomice. Nu face presupuneri de linearitate, normalitate și omogenitate de varianță pentru variabilele independente.

Se utilizează atunci când variabila dependentă are mai mult de două categorii. Este folosit pentru a analiza relațiile dintre o variabilă dependentă non-metrică și variabilele independente metrice sau dicotomice, apoi compară mai multe grupuri printr-o combinație de regresii logistice binare. În final, oferă un set de coeficienți pentru fiecare din cele două comparații. Coeficienții grupului de referință sunt considerați ca zero. În cele din urmă, predicția se face pe baza probabilității celei mai mari rezultate.

Avantajul regresiei logistice: Este o tehnică foarte eficientă și utilizată pe scară largă, deoarece nu necesită multe resurse de calcul și nu necesită nici o reglare.

Dezavantajul regresiei logistice: nu poate fi utilizat pentru rezolvarea problemelor neliniare.

Comparație față în față între regresie liniară și regresie logistică (infografie)

Mai jos se află primele 6 diferențe între Regresia Lineară și Regresia Logistică

Diferența cheie între regresia liniară și regresia logistică

Să discutăm unele dintre diferențele cheie majore între Regresia liniară și Regresia logistică

Regresie liniara

  • Este o abordare liniară
  • Utilizează o linie dreaptă
  • Nu poate lua variabile categorice
  • Trebuie să ignore observațiile cu valori lipsă ale variabilei independente numerice
  • Ieșirea Y este dată ca

  • 1 unitate de creștere în x crește Y cu α

Aplicații

  • Prezicerea prețului unui produs
  • Prezicerea scorului într-un meci

Regresie logistică

  • Este o abordare statistică
  • Utilizează o funcție sigmoidă
  • Poate lua variabile categorice
  • Poate lua decizii chiar dacă sunt prezente observații cu valori lipsă
  • Ieșirea Y este dată ca, unde z este dată ca

  • 1 unitate de creștere în x crește Y de cota log de α
  • Dacă P este probabilitatea unui eveniment, atunci (1-P) este probabilitatea ca acesta să nu se producă. Șanse de succes = P / 1-P

Aplicații

  • Prezicând dacă azi va ploua sau nu.
  • Prezicând dacă un e-mail este spam sau nu.

Regresie liniară comparativ cu regresia logistică

Să discutăm comparația de top dintre Regresia liniară și Regresia logistică

Regresie liniara

Regresie logistică

Este folosit pentru rezolvarea problemelor de regresieEste utilizat pentru rezolvarea problemelor de clasificare
Modelează relația dintre o variabilă dependentă și una sau mai multe variabile independenteAcesta prezice probabilitatea unui rezultat care poate avea doar două valori la ieșire, fie 0, fie 1
Ieșirea prevăzută este o variabilă continuăRezultatul prevăzut este o variabilă discretă
Ieșirea prevăzută Y poate depăși intervalul 0 și 1Ieșirea prevăzută Y se situează în intervalul 0 și 1
Ieșirea prevăzută Y poate depăși intervalul 0 și 1Ieșire prevăzută

Concluzie

Dacă caracteristicile nu contribuie la predicție sau dacă sunt foarte corelate între ele, atunci se adaugă zgomot modelului. Deci, funcțiile care nu contribuie suficient la model trebuie eliminate. Dacă variabilele independente sunt puternic corelate, poate provoca o problemă de multi-colinearitate, care poate fi rezolvată rulând modele separate cu fiecare variabilă independentă.

Articole recomandate

Acesta a fost un ghid pentru regresia liniară împotriva regresiei logistice. Aici vom discuta despre diferențele cheie de regresie liniară și regresie logistică cu infografie și tabelul de comparație. De asemenea, puteți arunca o privire asupra articolelor următoare pentru a afla mai multe -

  1. Data Science vs vizualizarea datelor
  2. Învățare de mașini și rețea neuronală
  3. Învățare supravegheată vs. învățare profundă
  4. Regresie logistică în R