Introducere în analiza regresiei
Analiza de regresie este un algoritm de modelare predictivă pentru a prezice rezultatul unei variabile și pentru a identifica variabilele (variabile independente) care contribuie sau depind de variabila de rezultat (variabilă țintă sau dependentă). În termeni simpli, este o tehnică de a găsi relația dintre variabilele independente și dependente pentru a produce rezultatul. Este simplu de utilizat și de interpretat rezultatul. Există multe tipuri de tehnici de regresie care sunt utilizate pe scară largă în diferite sectoare. Unele dintre exemplele de regresie sunt de a prezice salariul unui angajat sau veniturile unei companii într-un an.
Cum a funcționat Analiza de regresie?
Există multe tipuri de tehnici de regresie care sunt utilizate luând în considerare diferiți factori și rezultate.
- Regresie liniara
- Regresie logistică
- Regresie Lasso / Ridge
- Regresia polinomială
Unele dintre testele statistice importante de regresie utilizate în diferite sectoare sunt prezentate mai jos:
1. Regresia liniară
Aceasta este utilizată atunci când variabila rezultat depinde liniar de variabilele independente. Este folosit în mod normal atunci când nu avem un set de date imens. Este, de asemenea, sensibil la valori superioare, deci dacă setul de date conține valori superioare decât este mai bine să le tratezi înainte de aplicarea regresiei liniare. Există tehnici de regresie unice și multi-variabile. Regresia liniară simplă este analiza când variabila rezultat depinde liniar de o singură variabilă independentă. Regresia liniară simplă urmărește ecuația unei linii drepte care este dată mai jos:
Y=mx+c
Unde,
Y = Variabilă țintă, dependentă sau criteriu
x = variabilă independentă sau predictoare
m = Coeficient de pante sau de regresie
c = constantă
Regresia liniară multi-variabilă definește relația dintre variabila rezultat și mai mult de o variabilă independentă. Urmează ecuația de mai jos a unei linii drepte unde variabilele dependente sunt combinația liniară a tuturor variabilelor independente:
Y= m1x1+m2x2+m3x3+…mnan+c
Unde,
Y = Variabilă țintă, dependentă sau criteriu
x1, x2, x3 … xn = Variabile independente sau predictoare
m1, m2, m3 … mn = Coeficienții în pantă sau regresie ale variabilelor respective
c = constantă
Regresia liniară respectă principiul metodei Pătrat cel puțin. Această metodă afirmă că o linie de cea mai bună potrivire este aleasă prin reducerea sumei erorii pătrate. Linia cu cea mai bună potrivire este aleasă unde suma erorii pătrate dintre datele observate și linia este minimă.
Există câteva presupuneri de care trebuie să aveți grijă înainte de aplicarea regresiei liniare pe setul de date.
- Ar trebui să existe o relație liniară între variabilele independente și dependente.
- Nu ar trebui să existe niciun pic sau multicolinearitate între variabilele independente. Multicollinearitatea este definită ca un fenomen în care există o corelație ridicată între variabilele independente. Putem trata multicolinearitatea prin eliminarea unei variabile care este corelată sau tratează două variabile ca o singură variabilă.
- Homoscedasticitatea: este definit ca o stare în care termenii de eroare ar trebui să fie distribuiți aleatoriu de-a lungul liniei în analiza de regresie. Nu ar trebui să existe niciun tipar de-a lungul liniei dacă există un tipar identificat decât datele despre care se spune că sunt heteroscedastice.
- Toate variabilele ar trebui să fie distribuite în mod normal, lucru pe care îl vedem graficând un complot QQ. Dacă datele nu sunt distribuite în mod normal, putem folosi orice metode de transformare neliniară pentru a le trata.
Așadar, este întotdeauna recomandabil să testați ipotezele în timp ce aplicați regresie liniară pentru a obține o precizie bună și un rezultat corect.
2. Regresia logistică
Această tehnică de regresie este utilizată atunci când variabila țintă sau rezultat este de natură categorică sau binară. Principala diferență între regresia liniară și cea logistică se află în variabila țintă, în regresia liniară, ea ar trebui să fie continuă, în timp ce în logistică ar trebui să fie categorică. Variabila rezultat ar trebui să aibă doar două clase, nu mai mult decât atât. Unele dintre exemple sunt filtrele spam în e-mailuri (spam sau nu), detectarea fraudei (fraudă / nu fraudă), etc. Funcționează pe principiul probabilității. Poate fi clasificat în două categorii prin stabilirea valorii pragului.
De exemplu: Dacă există două categorii A, B și setăm valoarea pragului ca 0, 5 atunci probabilitatea peste 0, 5 va fi considerată ca o categorie și sub 0, 5 va fi o altă categorie. Regresia logistică urmează o curbă în formă de S. Înainte de a construi modelul de regresie logistică, trebuie să împărțim datele setate în instruire și testare. Deoarece variabila țintă este categorică sau binară, trebuie să ne asigurăm că există un echilibru de clasă adecvat în setul de antrenament. Dacă există un dezechilibru de clasă decât acesta poate fi tratat folosind diferite metode menționate mai jos:
- Up Sampling: În această tehnică, clasa care are mai puține rânduri este eșantionată pentru a se potrivi cu numărul de rânduri din clasa majoritară.
- Eșantionare în jos: în această tehnică, clasa care are mai multe rânduri este eșantionată în jos pentru a se potrivi cu numărul de rânduri ale clasei minoritare.
Există câteva puncte importante, care sunt importante de înțeles înainte de aplicarea modelului de regresie logistică la seturile de date:
- Variabila țintă ar trebui să aibă un caracter binar. Dacă în variabila țintă există mai mult de 2 clase decât este cunoscută sub numele de regresie logistică multinomială .
- Nu ar trebui să existe niciun pic sau multicolinearitate între variabilele independente.
- Necesită o dimensiune de eșantion imensă pentru a funcționa.
- Ar trebui să existe o relație liniară între variabilele independente și jurnalul de cote.
Beneficiile regresiei
Există multe avantaje ale analizei de regresie. În loc să luăm în considerare senzația noastră intestinală și să prezicem rezultatul, putem folosi analiza de regresie și să arătăm puncte valabile pentru posibilele rezultate.
Unele dintre acestea sunt enumerate mai jos:
- Pentru a prezice vânzările și veniturile din orice sector pe perioade mai scurte sau mai lungi.
- Pentru a prezice rata de schimbare a clienților din orice industrie și a afla măsurile adecvate de reducere a acestora.
- Pentru a înțelege și a prezice nivelurile de inventar ale depozitului.
- Pentru a afla dacă introducerea unui produs nou pe piață va avea succes sau nu.
- Pentru a prezice dacă un client va imprumuta sau nu împrumutul.
- Pentru a prezice dacă un client va cumpăra sau nu un produs.
- Detectarea fraudei sau spamului
Concluzie
Există diferite valori de evaluare care sunt luate în considerare după aplicarea modelului. Deși există presupuneri care trebuie testate înainte de aplicarea modelului, putem modifica întotdeauna variabilele folosind diverse metode matematice și crește performanța modelului.
Articole recomandate
Acesta este un ghid pentru analiza regresiei. Aici discutăm Introducerea analizei de regresie, cum a funcționat analiza de regresie și beneficiile regresiei. Puteți parcurge și alte articole sugerate pentru a afla mai multe -
- Analiza regresiei liniare
- Instrumente de analiză a datelor
- Instrumente de testare a regresiei
- Analiza Big Data
- Regresie vs Clasificare | Cele mai importante diferențe cheie