Introducere în regresia liniară simplă

Din dicționar : o revenire la o stare anterioară sau mai puțin dezvoltată.

În statistici: o măsură a relației dintre valoarea medie a unei variabile și valorile corespunzătoare ale celorlalte variabile.

Regresia, în care relația dintre variabila de intrare (variabilă independentă) și variabila țintă (variabilă dependentă) este considerată liniară se numește regresie liniară. Regresia liniară simplă este un tip de regresie liniară în care avem o singură variabilă independentă pentru a prezice variabila dependentă. Regresia liniară simplă este unul dintre algoritmii de învățare automată. Regresia liniară simplă aparține familiei Învățării supravegheate. Regresia este utilizată pentru a prezice valori continue.

Model de regresie liniară simplă

Să-l facem simplu. Cum a început totul?

Totul a început în 1800 cu Francis Galton. El a studiat relația în înălțime între tați și fiii lor. El a observat un model: Înălțimea fiecărui fiu ar fi la fel de mare decât înălțimea tatălui său sau înălțimea fiului va tinde să fie mai aproape de înălțimea medie a tuturor oamenilor. Acest fenomen nu este altceva decât regresie.

De exemplu, Shaq O'Neal este un jucător NBA foarte faimos și are 2, 16 metri înălțime. Fiii săi Shaqir și Shareef O'neal au 1, 96 metri și respectiv 2, 06 metri înălțime. Înălțimea medie a populației este de 1, 76 metri. Înălțimea fiului regresează (înclină spre) înălțimea medie.

Cum facem regresia?

Calcularea unei regresii cu doar două puncte de date:

Tot ce vrem să facem pentru a găsi cea mai bună regresie este să tragem o linie cât mai aproape de fiecare punct posibil. În cazul a două puncte de date este ușor să desenați o linie, trebuie doar să le alăturați.

Acum, dacă avem o serie de puncte de date, acum cum să tragem linia cât mai aproape de fiecare punct de date.

În acest caz, obiectivul nostru este să minimalizăm distanța verticală dintre linie și toate punctele de date. În acest fel, prezicem cea mai bună linie pentru modelul nostru de regresie liniară.

Ce face regresia liniară simplă este?

Mai jos este explicația detaliată a regresiei liniare simple:

  • Acesta desenează o mulțime de linii de linii posibile și apoi face orice din această analiză.
  • Suma erorilor pătrate.
  • Suma erorilor absolute.
  • metoda cea mai puțin pătrată … etc
  • Pentru analiza noastră, vom folosi metoda cea mai puțin pătrată.
  • Vom face diferența dintre toate punctele și vom calcula pătratul sumei tuturor punctelor. Oricare linie oferă suma minimă va fi cea mai bună linie a noastră.

De exemplu: Făcând acest lucru, am putea lua mai mulți bărbați și înălțimea fiului lor și am putea face lucruri precum să-i spunem unui bărbat cât de înalt ar fi fiul său. înainte de a se naște chiar.


imagine Google

Figura de mai sus arată o regresie liniară simplă. Linia reprezintă linia de regresie. Date de: y = a + b * x

Unde y este variabila dependentă (DV): De exemplu, modul în care salariul unei persoane se modifică în funcție de numărul de ani de experiență pe care îl are angajatul. Deci, aici salariul unui angajat sau persoană va fi variabila dvs. dependentă.

Variabila dependentă este variabila noastră țintă, cea pe care dorim să o prezicem folosind regresia liniară.

x este variabila noastră independentă (IV): variabila dependentă este cauza variabilei independente de schimbare. În exemplul de mai sus, numărul de ani de experiență este variabila noastră dependentă, deoarece numărul de ani de experiență determină modificarea salariului angajatului.

  • b este variabila coeficientului pentru variabila noastră independentă x. Acest coeficient joacă un rol crucial. Se spune că o schimbare a unității în x (IV) va afecta y (DV). Este de asemenea denumit coeficientul proporțional. În ceea ce privește matematica, depinde de dvs. este panta liniei sau puteți spune abrupte ale liniei.
  • În exemplul nostru, dacă panta (b) este mai mică, ceea ce înseamnă că numărul de ani va produce o creștere mai mică a salariului, pe de altă parte, dacă panta (b) este mai mare va produce o creștere mare a salariului cu o creștere a numărului de Ani de experienta.
  • a este o valoare constantă. De asemenea, se face referire la intercepție, adică linia care intersectează axa y sau axa DV. În alt mod, putem spune când un angajat are zero ani de experiență (x) atunci salariul (y) pentru acel angajat va fi constant (a).

Cum funcționează Least Square?

Mai jos sunt punctele pentru lucrul cel puțin pătrat:

  • Acesta trasează o linie arbitrară în funcție de tendințele datelor.
  • Preia puncte de date și trasează linii verticale. Consideră distanța verticală ca parametru.
  • Aceste linii verticale vor tăia linia de regresie și oferă punctul corespunzător punctelor de date.
  • Apoi va găsi diferența verticală între fiecare punct de date și punctul de date corespunzător pe linia de regresie.
  • Se va calcula eroarea care este pătrată a diferenței.
  • Se calculează apoi suma erorilor.
  • Apoi din nou va trasa o linie și va repeta procedura de mai sus încă o dată.
  • Acesta trasează un număr de linii în acest mod, iar linia care dă cea mai mică sumă de eroare este aleasă ca cea mai bună linie.
  • Această linie cea mai bună este linia noastră de regresie liniară simplă.

Aplicarea regresiei liniare simple

Analiza de regresie este realizată pentru a prezice variabila continuă. Analiza de regresie are o mare varietate de aplicații. Câteva exemple sunt următoarele:

  • Analize predictive
  • Eficacitatea marketingului,
  • stabilirea prețurilor la orice listare
  • predicție de promovare pentru un produs.

Aici vom discuta despre o aplicație de regresie liniară pentru analitica predictivă. Vom face modelarea folosind python.

Pașii pe care îi vom urma pentru a ne construi modelul sunt următorii:

  • Vom importa bibliotecile și seturile de date.
  • Vom prelucra în prealabil datele.
  • Vom împărți datele în setul de test și setul de pregătire.
  • Vom crea un model care va încerca să prezică variabila țintă pe baza setului nostru de instruire
  • Vom prezice variabila țintă pentru setul de teste.
  • Vom analiza rezultatele prezise de model

Pentru analiza noastră, vom folosi un set de date salariale cu datele a 30 de angajați.

# Importarea bibliotecilor

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importul setului de date (Exemplu de date este prezentat în tabel)

dataset = pd.read_csv('Salary_Data.csv')

Ani de experienta Salariu
1.5 37731
1.1 39343
2.2 39891
2 43525
1.3 46205
3.2 54445
4 55749

# Pre-procesarea setului de date, aici vom împărți datele setate în variabila dependentă și variabilă independentă. x la fel de independent și y ca variabilă dependentă sau țintă

X = dataset.iloc(:, :-1).values
y = dataset.iloc(:, 1).values

# Împărțirea setului de date în setul de instruire și setul de testare:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

Aici dimensiunea testului 1/3 arată că din datele totale 2/3 partea este destinată instruirii modelului și restul 1/3 este utilizat pentru testarea modelului.

# Să ne adaptăm modelul nostru de regresie liniară simplă la setul de antrenament

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

Modelul de regresie liniară este pregătit acum. Acest model va fi utilizat pentru a prezice variabila dependentă.

# Prezicerea rezultatelor setului de test

y_pred = regressor.predict(X_test)

# Vizualizarea rezultatelor setului de test

plt.scatter(X_test, y_test, color = 'blue')
plt.plot(X_train, regressor.predict(X_train), color = 'red')
plt.title('Salary of Employee vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Parametrul modelului

print(regressor.intercept_)
print(regressor.coef_)
26816.19224403119
(9345.94244312)

Deci, valoarea interceptorului (a) este 26816. Ceea ce sugerează că orice valoare mai nouă (experiență zero) ar obține în jur de 26816 suma ca salariu.

Coeficientul pentru modelul nostru a apărut la 9345.94. Se sugerează că păstrarea constantă a tuturor celorlalți parametri, modificarea unei unități a variabilei independente (ani de expunere) va produce o modificare de 9345 de unități salariale.

Măsuri de evaluare a regresiei

Există practic 3 metode de evaluare importante pentru analiza regresiei:

  • Media Absolute Error (MAE): Afișează media erorilor absolute, care este diferența dintre prezis și real.
  • Eroare medie pătrată (MSE): arată valoarea medie a erorilor pătrate.
  • Root Errorated Square Square (RMSE): arată rădăcina pătrată a mediei erorilor pătrate.

Putem compara aceste metode de mai sus:

  • MAE: arată eroarea medie și cea mai ușoară dintre cele trei metode.
  • MSE: Aceasta este mai populară decât MAE, deoarece îmbunătățește erorile mai mari, ceea ce rezultă în mai multe perspective.
  • RMSE: Acesta este mai bun decât MSE, deoarece putem interpreta eroarea în termeni de y.

Aceste 3 nu sunt altceva decât funcțiile de pierdere.

# Evaluarea modelului

from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
MAE: 3426.4269374307123
MSE: 21026037.329511296
RMSE: 4585.4157204675885

Concluzie

Analiza regresiei liniare este un instrument puternic pentru algoritmi de învățare automată, care este utilizat pentru a prezice variabile continue, cum ar fi salariul, vânzările, performanța etc. Regresia liniară consideră relația liniară dintre variabilele independente și dependente. Regresia liniară simplă are o singură variabilă independentă pe baza căreia modelul prezice variabila țintă. Am discutat modelul și aplicarea regresiei liniare cu un exemplu de analiză predictivă pentru a prezice salariul angajaților.

Articole recomandate

Acesta este un ghid pentru regresia liniară simplă. Aici discutăm modelul și aplicarea regresiei liniare, folosind un exemplu de analiză predictivă pentru a prezice salariile angajaților. Puteți, de asemenea, să parcurgeți alte articole conexe pentru a afla mai multe-

  1. Analiza regresiei liniare
  2. Regresia liniară în R
  3. Modelare cu regresie liniară
  4. Instrumente de testare a regresiei
  5. Matplotlib În Python | Top 14 loturi în Matplotlib
  6. Dicționar în Python | Metode și exemple
  7. Exemple de rădăcină pătrată în PHP
  8. Regresia liniară vs regresia logistică | Diferențe de top

Categorie: