Analiza variației unidirecționale

Analiza varianței scrise la scurt timp ca ANOVA este procedura prin care putem compara mijloacele din trei sau mai multe populații. Statistic, încadrăm două ipoteze, ipoteza nulă: „Toate mijloacele populației sunt egale” și ipoteza alternativă: „Nu toate mijloacele populației sunt egale”. Ne permite să testăm egalitatea mai multor mijloace într-un singur test, în loc să comparăm două mijloace la un moment dat, care este imposibil atunci când există mai multe grupuri. În acest subiect, vom afla despre ANOVA One Way în R.

Analiza unică a variației ne ajută în analizarea unui singur factor sau a unei variabile. De exemplu, există cinci regiuni și vrem să verificăm dacă precipitațiile medii zilnice pentru toate cele cinci regiuni sunt egale sau dacă sunt diferite. În acest caz, există un singur factor care este regiunea, deoarece trebuie să verificăm dacă factorii regionali afectează recepția și tiparul de precipitații.

Ipoteze de analiză a variației

Următoarele sunt ipotezele care trebuie îndeplinite pentru aplicarea ANOVA unidirecțional:

  • Populațiile din care sunt prelevate probele sunt distribuite în mod normal.
  • Populațiile din care sunt prelevate probele au aceeași variație sau deviație standard.
  • Probele prelevate din diferite populații sunt aleatorii și independente.

Cum funcționează ANOVA One-Way în R?

Pentru demonstrația noastră, folosim datele care conțin două variabile, adică. Brand și Vânzări. Există patru mărci - ATB, JKV, MKL și PRQ. Vânzările lunare pentru aceste mărci sunt date. Trebuie să verificăm dacă vânzările medii între cele patru mărci sunt egale sau dacă sunt diferite unele de altele. Pentru a verifica acest lucru, vom folosi ANOVA One-way. Procedura pas cu pas pentru implementarea ANOVA este următoarea:

  1. Mai întâi, importați datele în R. Datele sunt prezente într-un format CSV. Deci, pentru a o importa, vom folosi funcția read.csv ().

  1. Vizualizați primele înregistrări ale datelor. Acest lucru este important pentru a verifica dacă datele au fost importate în mod corect în R. În mod similar, vom aplica o funcție sumară () asupra datelor, pentru a obține informații de bază asupra datelor.

  1. De fiecare dată când folosim variabilele prezente în setul de date, trebuie să menționăm explicit numele setului de date precum brand_sales_data $ Brand sau brand_sales_data $ Vânzări. Pentru a depăși acest lucru, vom folosi funcția de atașare. Funcția trebuie aplicată ca mai jos.

  1. Să agregăm Vânzările după marcă folosind media sau abaterea standard. Agregarea ne ajută să avem o idee de bază a datelor.

Rezultatul de mai sus arată că mijloacele pentru cele patru grupuri diferite nu sunt egale. JKV are cele mai mari vânzări medii.

După cum se poate observa mai sus, abaterile standard din cele patru grupuri nu prezintă nicio diferență semnificativă și este cea mai mare pentru marca MKL.

  1. Acum, vom aplica ANOVA pentru a valida dacă mijloacele din cele trei populații sunt egale sau există vreo diferență.

Din rezultatele de mai sus putem observa că testul ANOVA pentru Brand este semnificativ din cauza p <0, 0001. Putem interpreta că toate mărcile nu au aceleași niveluri de preferință pe piață, ceea ce influențează vânzarea acestor mărci pe piață. Acest lucru s-ar putea datora multor factori și plăcerii oamenilor pentru un anumit brand.

  1. Rezultatul de mai sus poate fi vizualizat și ușurează interpretarea. Pentru aceasta, vom folosi funcția plotmeans () în biblioteca gplots (). Funcționează după cum urmează:

După cum putem vedea mai sus, funcția plotmeans () din pachetul gplots ne permite să comparăm vizual mijloacele diferitelor grupuri. Putem vedea că mijloacele nu sunt aceleași între cele patru mărci. Cu toate acestea, mijloacele pentru mărcile MKL și PRQ se încadrează într-o gamă apropiată.

  1. Analiza de mai sus ne ajută să verificăm dacă mărcile au mijloace egale sau nu, totuși, ceea ce face ca comparația dintre pereche să fie dificilă. Putem face comparații în pereche pentru diferite mărci, folosind funcția TukeyHSD (), care facilitează verificarea dacă o marcă este semnificativ diferită de oricare dintre cele rămase.

Comparațiile în perechi de mai sus. Diferența dintre oricare două grupuri este semnificativă dacă p <0, 001. După cum putem vedea mai sus, valoarea p pentru perechea PRQ-MKL este mult mai mare ceea ce indică faptul că cele două mărci nu sunt semnificativ diferite între ele.

Pentru a vizualiza comparațiile în perechi, vom trasa rezultatele de mai sus ca mai jos:

Prima funcție par rotă etichetele axelor făcându-le orizontale, iar cea de-a doua instrucțiune par ajustează marjele astfel încât etichetele să se potrivească corect, în caz contrar, acestea vor ieși din ecran.

Graficul de mai sus oferă o perspectivă bună, dar putem trasa rezultatele sub formă de boxplot pentru a obține perspective mai bune pentru o interpretare mai clară, așa cum se arată mai jos.

Funcția glht () folosită mai sus vine cu un set cuprinzător de metode pentru compararea mai multor mijloace. Notă, opțiunea de nivel în funcția cld () se referă la nivelul de semnificație, de exemplu, 0, 05 sau 95% încredere)

Folosind graficul de mai sus, devine ușor de comparat mijloacele între grupuri și, de asemenea, facilitează interpretarea sistematică. Există scrisori, în partea de sus a parcelei, pentru fiecare marcă. Dacă două mărci au aceeași literă, atunci nu au mijloace semnificativ diferite ca mărcile MKL și PRQ în acest caz, care au aceeași literă b.

  1. Până acum, am implementat ANOVA și am folosit loturi pentru vizualizarea rezultatelor. Cu toate acestea, este la fel de important să testăm ipotezele. În primul rând, vom valida presupunerea de normalitate.

Pachetul auto din R oferă funcția qqPlot (). Graficul de mai sus arată că datele se încadrează în 95% încredere. Acest lucru indică faptul că asumarea normalității a fost aproape îndeplinită.

În continuare, vom valida dacă variațiile dintre mărci sunt egale. Pentru aceasta, vom folosi testul lui Bartlett

Valoarea p arată că variațiile între grup nu diferă semnificativ

Nu în ultimul rând, vom verifica dacă există alte valori care afectează rezultatele ANOVA.

Din rezultatul de mai sus, putem observa că nu există nicio indicație de valori superioare în date (NA apare atunci când p> 1)

Luând în considerare rezultatele QQ Plot, testul lui Bartlett și testul Outlier, putem spune că datele îndeplinesc toate ipotezele ANOVA și rezultatele obținute sunt valabile.

Concluzie - ANOVA One Way în R

ANOVA este o tehnică statistică foarte utilă care poate fi folosită pentru a compara mijloacele din mai multe populații. R oferă o gamă cuprinzătoare de pachete pentru implementarea ANOVA, obținerea de rezultate și validarea ipotezelor. În R, rezultatele statistice pot fi interpretate în forme vizuale care oferă perspective mai profunde.

Articole recomandate

Acesta este un ghid pentru ANOVA One Way în R. Aici vom discuta despre modul în care funcționează ANOVA cu un singur sens și Ipotezele de analiză a variației. De asemenea, puteți arunca o privire la următoarele articole pentru a afla mai multe -

  1. R Limbaj de programare
  2. Regresie vs ANOVA
  3. Cum se interpretează rezultatele folosind testul ANOVA
  4. GLM în R

Categorie: