Introducere în grafice în R
Un grafic este un instrument care face o diferență semnificativă față de analiză. Graficele în Rare sunt importante, deoarece ajută la prezentarea rezultatelor în modul cel mai interactiv. R, ca pachet de programare statistică, oferă opțiuni extinse pentru a genera o varietate de grafice.
Unele dintre graficele din R sunt disponibile în instalarea de bază, dar altele pot fi utilizate prin instalarea pachetelor necesare. Caracteristica unică a graficelor din R este faptul că explică descoperiri statistice complexe prin vizualizări. Deci, în esență, acesta este ca și cum ai trece un pas deasupra modului tradițional de vizualizare a datelor. R oferă, așadar, o abordare în afara cazului pentru analiza unității.
Tipuri de grafice în R
O varietate de grafice este disponibilă în R, iar utilizarea este guvernată exclusiv de context. Cu toate acestea, analiza exploratorie necesită utilizarea anumitor grafice în R, care trebuie utilizate pentru analiza datelor. Vom analiza acum câteva dintre aceste grafice importante în R.
Pentru demonstrarea diferitelor diagrame, vom folosi setul de date „arbori” disponibil în instalarea de bază. Mai multe detalii despre setul de date pot fi descoperite folosind? copacii comandă în R.
1. Histogramă
O histogramă este un instrument grafic care funcționează pe o singură variabilă. Numeroase valori variabile sunt grupate în coșuri și un număr de valori denumite ca frecvență. Acest calcul este apoi utilizat pentru a trasa bare de frecvență în boabele respective. Înălțimea unei bare este reprezentată de frecvență.
În R , putem folosi funcția hist () așa cum este arătat mai jos, pentru a genera histograma. Mai jos este prezentată o simplă histogramă a înălțimilor arborelui.
Cod:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
ieşire:
Pentru a înțelege tendința frecvenței, putem adăuga o diagramă de densitate peste histograma de mai sus. Acest lucru oferă mai multe informații despre distribuția datelor, netezimea, kurtoza, etc. Codul următor face acest lucru, iar ieșirea este afișată în urma codului.
Cod:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
ieşire:
2. Scatterplot
Acest complot este un tip simplu de diagramă, dar unul foarte crucial, având o semnificație extraordinară. Graficul oferă ideea despre o corelație între variabile și este un instrument util într-o analiză exploratorie.
Codul următor generează un grafic Scatterplot simplu. Am adăugat o linie de tendință la ea, pentru a înțelege tendința, datele reprezintă.
Cod:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
ieşire:
Diagrama creată de următorul cod arată că există o corelație bună între circumferința arborelui și volumul arborelui.
Cod:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
ieşire:
Matricile Scatterplot
R ne permite să comparăm mai multe variabile simultan datorită faptului că folosește matrice scatterplot. Implementarea vizualizării este destul de simplă și poate fi realizată folosind funcția perechi () așa cum se arată mai jos.
Cod:
pairs(trees, main = "Scatterplot matrix for trees dataset")
ieşire:
Scatterplot3d
Fac posibilă vizualizarea în trei dimensiuni care pot ajuta la înțelegerea relației dintre mai multe variabile. Deci, pentru a face scatterplot-urile disponibile în 3d, trebuie instalat în primul rând pachetul scatterplot3d. Deci, următorul cod generează un grafic 3d așa cum se arată mai jos.
Cod:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
ieşire:
Putem adăuga linii de declanșare și culori, folosind codul de mai jos. Acum, putem distinge în mod convenabil între diferite variabile.
Cod:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
ieşire:
3. Boxplot
Boxplot este o modalitate de vizualizare a datelor prin casete și whiskers. În primul rând, valorile variabile sunt sortate în ordine crescătoare și apoi datele sunt împărțite în sferturi.
Caseta din diagramă este mijlocul de 50% din date, cunoscut sub numele de IQR. Linia neagră din cutie reprezintă mediana.
Cod:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
ieşire:
O variantă a boxplot-ului, cu crestături, este cea prezentată mai jos.
Cod:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
ieşire:
4. Diagrama de linie
Graficele de linii sunt utile atunci când se compară mai multe variabile. Ele ne ajută să relaționeze între mai multe variabile dintr-o singură diagramă. În ilustrația următoare, vom încerca să înțelegem tendința a trei caracteristici de arbore. Deci, așa cum se arată în codul de mai jos, inițial, și graficul de linii pentru Girth este reprezentat cu ajutorul funcției plot () Apoi, diagramele de linii pentru înălțime și volum sunt reprezentate pe aceeași diagramă folosind funcția de linii ().
Parametrul „ylim” din funcția plot () a fost acela de a adapta în mod corespunzător toate cele trei diagrame. A avea legende este important aici, deoarece ajută să înțelegem ce linie reprezintă ce variabilă. În legendă parametrul „lty = 1: 1” înseamnă că avem același tip de linie pentru toate variabilele, iar „cex” reprezintă mărimea punctelor.
Cod:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
ieşire:
5. Parcela de puncte
Acest instrument de vizualizare este util dacă dorim să comparăm mai multe categorii cu o anumită măsură. Pentru ilustrația de mai jos, s-a utilizat setul de date mtcars. Funcția dotchart () grafică deplasarea pentru diferite modele de mașini, ca mai jos.
Cod:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
ieşire:
Așadar, acum vom sorta setul de date pe valorile deplasării, apoi le vom trasa după diferite viteze folosind funcția dotchart ().
Cod:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
ieşire:
Concluzie
Analytics într-un sens adevărat este valorificat doar prin vizualizări. R, ca instrument statistic, oferă capacități puternice de vizualizare. Deci, numeroasele opțiuni asociate graficelor este ceea ce le face speciale. Fiecare grafică are propria sa aplicație, iar graficul trebuie studiat înainte de aplicarea acestuia la o problemă.
Articole recomandate
Acesta este un ghid pentru Grafice în R. Aici discutăm introducerea și tipurile de grafice în R, cum ar fi histograma, scatterplot, boxplot și multe altele, împreună cu exemple și implementare. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -
- R Tipuri de date
- Pachete R
- Introducere în Matlab
- Grafice vs Grafice