Introducere în fișiere R CSV

Fișierele CSV sunt utilizate pe scară largă pentru stocarea informațiilor în format tabular, fiecare linie fiind înregistrare de date. Pentru a citi, scrie sau manipula date în R, trebuie să avem la dispoziție câteva date. Datele pot fi găsite pe internet sau pot fi culese din diverse surse, precum sondaje. Folosind R, puteți citi, scrie și edita datele care sunt stocate într-un mediu extern. R poate citi și scrie date din diferite formate precum XML, CSV și excel. În acest articol, vom vedea cum R poate fi utilizat pentru a citi, scrie și efectua diferite operații pe fișiere CSV.

Crearea fișierului CSV în R

În această secțiune, vom vedea cum un cadru de date poate fi creat și exportat la fișierul CSV din R. În primul rând, vom crea un cadru de date care constă din variabile salariale și salariul respectiv.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

După crearea cadrului de date, este momentul să folosim funcția de exportare a lui R pentru a crea fișierul CSV în R. Pentru a exporta cadrul de date în CSV, putem folosi codul de mai jos.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

În linia de cod de mai sus, am furnizat un director de cale pentru faima noastră de date și am stocat cadrul de date în format CSV. În cazul de mai sus, fișierul CSV a fost salvat pe desktopul meu personal. Acest fișier special va fi utilizat în tutorialul nostru pentru efectuarea mai multor operații.

Citirea fișierelor CSV în R

În timp ce efectuăm analize folosind R, în multe cazuri, trebuie să citim datele din fișierul CSV. R este foarte fiabil în timp ce citiți fișiere CSV. În exemplul de mai sus, am creat fișierul, pe care îl vom folosi pentru a citi folosind comanda read.csv. Mai jos este exemplul pentru a face acest lucru în R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Comanda de mai sus citește fișierul Employee.csv, care este disponibil pe desktop și îl afișează în R studio. Comanda antet presupune că antetul este pus la dispoziție pentru setul de date și comanda sep presupune că datele sunt separate prin virgule.

Scrieți fișiere CSV în R

Scrierea în fișier CSV este una dintre cele mai utile funcționalități disponibile în R pentru un analist de date. Acest lucru poate fi utilizat pentru a scrie un fișier CSV editat într-un nou fișier CSV pentru a analiza datele. Comanda Write.csv este utilizată pentru a scrie fișierul în CSV.

În codul de mai jos df din cadrul de date în care sunt disponibile datele noastre, anexa este utilizată pentru a specifica că noul fișier este creat în loc de a adăuga sau de a suprascrie în fișierul vechi. Append false sugerează crearea unui nou fișier CSV. Sep reprezintă câmpul separat printr-o virgulă.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

Operații CSV

Operațiunile CSV trebuie să inspecteze datele odată ce au fost încărcate în sistem. R are mai multe funcționalități încorporate pentru a verifica și inspecta datele. Aceste operațiuni oferă informații complete cu privire la setul de date.

Una dintre comenzile cele mai utilizate este un rezumat.

> summary(df)

Comanda sumară ne oferă statistici care conțin coloane. Variabila numerică este descrisă într-un mod statistic care include rezultate statistice, cum ar fi media, minul, mediana și max. În exemplul de mai sus, două variabile care sunt angajat și salariu sunt segregate și ni se arată statistici pentru variabila numerică care este salariul.

Comanda View () este utilizată pentru a deschide setul de date într-o altă filă și a verifica manual.

> View(df)

Funcția Str va oferi utilizatorilor mai multe detalii cu privire la coloana setului de date. În exemplul de mai jos putem vedea că variabila Angajat are Factor ca tip de date și variabila Salariu are int (întreg) ca tip de date.

> str(df)

În multe cazuri, va trebui să vedem numărul total de rânduri disponibile în cazul setului de date mare, pentru care putem folosi comanda nrow (). Vă rugăm să consultați exemplul de mai jos.

> # to show the total number of rows in the dataset
> nrow(df)

În mod similar pentru a afișa numărul total de coloane, putem folosi comanda ncol ()

> ncol(df)

R ne permite să afișăm numărul dorit de rânduri cu ajutorul comenzii de mai jos. Când numărul lor de rânduri este disponibil în setul de date, putem specifica intervalul de rânduri care vor fi afișate.

> # to display first 2 rows of the data
> df(1:2, )

Operația datelor se realizează pe setul mare de date. Pentru ilustrare, am descărcat de pe internet setul de date open source de cod poștal NI.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

În setul de date de mai sus, putem vedea că numele antetului lipsesc și există multe valori nule. Setul de date trebuie curățat pentru a fi pregătit pentru analiză. În pasul următor, anteturile vor fi denumite în consecință.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Acum, să numărăm numărul de valori care lipsesc în cadrul de date și apoi să le eliminăm în consecință.

> # count of all missing values
> table(is.na (NiPostCode))

Din comanda de mai sus, putem vedea numărul total de semifabricate sau NA în cadrul de date este aproape de 5445148. Eliminarea tuturor valorilor nule va duce la pierderea cantității imense de date, de aceea este înțelept să eliminați coloanele din care mai mult de jumătate 50% din date lipsesc.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Concluzie

În acest tutorial, am văzut cum pot fi create, citite și anexate fișiere CSV folosind operațiuni în R. Am învățat cum să creăm un nou set de date în R și apoi să le importăm în format CSV. Am văzut mai multe operații multiple, cum ar fi redenumirea antetului și numărarea numărului de rânduri și coloane.

Articole recomandate

Acesta este un ghid pentru R CSV Files. Aici discutăm despre crearea, citirea și scrierea fișierului CSV în R cu Operațiile CSV. De asemenea, puteți consulta articolul următor pentru a afla mai multe -

  1. JSON vs CSV
  2. Procesul de extragere a datelor
  3. Cariere în Data Analytics
  4. Excel vs CSV

Categorie: