Ce este Data Analytics?
Data Analytics este un proces de descoperire a informațiilor cheie și concluzii valoroase dintr-o cantitate masivă de date culese sau colectate din diverse surse pentru a sprijini luarea deciziilor. Putere de calcul crescută, viteză mare de procesare. Apariția interfețelor interactive ale utilizatorului final și eficiența dovedită a paradigmei de calcul distribuite pentru a gestiona bucăți mari de date a făcut ca analiza datelor să avanseze în toate domeniile, în mod important în comerțul cu amănuntul, bancar, asistență medicală, logistică, apărare, administrație publică etc.
Tipuri de analize de date
Procesul de analiză a datelor este clasificat subiectiv în trei tipuri pe baza scopului analizei datelor
- Analize descriptive
- Analize predictive
- Analize prescriptive
Caracteristicile tipurilor de Analytics menționate mai sus sunt descrise mai jos:
1. Analize descriptive
Analiza descriptivă se concentrează pe rezumarea datelor din trecut pentru a rezulta inferențe. Măsurile cele mai utilizate pentru caracterizarea distribuției istorice a datelor includ cantitativ
- Măsuri de tendință centrală - medie, medie, quartile, mod.
- Măsuri de variabilitate sau răspândire - Interval, Interval inter-quartile, Percentiles.
În ultimele timpuri, dificultățile și limitările pe care le implică colectarea, stocarea și înțelegerea mormanelor masive de date sunt depășite prin procesul de inferență statistică. Inferențele generalizate despre statisticile populației de date sunt deduse prin utilizarea metodelor de eșantionare împreună cu aplicarea teoriei limitării centrale.
O primă emisiune de știri adună detalii despre voturi ale alegătorilor aleși la întâmplare la ieșirea unei secții de votare în ziua alegerilor pentru a obține inferențe statistice despre preferințele întregii populații.
Eșantionarea repetată a setului de date a populației are ca rezultat bucăți de eșantioane cu dimensiuni de eșantion suficient de mari. Eșantionarea în grup este de obicei preferată pentru a genera reprezentanți bine stratificați și imparțiali ai setului de date privind populația. Măsura statistică a interesului este calculată pe bucățile de date eșantionate pentru a obține o distribuție a valorilor statistice ale eșantionului numită distribuție de eșantionare. Caracteristicile distribuției de eșantionare sunt legate de cea a setului de date a populației, folosind teoria limitării centrale.
2. Analiza predictivă
Analiza predictivă exploatează tiparele din datele istorice sau anterioare pentru a estima rezultatele viitoare, a identifica tendințele, a descoperi riscuri și oportunități potențiale sau a prognoza comportamentul procesului. Deoarece cazurile de utilizare previzională sunt de natură plauzibilă, aceste abordări utilizează modele probabilistice pentru a măsura probabilitatea tuturor rezultatelor posibile.
ChatBot-ul din Portalul Serviciilor Clienți al unei firme financiare învață proactiv intenția sau nevoia clienților să se bazeze pe activitățile sale anterioare din domeniul său web. Cu contextul prevăzut, chatBot conversează în mod interactiv cu clientul pentru a furniza rapid servicii adecvate și pentru a obține o mai bună satisfacție a clienților.
În plus față de scenariile de extrapolare pentru a prezice ce se va întâmpla în viitor pe baza datelor anterioare disponibile, există puține aplicații care ghicesc intrările de date pierdute cu ajutorul probelor de date disponibile. Această aproximare a valorilor ratate în intervalul eșantioanelor date date este denumită tehnic Interpolarea.
O aplicație puternică de editor de imagini acceptă reconstrucția părților pierdute de textură datorită textului super-impus prin interpolarea funcției de funcții la blocul ratat. Funcția caracteristică poate fi interpretată ca o notare matematică a tiparelor în textura unei imagini distorsionate.
Factorii semnificativi care influențează alegerea modelelor / strategiilor predictive sunt:
- Precizia predicției: Aceasta transmite gradul de apropiere între o valoare prevăzută și o valoare reală. O variație mai mică a diferenței dintre valoarea prevăzută și valoarea reală implică o precizie mai mare a modelului predictiv.
- Viteza previziunilor: se acordă prioritate ridicată în aplicațiile de urmărire în timp real
- Rata de învățare a modelului: depinde de complexitatea și calculele modelului implicate în calcularea parametrilor modelului.
3. Analiza prescriptivă
Analiza prescriptivă folosește cunoștințele descoperite ca parte a analizei descriptive și predictive pentru a recomanda un curs de acțiune conștient de context. Sunt implementate tehnici statistice avansate și metode de optimizare intensivă prin calcul pentru a înțelege distribuția estimărilor estimate.
În termeni precise, impactul și beneficiul fiecărui rezultat, care sunt estimate în timpul analizelor predictive, este evaluat pentru a lua decizii euristice și sensibile la timp pentru un anumit set de condiții.
O firmă de consultanță pe bursă efectuează o analiză SWOT (Forță, Slabă, Oportunități și Amenințare) cu privire la prețurile preconizate pentru acțiunile din portofoliul investitorilor și recomandă cele mai bune opțiuni Cumpărare-Vânzare clienților săi.
Flux de proces în analiza datelor
Procesul de analiză a datelor are diferite etape de prelucrare a datelor, așa cum este explicat mai jos:
1. Extragerea datelor
Ingerarea de date din mai multe surse de date de diferite tipuri, inclusiv pagini web, baze de date, aplicații vechi, rezultă în seturi de date de intrare de diferite formate. Formatele de date introduse fluxului de analiză a datelor pot fi clasificate în general
- Datele structurate au o definiție clară a tipurilor de date împreună cu lungimea de câmp asociată sau delimitatoarele de câmp. Acest tip de date poate fi interogat cu ușurință precum conținutul stocat în baza de date relațională (RDBMS)
- Datele semi-structurate nu au o definiție precisă a machetei, dar elementele de date pot fi identificate, separate și grupate pe baza unei scheme standard sau a altor reguli de metadate. Un fișier XML folosește etichetarea pentru a reține date, în timp ce fișierul de notare a obiectului Javascript (JSON) conține date în perechi nume-valoare. Bazele de date NoSQL (nu numai SQL) precum MongoDB, dar baza de canapea sunt de asemenea folosite pentru a stoca date semi-structurate.
- Datele nestructurate includ conversații pe social media, imagini, clipuri audio etc. Metodele tradiționale de analiză a datelor nu reușesc să înțeleagă aceste date. Datele nestructurate sunt stocate în lacurile de date.
Implementarea analizării datelor pentru date structurate și semi-structurate este încorporată în diverse instrumente ETL precum Ab Initio, Informatica, Datastage și alternative open source precum Talend.
2. Curățarea și transformarea datelor
Curățarea datelor analizate se face pentru a asigura coerența și disponibilitatea datelor relevante pentru etapele ulterioare ale unui flux de proces. Operațiunile majore de curățare în analiza datelor sunt:
- Detectarea și eliminarea valorilor exterioare din volumul de date
- Eliminarea duplicatelor din setul de date
- Manevrarea intrărilor lipsă din înregistrările de date, cu înțelegerea funcționalității sau a cazurilor de utilizare
- Validările pentru valorile de câmp admise în înregistrările de date precum „31 februarie” nu pot fi o valoare valabilă în niciun câmp de date.
Datele curățate sunt transformate într-un format adecvat pentru a analiza datele. Transformările de date includ
- Un filtru de înregistrări de date nedorite.
- Alăturarea datelor preluate din diferite surse.
- Agregarea sau gruparea datelor
- Tipografie de date
3. KPI / Derivare Insight
Minerirea datelor, metodele de învățare profundă sunt utilizate pentru a evalua indicatorii cheie de performanță (KPI) sau pentru a obține informații valoroase din datele curățate și transformate. Pe baza obiectivului de analiză, analiza datelor se realizează utilizând diverse tehnici de recunoaștere a modelelor, cum ar fi clustering-ul k-means, clasificarea SVM, clasificatoare bayesiene etc. și modele de învățare automată precum modele Markov, modele de amestec Gaussian (GMM) etc.
Modelele probabiliste în faza de instruire învață parametrii optimi ai modelului, iar în faza de validare, modelul este testat folosind testarea de validare încrucișată k-fold pentru a evita erorile de supra-montare și de montare.
Cele mai utilizate limbaje de programare pentru analiza datelor sunt R și Python. Ambele au un set bogat de biblioteci (SciPy, NumPy, Pandas) care sunt deschise pentru a realiza o analiză complexă a datelor.
4. vizualizarea datelor
Vizualizarea datelor este procesul de prezentare clară și eficientă a tiparelor descoperite, concluzii derivate din date folosind grafice, comploturi, tablouri de bord și grafică.
- Instrumentele de raportare a datelor, cum ar fi QlikView, Tableau etc., afișează KPI și alte valori derivate la diferite niveluri de granularitate.
- Instrumentele de raportare permit utilizatorilor finali să creeze rapoarte personalizate cu opțiuni pivot, drill-down folosind interfețe drag and drop-friendly
- Bibliotecile interactive de vizualizare a datelor precum D3.js (documente bazate pe date), HTML5-Anycharts etc. sunt utilizate pentru a crește capacitatea de a explora datele analizate
Articole recomandate
Acesta a fost un ghid pentru Ce este Data Analytics. Aici am discutat despre diferitele tipuri de analize de date cu fluxul procesului. Puteți parcurge și alte articole sugerate pentru a afla mai multe -
- Date Analyst Întrebări și răspunsuri
- Ce este vizualizarea datelor?
- Ce este analiza Big Data?
- Ce este Minitab?