Diferențele dintre Text Mining și Text Analytics

Datele structurate au existat încă de la începutul anilor 1900, dar ceea ce a făcut ca minerirea textului și analitica textului să fie atât de speciale este aceea că utilizarea informațiilor din datele nestructurate (Natural Language Processing). După ce vom putea transforma acest text nestructurat în date semi-structurate sau structurate, va fi disponibil să aplicăm toți algoritmii de extragere a datelor ex. Algoritmi statistici și de învățare automată.

Chiar și Donald Trump a reușit să utilizeze datele și să le transforme în informații care l-au ajutat să câștige alegerile prezidențiale din SUA, dar, practic, nu a făcut-o subordonatele sale. Există un articol foarte bun acolo http://fivethirtyeight.com/features/the-real-story-of-2016/ puteți trece prin el.

Multe companii au început să folosească text mining pentru a utiliza inputuri valoroase din textul disponibil acolo, de exemplu, o companie bazată pe produse poate utiliza datele de pe twitter / datele Facebook pentru a ști cât de bine sau rău face produsul lor în lume folosind Sentimental Analiză. În primele zile, procesarea a durat foarte mult timp, zile, de fapt, pentru a prelucra sau chiar a implementa algoritmii de învățare a mașinilor, dar cu introducerea de instrumente precum Hadoop, Azure, KNIME și alte programe software de prelucrare a datelor mari Text mining a câștigat o popularitate enormă pe piață. Unul dintre cele mai bune exemple de analiză text folosind minerit de asociere este motorul de Recomandare al Amazon, unde oferă în mod automat clienților săi recomandări despre ce altceva au cumpărat alte persoane atunci când au cumpărat un anumit produs.

Una dintre cele mai mari provocări ale aplicării instrumentelor de extragere a textului la ceva care nu este într-un format digital / pe unitatea de computer este procesul de realizare a acestuia. Arhivele vechi și multe documente importante care sunt disponibile doar pe hârtii sunt uneori citite prin OCR (Recunoaștere optică a caracterelor) care au multe erori și, uneori, datele sunt introduse manual, care este predispus la greșeli umane. Motivul pentru care ne dorim acestea este că putem fi capabili să obținem alte perspective care nu sunt vizibile din lectura tradițională.

Unele dintre etapele de extragere a textului sunt cele de mai jos

  • Recuperarea informațiilor
  • Pregătirea și curățarea datelor
  • Segmentarea
  • tokenizarea
  • Numere cu cuvinte oprite și eliminarea punctuației
  • Pentru a putea reduce
  • Convertiți în minuscule
  • Etichetare POS
  • Creați corpus text
  • Matricea Termen-Document

Și mai jos sunt pașii din Text Analytics care sunt aplicați după pregătirea documentului Termen Matrix

  • Modelare (Aceasta poate include modele inferențiale, modele predictive sau modele prescriptive)
  • Instruirea și evaluarea modelelor
  • Aplicarea acestor modele
  • Vizualizarea modelelor

Singurul lucru pe care trebuie să-l amintim mereu este că minarea textului precede întotdeauna analitica textului.

Comparația dintre cap și cap între analiza textului și analiza textului (infografie)

Mai jos este 5 Comparație între Prediction Text Mining și Text Analytics

Diferențele cheie între Text Mining și Text Analytics

Să diferențiem analiza textului și analiza textului pe baza etapelor care sunt implicate în puține aplicații în care se aplică aceste analize de text și analiza textului:

• Clasificarea documentelor
În acest fel, pașii care sunt incluși în extragerea textului sunt tokenizarea, stemmingul și lematizarea, eliminarea cuvintelor oprite și punctuația și în final calcularea termenului matrice de frecvență sau matrice de frecvență a documentului.

Tokenization - Procesul de împărțire a datelor întregi (corpus) în bucăți mai mici sau cuvinte mai mici, de obicei, cuvinte individuale este cunoscut sub numele de tokenizare (model N-Gram sau Model de sac de cuvinte)

Stemming and Lemmatization - De exemplu, cuvintele, mare mai mare și cel mai mare înseamnă toate la fel și vor forma date duplicate, pentru a menține datele redundante, facem lematizare, legând cuvintele cu cuvântul rădăcină.
Înlăturarea cuvintelor de oprire - Cuvintele stop nu sunt de folos în analitice, care vor include cuvinte precum is, the și etc.

Frecvențe de termen - Aceasta este o matrice care are anteturi de rând ca nume de document și coloane ca termeni (cuvinte), iar datele sunt frecvența cuvintelor care apar în acele documente particulare. Mai jos este o captură de ecran de exemplu.

În figura de mai sus, avem atributele din rânduri (cuvinte) și numărul documentului ca coloane și frecvența cuvântului ca date.

Ajungând acum la analiza textului, avem următorii pași care trebuie luați în considerare

Clustering - Folosind K-means clustering / Neural Networks / CART (arbori de clasificare și regresie) sau orice alt algoritm de clustering, putem acum grupa documentele pe baza caracteristicilor generate (caracteristicile aici fiind cuvintele).

Evaluare și vizualizare - Comprimăm clusterul în două dimensiuni și privim modul în care aceste clustere variază unele de altele, iar dacă modelul ține bine la datele de testare îl putem implementa în producție și va fi un clasificator de documente bun care va clasifica orice nou documente care sunt date ca input și ar numi doar clusterul în care se va încadra.

•Analiza sentimentelor

Unul dintre cele mai puternice instrumente de pe piață care ajută la prelucrarea datelor de pe twitter / date Facebook sau orice alte date care pot fi utilizate pentru a extrage sentimentul, indiferent dacă sentimentul este bun, rău sau neutru pentru un anumit proces / produs. sau persoana este analiza sentimentului.
Sursa datelor poate fi ușor disponibilă folosind API-ul twitter / API-ul Facebook pentru a obține tweet-urile / comentariile / like-urile etc. de pe tweet sau o postare a unei companii. Problema majoră este că aceste date sunt greu de structurat. Datele ar conține și diverse reclame, iar oamenii de știință care lucrează pentru companie trebuie să se asigure că selecția datelor se face în mod corect, astfel încât doar tweeturile / postările selectate să treacă pentru etapele de pre-procesare.
Alte instrumente includ Web-Scraping, aceasta este o parte a extragerii textului în care scartați datele de pe site-uri web folosind crawler-uri.
Procesul de extragere a textului rămâne același ca și tokenizarea, stemmarea și lematizarea, eliminarea cuvintelor de stop și punctuația, iar la final calcularea, termenul matrice de frecvență sau matrice de frecvență a documentului, dar singura diferență vine în timp ce se aplică analiza sentimentului.
De obicei, acordăm un scor oricărui post / tweet. De obicei, atunci când cumpărați un produs și faceți o recenzie dacă vi se oferă și opțiunea de a da vedete revizuirii și de a posta un comentariu. Google, Amazon și alte site-uri web folosesc stelele pentru a evalua comentariul, nu numai că acestea iau și tweet-urile / postările și le dau ființelor umane pentru a-l evalua ca fiind bun / rău / neutru și pe pieptănarea acestor două scoruri generează un nou punctaj la orice tweet / post anume.
Vizualizarea analizei sentimentului se poate face folosind un cloud de cuvinte, diagrame de bare ale matricei termenilor de frecvență.

• Asocierea analizei miniere

Una dintre aplicațiile la care unii tipi lucrau a fost „Modelul probabilist al evenimentului advers pentru medicamente”, în care se poate verifica care evenimente adverse pot provoca alte evenimente adverse dacă ia un anumit medicament.
Exploatarea textului a inclus fluxul de lucru de mai jos

Din figura de mai sus, putem vedea că până la extragerea datelor toate etapele aparțin minerierii de text care identifică sursa de date, extragându-le și apoi pregătind-o gata de analiză.

Apoi aplicând mineritul de asociere avem modelul de mai jos
După cum putem observa că unele semne de săgeată îndreaptă spre cercul portocaliu și apoi o săgeată indică spre orice ADE particular (eveniment advers de droguri). Dacă luăm un exemplu în partea stângă jos a imaginii, putem găsi apatie, astenie și sentimente anormale duce la a ne simți vinovat, bine se poate spune că este evident, este evident, deoarece ca om puteți interpreta și relaționa, dar aici o mașină îl interpretează și ne oferă următorul eveniment advers de droguri.

Un exemplu de cloud cuvinte este ca mai jos

Tabelul de comparație între Text Mining și Text Analytics

Mai jos sunt listele de puncte, descrieți comparațiile dintre Text Mining și Text Analytics:

Baza pentru comparațieMinerit textText Analytics

Sens

Exploatarea textului înseamnă curățarea datelor od pentru a fi disponibile pentru analiza textuluiText Analytics aplică tehnici statistice și de învățare automată pentru a putea prezice / prescrie sau deduce orice informații din datele extrase din text.

Concept

Text mining este un instrument care ajută la curățarea datelor.Text Analytics este procesul de aplicare a algoritmilor

Cadru

Dacă vorbim despre cadru, extragerea textului este similară cu ETL (Extract Transform Load), ceea ce înseamnă că puteți insera date în baza de date, acești pași sunt realizațiÎn analiza textului, aceste date sunt utilizate pentru a adăuga valori business-ului, de exemplu, crearea de nori de cuvinte, diagrame de frecvențe bi-grame, N-grame în unele cazuri

Limba

Python și R sunt cele mai faimoase instrumente de extragere a textului pentru minerit textPentru analiza textului, odată ce datele sunt disponibile la nivel de bază de date, atunci putem folosi oricare dintre software-urile de analiză de acolo, inclusiv python și R. Alte programe de software includ Power BI, Azure, KNIME etc.

Exemple

  • categorizarea textului
  • clustering text
  • extragerea conceptului / entității
  • analiza sentimentelor
  • rezumarea documentelor
  • producerea de taxonomii granulare
  • Modelarea relațiilor de entitate
  • Analiza de asociere
  • vizualizare
  • analize predictive
  • preluarea informațiilor
  • analiză lexicală
  • recunoasterea formelor
  • etichetarea / adnotare

Concluzie -Text Mining vs. Text Analytics

Viitorul mineritului de text și al analizei textului nu se aplică numai în engleză, dar au fost, de asemenea, progrese continue și utilizarea instrumentelor lingvistice nu numai alte limbi engleze sunt prea luate în considerare pentru analiză.

Domeniul de aplicare și viitorul mineritului de text vor crește, deoarece există resurse limitate pentru a analiza alte limbi.

Text Analytics are o gamă foarte largă în care poate fi aplicat, unele exemple ale industriilor în care pot fi utilizate sunt:

  • Monitorizare social media
  • Aplicații Pharma / Biotehnologie
  • Aplicații pentru afaceri și marketing

Articol recomandat

Acesta a fost un ghid pentru diferența dintre Text Mining și Text Analytics, semnificația lor, Comparația dintre cap și cap, Diferențele cheie, Tabelul de comparație și concluzii. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Azure Paas vs Iaas - Aflați diferențele
  2. Cele mai bune 3 lucruri de învățat despre data mining vs.
  3. Cunoașteți cea mai bună diferență între analiza de date Vs Data Mining
  4. Business Intelligence vs Machine Learning-Care este mai bun
  5. Analiza predictivă comparativ cu extragerea datelor - Care este mai util

Categorie: