Introducere în conducta de date AWS

Datele cresc exponențial zi de zi și devin dificil de gestionat în comparație cu trecutul. Avem nevoie de instrumente și servicii care să ne administreze datele în mod eficient și la un cost mai ieftin, acolo unde vine în minte conducta de date AWS. Nu este vorba doar de stocarea datelor, dar trebuie să analizați, să prelucrați, să transformați datele în forma dorită în același loc, toate acestea pot fi obținute cu AWS Data Pipeline.

Necesitate pentru conducta de date

Să încercăm să înțelegem nevoia unei conducte de date cu exemplul:

Exemplul # 1

Avem un site web care afișează imagini și gif-uri pe baza căutărilor sau filtrelor utilizatorilor. Obiectivul nostru principal este să servim conținut. Există anumite obiective pentru a atinge care sunt următoarele:

  • Îmbunătățirea livrării de conținut: Servirea a ceea ce utilizatorii doresc suficient de rapid și eficient.
  • Gestionează eficient aplicația: stocarea datelor utilizatorului, precum și jurnalele site-urilor web în scopuri analitice ulterioare.
  • Îmbunătățirea afacerii: Utilizarea datelor stocate și a analizelor ia decizia de a îmbunătăți activitatea la un cost mai ieftin.

Exemplul # 2

Există anumite blocaje de care trebuie să aveți grijă pentru realizarea obiectivelor:

  • Cantitatea uriașă de date în diferite formate și în diferite locuri, ceea ce face ca prelucrarea, stocarea și migrarea sarcinilor să fie complexe.

Componente de stocare a datelor diferite pentru diferite tipuri de date:

  • Date posibile în timp real pentru utilizatorii înregistrați: Dynamo DB .
  • Jurnalele serverului web pentru utilizatorii potențiali: Amazon S3 .
  • Date demografice și date de autentificare: Amazon RDS.
  • Datele senzorilor și setul de date al părților terțe: Amazon S3.

soluţii

  • Soluție fezabilă: putem vedea că trebuie să avem de-a face cu diferite tipuri de instrumente pentru a converti datele de la nestructurate la structurate pentru analiză. Aici trebuie să folosim diferite instrumente pentru a stoca date și din nou pentru a converti, analiza și stoca datele procesate. Nu este o soluție rentabilă.
  • Soluție optimă: utilizați o conductă de date care gestionează procesarea, vizualizarea și migrarea. Conducta de date poate fi utilă în migrarea datelor din diferite locuri, analizând și datele și procesarea în aceeași locație în numele dvs.

Care este conducta de date AWS?

AWS Data Pipeline este practic un serviciu web oferit de Amazon care vă ajută să transformați, prelucrați și analizați datele dvs. într-o manieră scalabilă și fiabilă, precum și stocarea datelor procesate în S3, DynamoDb sau în baza de date locală.

  • Cu AWS Data Pipeline puteți accesa cu ușurință date din surse diferite.
  • Transformă și procesează datele la scară.
  • Transferă eficient rezultatele către alte servicii, cum ar fi S3, tabelul DynamoDb sau depozitul de date local.

Exemplu de bază de utilizare a conductei de date

  • Am putea avea un site web implementat peste EC2 care generează jurnale în fiecare zi.
  • O sarcină zilnică simplă ar putea fi copiate fișierele jurnal de la E2 și realizarea lor în găleata S3.
  • O sarcină săptămânală ar putea fi prelucrarea datelor și lansarea analizei datelor pe Amazon EMR pentru a genera rapoarte săptămânale pe baza tuturor datelor colectate.

Lansarea analizei datelor cu conducta de date AWS

  • Colectarea datelor din diferite surse de date, cum ar fi - S3, Dynamodb, On-premise, date senzor etc.
  • Efectuarea transformării, procesării și analizelor pe AWS EMR pentru a genera rapoarte săptămânale.
  • Raport săptămânal salvat în baza de date Redshift, S3 sau pe premisa.

Beneficiile conductei de date AWS

Mai jos punctele explică avantajele conductei de date AWS:

  • Trageți și aruncați consola care este ușor de înțeles și de utilizat.
  • Infrastructură distribuită și fiabilă: conductele de date rulează pe servicii scalabile și sunt fiabile dacă orice eroare sau sarcină nu reușește, poate fi setată să reînceapă.
  • Suportă planificarea și urmărirea erorilor: vă puteți programa sarcinile și urmăriți-le ceea ce a eșuat și reușește.
  • Distribuit: Poate fi rulat paralel pe mai multe mașini sau în mod liniar.
  • Control deplin asupra resurselor de calcul, cum ar fi EC2, grupurile EMR.

Componentele conductelor de date AWS

Mai jos sunt componentele conductei de date AWS:

1. Definiția conductei

Convertiți logica de afaceri în conducta de date AWS.

  • Noduri de date : conține numele, locația, formatul sursei de date pe care ar putea fi (S3, dinamodb, local)
  • Activități : mutați, transformați sau efectuați interogări cu privire la datele dvs.
  • Programare : Programează-ți activitățile zilnice sau săptămânale.
  • Condiție preliminară : condițiile de pornire a programului verifică disponibilitatea datelor la sursă.
  • Resurse : Calcularea resurselor EC2, EMR.
  • Acțiuni : Actualizare despre conducta de date, trimiterea notificărilor, alarmă de declanșare.

2. conducte

Aici programați și executați sarcinile pentru a efectua activități definite.

  • Oponentele conductei C : Componentele conductei sunt identice cu componentele definiției conductei.
  • Instanțe: În timpul executării sarcinilor, AWS compilează toate componentele pentru a crea anumite instanțe acționabile. Astfel de cazuri au toate informațiile despre sarcini specifice.
  • Încercări: Am discutat deja cât de fiabilă este conducta de date cu mecanismele sale de reîncărcare. Aici setați de câte ori doriți să încercați sarcina în caz de eșec.

3. Task Runner

Solicită sondaje sau sondaje pentru sarcini din conducta de date AWS și apoi execută aceste sarcini.

Prețuri pentru conductele de date AWS

Mai jos de puncte se explică prețul conductei de date AWS:

1. Nivel gratuit

Puteți începe gratuit cu AWS Data Pipeline ca parte a nivelului de utilizare gratuită AWS. Clienții noi înregistrați obține în fiecare lună câteva avantaje gratuite pentru un an:

  • 3 Condiții de frecvență joasă care funcționează pe AWS fără nicio taxă.
  • 5 Activități de frecvență joasă care rulează pe AWS fără nicio taxă.

2. Frecvență joasă

Frecvența joasă este menită să funcționeze o dată într-o zi sau mai puțin. Data Pipeline urmează aceeași strategie de facturare ca și alte servicii web AWS, adică facturate pentru utilizarea dvs. Se facturează cât de des se execută sarcinile, activitățile și condițiile prealabile în fiecare zi și unde se execută (AWS sau la fața locului). Activitățile de înaltă frecvență sunt programate să se desfășoare mai mult de o dată pe zi.

Exemplu: Putem programa o activitate care să funcționeze în fiecare oră și să proceseze jurnalele site-ului sau ar putea fi la fiecare 12 ore. Întrucât, activitățile cu frecvență joasă sunt cele care se desfășoară o dată pe zi sau mai puțin dacă nu sunt îndeplinite precondițiile. Conductele inactive au fie state inactive, PENDINTE și FINIȚATE.

3. Prețul conductei de date AWS indicat în regiune

Regiunea nr. 1: SUA Est (N.Virginia), SUA Vest (Oregon), Asia Pacific (Sydney), UE (Irlanda)

Frecventa inaltaFrecventa joasa
Activități sau precondiții care rulează peste AWS 1, 00 USD pe lună 0, 06 USD pe lună
Activități sau condiții preliminare care se desfășoară la fața locului 2, 50 USD pe lună 1, 50 USD pe lună
Conductele inactive: 1, 00 USD pe lună

Regiunea nr. 2: Asia Pacific (Tokyo)

Frecventa inaltaFrecventa joasa
Activități sau precondiții care rulează peste AWS 0, 9524 USD pe lună 0, 5715 USD pe lună
Activități sau condiții preliminare care se desfășoară la fața locului 2.381 USD pe lună 1.4286 USD pe lună
Conductele inactive: 0, 9524 USD pe lună

Conducerea pe care o muncă zilnică, adică o activitate de frecvență joasă pe AWS pentru a muta datele de la tabelul DynamoDB în Amazon S3, ar costa 0, 60 USD pe lună. Dacă adăugăm EC2 pentru a produce un raport pe baza datelor Amazon S3, costul total al conductelor ar fi de 1, 20 USD pe lună. Dacă am desfășura această activitate la fiecare 6 ore, ar costa 2, 00 USD pe lună, pentru că atunci ar fi o activitate de înaltă frecvență.

Concluzie

AWS Data Pipeline este o soluție foarte utilă pentru gestionarea datelor în creștere exponențială la un cost mai ieftin. Este foarte fiabil și scalabil în funcție de modul de utilizare. Pentru orice nevoie de afaceri în care se ocupă cu o cantitate mare de date, AWS Data Pipeline este o alegere foarte bună pentru a atinge toate obiectivele noastre de afaceri.

Articole recomandate

Acesta este un ghid al conductei de date AWS. Aici discutăm nevoile conductei de date, ce este conducta de date AWS, componentele și detaliile prețurilor. Puteți parcurge și alte articole conexe pentru a afla mai multe -

  1. AWS EBS
  2. Baze de date AWS
  3. Ce este AWS EC2?
  4. Beneficiile vizualizării datelor
  5. Top 7 concurenti ai AWS cu caracteristici
  6. Aflați lista funcțiilor de servicii web Amazon

Categorie: