Prezentare generală a hiperparametrelor de învățare

Pentru orice model, avem nevoie de câțiva parametri, care ajută la furnizarea unei baze pentru soluția problemei / analizei și evaluării modelului. Unii dintre acești parametri trebuie învățați din date, iar unii trebuie să-i definim în mod explicit de la sfârșitul nostru. Parametrii care pot fi învățați din date fără a fi definiți explicit sunt numiți parametri model. Parametrul definit în mod explicit de către utilizator se numește Hyperparameters. Hiperparametrele sunt, de asemenea, doar parametri ai modelului, dar termenul hiperparametru este utilizat în învățarea mașinii, astfel încât să poată fi ușor distinși și să nu fie confundați cu parametrii modelului învățați din setul de date.

Ce este Hyperparameter Machine Learning?

Pentru majoritatea cadrelor din învățarea automată, hiperparametrele nu au o definiție riguroasă. Aceste hiperparametre guvernează sistemul de bază al unui model care ghidează parametrii primari (modali) ai modelului. Să încercăm să înțelegem Hyperparametrele cu următorul Exemplu.

  • Ajustarea viorii tale este foarte crucială atunci când te afli într-un stadiu de învățare, deoarece în acel moment creezi conexiuni între simțuri diferite. Urechile, degetele și ochii învață în același timp vioara. Acum La început A te obișnui cu sunetul viorii scoate din ton creează un gust prost al sunetului, ceea ce va strica întreaga experiență a celor îndrăgostiți de procesul de învățare a viorii.
  • De aceea, acordarea viorii poate ajuta cu adevărat pe unul în procesul de învățare a viorii. În același mod, hiperparametrul este un fel de reglare pentru modelul Machine Learning, astfel încât să ofere direcția corectă.
  • Hiperparametrele sunt definite în general înainte de aplicarea unui algoritm de învățare a mașinilor într-un set de date.
  • Acum următoarea sarcină este ceea ce ar trebui să fie hiperparametrul și care ar trebui să fie valoarea sa. Pentru că trebuie să știm ce șiruri sunt necesare pentru a fi acordate și cum să acordați vioara înainte de a o acorda. Același lucru este valabil și pentru hyperparametri, trebuie să definim ce sunt hyperparametre și care ar trebui să fie valoarea acesteia, practic depinde de fiecare sarcină și de fiecare set de date.
  • Pentru a înțelege acest lucru, să luăm perspectiva optimizării modelului.
  • În implementarea modelului de învățare automată, optimizarea modelului joacă un rol esențial. Există un număr mare de ramuri ale învățării automate care sunt dedicate exclusiv optimizării modelului de învățare automată. În general, se percepe că pentru a optimiza modelul trebuie să modificăm codul, astfel încât eroarea să poată fi minimizată.
  • Cu toate acestea, există elemente ascunse care afectează optimizarea învățării mașinii, care se află în afara modelului și au o influență mare asupra comportamentului modelului. Aceste elemente ascunse sunt denumite hiperparametre, acestea sunt componente critice pentru optimizarea oricărui model de învățare automată.
  • Hiperparametrele sunt tunere / setări fine care controlează comportamentul unui model. Acești hiperparametri sunt definiți în afara modelului, dar au o relație directă cu performanța modelului. Hiperparametrele ar putea fi considerate drept ortogonale la model.
  • Criteriile pentru definirea unui hiperparametru sunt foarte flexibile și abstracte. Cu siguranță există unele hiperparametre precum numărul de straturi ascunse, rata de învățare a unui model care este bine stabilit și există, de asemenea, unele setări care pot fi tratate ca hiperparametru pentru un model specific, cum ar fi controlul capacității modelului.
  • Există șanse ca algoritmul să se potrivească unui model dacă algoritmii învață prin setări direct. După cum este clar, hiperparametrele nu sunt învățate / reglate prin setul de antrenament, astfel încât setul de testare sau validare este utilizat pentru selectarea hiperparametrelor. În sens larg, setăm valori diferite de hiperparametru, cea care funcționează cel mai bine cu un set de testare sau validare este considerată cea mai bună hiperrametru.

Categorii de hiperparametru

Pentru diferite tipuri de seturi de date și în funcție de model, putem avea diferite hiperparametre pentru a spori performanța modelului. În general, hiperparametrele pot fi clasificate în două categorii.

  • Hiperparametru pentru optimizare
  • Hiperparametre pentru modele specifice

Să discutăm fiecare dintre acestea.

1. Hiperparametre pentru optimizare

După cum sugerează și numele, aceste hiperparametre sunt utilizate pentru optimizarea modelului.

  • Rata de învățare

Acest hiperparametru determină cât de multe date nou-achiziționate vor trece peste datele vechi disponibile. Dacă valoarea acestui hiperparametru este mare, aceasta este o rată de învățare mai mare, nu va optimiza corect modelul, deoarece există șanse să depășească valorile minime. Pe de altă parte, dacă rata de învățare este luată foarte puțin, atunci convergența va fi foarte lentă.

Rata de învățare joacă un rol crucial în optimizarea performanței modelului, deoarece în unele cazuri modelele au sute de parametri (parametrii modelului) cu curba de eroare, rata de învățare va decide frecvența verificării încrucișate cu toți parametrii. De asemenea, este greu să găsești minimele locale de curbe de eroare, deoarece au în general curbe neregulate.

  • Mărimea lotului

Pentru a accelera procesul de învățare, setul de instruire este împărțit în diferite loturi. În cazul procedurii stocastice de formare a modelului, un lot mic este instruit, evaluat și backpropagat astfel încât să ajusteze valorile tuturor hiperparametrelor dvs., acest lucru se repetă pentru întregul set de antrenament.

Dacă dimensiunea lotului este mai mare decât va crește timpul de învățare și va necesita mai multă memorie pentru a procesa înmulțirea matricei. Dacă dimensiunea lotului este mai mică decât va fi mai mult zgomot în calculul erorilor.

  • Număr de epocă

Epoch reprezintă un ciclu complet pentru datele care trebuie învățate în Machine Learning. Epocii joacă un rol foarte important în procesul de învățare iterativă.

Se consideră o eroare de validare pentru determinarea numărului potrivit de epoci. Se poate mări numărul de epoci atâta timp cât există o reducere a unei erori de validare. Dacă eroarea de validare nu se îmbunătățește pentru epoci consecutive, atunci este un semnal pentru a opri un număr tot mai mare de epoci. Este, de asemenea, cunoscut sub numele de oprire precoce.

2. Hiperparametre pentru modele specifice

Unii hiperparametri sunt implicați în structura modelului în sine. Unele dintre acestea sunt următoarele.

  • Numărul de unități ascunse

Este vitală definirea unui număr de unități ascunse pentru rețelele neuronale în modele de învățare profundă. Acest hiperrametru este utilizat pentru definirea capacității de învățare a modelului. pentru funcții complexe, trebuie să definim un număr de unități ascunse, dar rețineți că acesta nu ar trebui să se potrivească modelului.

  • Numărul de straturi

Este evident că o rețea neuronală cu 3 straturi va oferi performanțe mai bune decât cea a 2 straturi. Creșterea a peste 3 nu ajută atât de mult în rețelele neuronale. În cazul CNN, un număr tot mai mare de straturi îmbunătățește modelul.

Concluzie

Parametrii Hyper sunt definiți explicit înainte de a aplica un algoritm de învățare automată într-un set de date. Hiperparametrele sunt utilizate pentru a defini complexitatea la nivel superior a modelului și a capacității de învățare. Hiperparametrele pot fi, de asemenea, setări pentru model. Unele hiperparametre sunt definite pentru optimizarea modelelor (dimensiunea lotului, rata de învățare etc.), iar unele sunt specifice modelelor (numărul de straturi ascunse etc.).

Articole recomandate

Acesta este un ghid pentru Hyperparameter Machine Learning. Aici discutăm imaginea de ansamblu și ce este învățarea hiperparametrului cu categoriile sale. De asemenea, puteți consulta următoarele articole pentru a afla mai multe -

  1. Introducere în învățarea mașinilor
  2. Învățarea mașinii nesupravegheate
  3. Tipuri de algoritmi de învățare a mașinilor
  4. Aplicații ale învățării automate
  5. Implementarea rețelelor neuronale
  6. Top 6 comparații între CNN și RNN

Categorie: