Introducere în metode de asamblare în învățarea mașinii

În acest articol, vom vedea o prezentare a metodelor Ensemble în învățarea mașinii. Ensemble learning este o combinație de tehnici diverse de învățare automată într-un model predictiv pentru a îmbunătăți predicția. Învățarea prin ansamblu este dobândită pentru a reduce variația datelor predictive. Acest tip de învățare este menit să reducă la minimum părtinirea modelului. Ensemble learning este un sistem multi-model în care diferiți clasificatori sau tehnici sunt combinate strategic pentru a clasifica sau prezice statisticile din problema complexă cu o precizie mai bună. Obiectivul unei astfel de învățări este de a reduce la minimum probabilitatea unei slabe selecții din model. Acesta numește încrederea în decizia luată de model. Ideea de a selecta caracteristici optime a fost realizată în învățarea în ansamblu.

Tipuri de metode de ansamblu în învățarea mașinii

Metodele Ensemble ajută la crearea mai multor modele și apoi le combină pentru a produce rezultate îmbunătățite, unele metode de ansamblu sunt clasificate în următoarele grupuri:

1. Metode secvențiale

În acest tip de metodă Ensemble, există cursanți de bază generați secvențial în care rezidă dependența de date. Toate celelalte date din elevul de bază au o dependență de datele anterioare. Deci, datele anterioare greșite sunt reglate în funcție de greutatea acestora pentru a îmbunătăți performanțele sistemului general.

Exemplu : stimulare

2. Metoda paralelă

În acest fel de metodă Ensemble, cursantul de bază este generat în ordine paralelă în care nu există dependența de date. Toate datele din elevul de bază sunt generate independent.

Exemplu : Stivuirea

3. Ansamblu omogen

O astfel de metodă de ansamblu este o combinație a acelorași tipuri de clasificatoare. Dar setul de date este diferit pentru fiecare clasificator. Acest lucru va face ca modelul combinat să funcționeze mai precis după agregarea rezultatelor fiecărui model. Acest tip de metodă de ansamblu funcționează cu un număr mare de seturi de date. În metoda omogenă, metoda de selectare a caracteristicilor este aceeași pentru date de instruire diferite. Este costisitor din punct de vedere al calculului.

Exemplu: Metode populare precum bagajul și stimularea intră în ansamblul omogen.

4. Ansamblu eterogen

O astfel de metodă de ansamblu este combinarea diferitelor tipuri de clasificatoare sau modele de învățare automată în care fiecare clasificator se bazează pe aceleași date. O astfel de metodă funcționează pentru seturi de date mici. În mod eterogen, metoda de selectare a caracteristicilor este diferită pentru aceleași date de instruire. Rezultatul general al acestei metode de ansamblu este realizat prin medierea tuturor rezultatelor fiecărui model combinat.

Exemplu : Stivuirea

Clasificarea tehnică a metodelor ansamblului

Mai jos găsiți clasificarea tehnică a metodelor Ensemble:

1. Bagaj

Această metodă de ansamblu combină două modele de învățare a mașinilor, adică Bootstrapping și Agregarea într-un singur model de ansamblu. Obiectivul metodei de ambalare este reducerea variației mari a modelului. Arborii de decizie au variație și părtinire scăzută. Setul de date mare este (să zicem 1000 de eșantioane) sub-eșantionate (să spunem că 10 sub-eșantioane fiecare poartă 100 de probe de date) Arborii de decizie multiple sunt construiți pe datele de instruire ale fiecărui sub-eșantion. În timp ce se bat datele sub-eșantionate pe diferiți arbori de decizie, se reduce preocuparea de adaptare excesivă a datelor de instruire pe fiecare arbore de decizie. Pentru eficiența modelului, fiecare arbore de decizie individual este crescut adânc, conținând date de instruire sub-eșantionate. Rezultatele fiecărui arbore de decizie sunt agregate pentru a înțelege predicția finală. Varianța datelor agregate vine să reducă. Precizia predicției modelului în metoda de ambalare depinde de numărul arborelui de decizie utilizat. Diversele sub-probe ale unui eșantion de date sunt alese aleatoriu cu înlocuire. Producția fiecărui arbore are o corelație ridicată.

2. stimularea

Ansamblul stimulant combină, de asemenea, diferite tipuri de clasificator. Boosting este una dintre metodele de ansamblu secvențiale în care fiecare model sau clasificator rulează pe baza unor caracteristici care vor fi utilizate de următorul model. În acest fel, metoda de stimulare scoate la iveală un model de elev mai puternic din modelele slabe ale cursanților prin medierea ponderilor acestora. Cu alte cuvinte, un model mai puternic antrenat depinde de mai multe modele slabe antrenate. Un elev slab sau un model pregătit pentru uzură este unul care este foarte puțin corelat cu o clasificare adevărată. Dar următorul elev slab este mai corelat cu o clasificare adevărată. Combinația unor astfel de studenți slabi diferiți oferă un elev puternic, care este bine corelat cu adevărata clasificare.

3. Stivuirea

Această metodă combină, de asemenea, multiple clasificări sau tehnici de regresie folosind un meta-clasificator sau meta-model. Modelele de nivel inferior sunt instruite cu setul de date complet de instruire, iar apoi modelul combinat este instruit cu rezultatele modelelor de nivel inferior. Spre deosebire de stimulare, fiecare model de nivel inferior este supus unui antrenament paralel. Predicția de la modelele de nivel inferior este utilizată ca input pentru următorul model ca set de date de formare și formează o stivă în care stratul superior al modelului este mai antrenat decât stratul inferior al modelului. Modelul de nivel superior are o precizie bună de predicție și au fost construite pe baza modelelor de nivel inferior. Stiva continuă să crească până când cea mai bună predicție este realizată cu o eroare minimă. Predicția modelului sau meta-modelului combinat se bazează pe predicția diferitelor modele slabe sau modele cu strat inferior. Se concentrează pentru a produce un model mai puțin părtinitor.

4. Pădure aleatoare

Pădurea la întâmplare este ușor diferită de sacul, deoarece folosește copaci adânci, care sunt montate pe mostrele de boot. Rezultatul fiecărui tress este combinat pentru a reduce variația. În timp ce crește fiecare arbore, în loc să genereze un eșantion de bootstrap bazat pe observația din setul de date, de asemenea, eșantionăm setul de date bazat pe caracteristici și folosim doar un subset aleatoriu al unui astfel de eșantion pentru a construi arborele. Cu alte cuvinte, eșantionarea setului de date se face pe baza unor caracteristici care reduc corelația diferitelor rezultate. Pădurea întâmplătoare este bună pentru a decide pentru date lipsă. Pădure aleatoare înseamnă selecția aleatorie a unui subset de eșantion care reduce șansele de a obține valori de predicție înrudite. Fiecare copac are o structură diferită. Pădurea întâmplătoare determină o creștere ușoară a părtinirii pădurii, dar datorită mediei tuturor predicțiilor mai puțin corelate de la diferiți arbori, variația rezultată scade și oferă o performanță generală mai bună.

Concluzie

Abordarea multi-model a ansamblului este realizată de modele de învățare profundă în care datele complexe au studiat și procesat prin combinații atât de diferite ale clasificatorului pentru a obține o predicție sau o clasificare mai bună. Predicția fiecărui model din învățarea ansamblului trebuie să fie mai necorelată. Acest lucru va menține prejudecata și variația modelului cât mai scăzut posibil. Modelul va fi mai eficient și va prezice ieșirea sub eroare minimă. Ansamblul este un algoritm de învățare supravegheat, deoarece modelul este instruit anterior cu setul de date pentru a face predicția. În cadrul învățării în ansamblu, numărul clasificatorilor de componente trebuie să fie același ca etichetele clasei pentru a obține o precizie ridicată.

Articole recomandate

Acesta este un ghid pentru ansamblarea metodelor în învățarea mașinii. Aici vom discuta despre Tipurile importante de metode de ansamblu în învățarea mașinii împreună cu clasificarea tehnică. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

  1. Introducere în tehnici de ansamblare
  2. Ciclul de viață al învățării mașinilor cu avantaje
  3. Algoritmi de învățare a mașinilor
  4. Cele mai bune 24 de întrebări de interviu pentru învățarea mașinii

Categorie: