Introducere pentru crearea unui arbore de decizie
Odată cu creșterea rapidă recentă a cantității de date generate de sistemele informaționale, pentru a gestiona seturi mari de date, există o necesitate dominantă pentru arborele de decizie pentru a reduce complexitatea calculului. Un arbore de decizie poate fi considerat cea mai importantă abordare pentru reprezentarea clasificatorilor. Cu alte cuvinte, putem spune că datele sunt structurate folosind o strategie de divizare și cucerire. până știu că am explorat doar. Un arbore de decizie este structurat ca un cadru pentru a preciza valorile și probabilitatea deciziilor de rezultate
m fiecare nivel al nodului, ajutându-i pe factorii de decizie să aleagă predicții corecte între diferitele date necorespunzătoare. În acest articol, veți parcurge cum să creați un arbore de decizie bazat pe date de probă într-un mod simplu.
Ce este Arborele de decizie?
Un arbore de decizie este o structură ierarhică binară care identifică modul în care fiecare nod împarte un set de date bazat pe condiții diferite. Pentru a construi un arbore optim cu o abordare model pentru a clasifica o variabilă de răspuns care prezice valoarea unei variabile țintă cu reguli simple de decizie (enunțuri if-then-else). Abordarea este învățarea supravegheată folosită mai ales în problemele de clasificare și considerată a fi un model predictiv foarte eficient. Sunt utilizate în diferite domenii de aplicații precum teoria jocurilor, inteligența artificială, învățarea mașinii, minerirea datelor și domenii precum securitatea și medicina.
Cum să creați un arbore de decizie?
Un arbore de decizie este creat în moduri simple, cu modul de sus în jos; ele constau din noduri care formează un nod direcționat, care are noduri rădăcină fără margini de intrare, toate celelalte noduri se numesc decizii-noduri (nod intern și frunze nod care corespunde etichetelor de atribute și de clasă) cu cel puțin un muchii de intrare. Principalul obiectiv al seturilor de date este minimizarea erorilor de generalizare prin găsirea soluției optime în arborele de decizie.
Un exemplu de arbore de decizie este explicat mai jos cu un set de date de probă. Scopul este de a prezice dacă un profit este în scădere sau în creștere folosind atributele vieții și concurenței. Aici variabilele din arborele de decizie sunt categorice (Da, Nu).
Setul de date
Viaţă | Competiție | Tip | Profit |
Vechi | da | Software-ul | Jos |
Vechi | Nu | Software-ul | Jos |
Vechi | Nu | Hardware | Jos |
la mijlocul | da | Software-ul | Jos |
la mijlocul | da | Hardware | Jos |
la mijlocul | Nu | Hardware | Sus |
la mijlocul | Nu | Software-ul | Sus |
Nou | da | Software-ul | Sus |
Nou | Nu | Hardware | Sus |
Nou | Nu | Software-ul | Sus |
Din setul de date de mai sus: viața, concurența, tipul sunt predictorii, iar profitul atributului este ținta. Există diferiți algoritmi pentru a implementa un arbore de decizie, dar cel mai bun algoritm utilizat pentru a construi un arbore de decizie este ID3, care pune accent pe abordarea lacomă de căutare. Arborele de decizie urmează regula inferenței deciziei sau forma normală disjunctivă (^).
Arborele de decizii
Inițial, tot atributul de formare este considerat a fi rădăcina. Prioritatea de ordine pentru plasarea atributelor ca rădăcină se face prin următoarea abordare. Acest proces este cunoscut pentru a selecta atributele pentru a identifica care atribut este făcut pentru a fi un nod rădăcină la fiecare nivel. Arborele urmează doi pași: construcția unui copac, tăierea copacului. Și datele sunt împărțite în toate nodurile de decizie.
Câștig de informații
Este măsura schimbării entropiei bazată pe variabila independentă. Arborele decizional trebuie să găsească cel mai mare câștig de informații.
entropia
Entropia este definită ca pentru setul finit, măsura aleatoriei în date sau predictibilitatea evenimentului, dacă eșantionul are valori similare, atunci entropia este zero și dacă este împărțită în mod egal cu eșantionul, atunci este una.
Entropie pentru clasă
În cazul în care p este probabilitatea obținerii de profit pentru a spune „da” și N este pierdere spuneți „Nu”.
prin urmare, entropie = 1
Odată ce valoarea entropiei este calculată este necesar să se decidă un nod rădăcină din atribut.
Entropia vârstei
În funcție de setul de date pentru atributul Life, avem vechi = 3 jos, mijloc = 2 jos și unul în sus privind eticheta profit.
Viaţă | Pi | ni | I (pi, ni) | |
Vechi | 0 | 3 | 0 | |
la mijlocul | 2 | 2 | 1 | |
Nou | 3 | 0 | 0 |
Câștig = Entropia clasei - Entropia vieții = 1 - 0, 4 = 0, 6
Entropie (concurență) = 0, 87
Competiție | Pi | ni | I (pi, ni) | |
da | 1 | 3 | 0, 8 | |
Nu | 4 | 2 | 0.9 |
Câștig = Entropia clasei - Entropia vieții = 1 - 0, 87 = 0, 12
Acum, problema apare în atributul Viața în care mijlocul are o probabilitate egală atât în sus, cât și în jos. prin urmare, entropia este 1. în mod similar, se calculează pentru atributul tip din nou entropia este 1 și câștigul este 0. Acum a fost creată o decizie completă pentru a obține un rezultat precis pentru valoarea medie.
Avantajele arborelui decizional
- Sunt ușor de înțeles și regulile generate sunt flexibile. Are puțin efort pentru pregătirea datelor.
- O abordare vizuală pentru a reprezenta deciziile și rezultatele este foarte utilă.
- Arborele de decizii gestionează setul de date de instruire cu erori și valori lipsă.
- Ele pot gestiona o valoare discretă și un atribut numeric. Funcționează variabile categorice și continue pentru intrare și ieșire.
- Acestea sunt un instrument util pentru domeniul de afaceri care trebuie să ia decizii după analiza în anumite condiții.
Dezavantajele arborelui decizional
- Studenții pot crea un arbore de decizie complex în funcție de datele instruite. acest proces este denumit ca overfitting, un proces dificil în modelele de arbori de decizie.
- Valorile preferate de a fi categorice, dacă este continuă, arborele de decizie pierde informații care duc la erori. Creșterea exponențială a calculului este mai mare în timp ce se analizează.
- Multe etichete de clasă duc la calcule complexe incorecte și oferă o precizie scăzută a predicției setului de date.
- Informațiile obținute în algoritmul DT oferă un răspuns părtinitor la valori mai mari categorice.
Concluzie
Prin urmare, pentru a concluziona, arbori de decizie oferă o metodă practică și ușoară pentru învățare și cunoscute puternic ca instrumente eficiente pentru învățarea mașinii, deoarece într-un timp scurt funcționează bine cu seturi de date mari. Este o sarcină de învățare care folosește o abordare statistică pentru a trage o concluzie generalizată. Acum este mai bine înțeles de ce arborele decizional este folosit în modelarea predictivă și pentru oamenii de știință de date, acestea sunt instrumentul puternic.
Articole recomandate
Acesta este un ghid pentru crearea unui arbore de decizii. Aici vom discuta despre cum să creăm un arbore de decizie împreună cu diverse avantaje și dezavantaje. Puteți parcurge și alte articole sugerate pentru a afla mai multe -
- Prezentare generală a arborelui decizional în R
- Care este algoritmul Tree Tree?
- Introducere în instrumentele de inteligență artificială
- Top 10 întrebări de interviu pentru inteligență artificială