Creați un arbore de decizii - Modalități simple de a vizualiza diagrama arborelui decizional

Introducere pentru crearea unui arbore de decizie

Odată cu creșterea rapidă recentă a cantității de date generate de sistemele informaționale, pentru a gestiona seturi mari de date, există o necesitate dominantă pentru arborele de decizie pentru a reduce complexitatea calculului. Un arbore de decizie poate fi considerat cea mai importantă abordare pentru reprezentarea clasificatorilor. Cu alte cuvinte, putem spune că datele sunt structurate folosind o strategie de divizare și cucerire. până știu că am explorat doar. Un arbore de decizie este structurat ca un cadru pentru a preciza valorile și probabilitatea deciziilor de rezultate

m fiecare nivel al nodului, ajutându-i pe factorii de decizie să aleagă predicții corecte între diferitele date necorespunzătoare. În acest articol, veți parcurge cum să creați un arbore de decizie bazat pe date de probă într-un mod simplu.

Ce este Arborele de decizie?

Un arbore de decizie este o structură ierarhică binară care identifică modul în care fiecare nod împarte un set de date bazat pe condiții diferite. Pentru a construi un arbore optim cu o abordare model pentru a clasifica o variabilă de răspuns care prezice valoarea unei variabile țintă cu reguli simple de decizie (enunțuri if-then-else). Abordarea este învățarea supravegheată folosită mai ales în problemele de clasificare și considerată a fi un model predictiv foarte eficient. Sunt utilizate în diferite domenii de aplicații precum teoria jocurilor, inteligența artificială, învățarea mașinii, minerirea datelor și domenii precum securitatea și medicina.

Cum să creați un arbore de decizie?

Un arbore de decizie este creat în moduri simple, cu modul de sus în jos; ele constau din noduri care formează un nod direcționat, care are noduri rădăcină fără margini de intrare, toate celelalte noduri se numesc decizii-noduri (nod intern și frunze nod care corespunde etichetelor de atribute și de clasă) cu cel puțin un muchii de intrare. Principalul obiectiv al seturilor de date este minimizarea erorilor de generalizare prin găsirea soluției optime în arborele de decizie.

Un exemplu de arbore de decizie este explicat mai jos cu un set de date de probă. Scopul este de a prezice dacă un profit este în scădere sau în creștere folosind atributele vieții și concurenței. Aici variabilele din arborele de decizie sunt categorice (Da, Nu).

Setul de date

Viaţă	Competiție	Tip	Profit
Vechi	da	Software-ul	Jos
Vechi	Nu	Software-ul	Jos
Vechi	Nu	Hardware	Jos
la mijlocul	da	Software-ul	Jos
la mijlocul	da	Hardware	Jos
la mijlocul	Nu	Hardware	Sus
la mijlocul	Nu	Software-ul	Sus
Nou	da	Software-ul	Sus
Nou	Nu	Hardware	Sus
Nou	Nu	Software-ul	Sus

Din setul de date de mai sus: viața, concurența, tipul sunt predictorii, iar profitul atributului este ținta. Există diferiți algoritmi pentru a implementa un arbore de decizie, dar cel mai bun algoritm utilizat pentru a construi un arbore de decizie este ID3, care pune accent pe abordarea lacomă de căutare. Arborele de decizie urmează regula inferenței deciziei sau forma normală disjunctivă (^).

Arborele de decizii

Inițial, tot atributul de formare este considerat a fi rădăcina. Prioritatea de ordine pentru plasarea atributelor ca rădăcină se face prin următoarea abordare. Acest proces este cunoscut pentru a selecta atributele pentru a identifica care atribut este făcut pentru a fi un nod rădăcină la fiecare nivel. Arborele urmează doi pași: construcția unui copac, tăierea copacului. Și datele sunt împărțite în toate nodurile de decizie.

Câștig de informații

Este măsura schimbării entropiei bazată pe variabila independentă. Arborele decizional trebuie să găsească cel mai mare câștig de informații.

entropia

Entropia este definită ca pentru setul finit, măsura aleatoriei în date sau predictibilitatea evenimentului, dacă eșantionul are valori similare, atunci entropia este zero și dacă este împărțită în mod egal cu eșantionul, atunci este una.

Entropie pentru clasă

În cazul în care p este probabilitatea obținerii de profit pentru a spune „da” și N este pierdere spuneți „Nu”.

prin urmare, entropie = 1

Odată ce valoarea entropiei este calculată este necesar să se decidă un nod rădăcină din atribut.

Entropia vârstei

În funcție de setul de date pentru atributul Life, avem vechi = 3 jos, mijloc = 2 jos și unul în sus privind eticheta profit.

Viaţă		Pi	ni	I (pi, ni)
	Vechi	0	3	0
	la mijlocul	2	2	1
	Nou	3	0	0

Câștig = Entropia clasei - Entropia vieții = 1 - 0, 4 = 0, 6

Entropie (concurență) = 0, 87

Competiție		Pi	ni	I (pi, ni)
	da	1	3	0, 8
	Nu	4	2	0.9

Câștig = Entropia clasei - Entropia vieții = 1 - 0, 87 = 0, 12

Acum, problema apare în atributul Viața în care mijlocul are o probabilitate egală atât în sus, cât și în jos. prin urmare, entropia este 1. în mod similar, se calculează pentru atributul tip din nou entropia este 1 și câștigul este 0. Acum a fost creată o decizie completă pentru a obține un rezultat precis pentru valoarea medie.

Avantajele arborelui decizional

Sunt ușor de înțeles și regulile generate sunt flexibile. Are puțin efort pentru pregătirea datelor.
O abordare vizuală pentru a reprezenta deciziile și rezultatele este foarte utilă.
Arborele de decizii gestionează setul de date de instruire cu erori și valori lipsă.
Ele pot gestiona o valoare discretă și un atribut numeric. Funcționează variabile categorice și continue pentru intrare și ieșire.
Acestea sunt un instrument util pentru domeniul de afaceri care trebuie să ia decizii după analiza în anumite condiții.

Dezavantajele arborelui decizional

Studenții pot crea un arbore de decizie complex în funcție de datele instruite. acest proces este denumit ca overfitting, un proces dificil în modelele de arbori de decizie.
Valorile preferate de a fi categorice, dacă este continuă, arborele de decizie pierde informații care duc la erori. Creșterea exponențială a calculului este mai mare în timp ce se analizează.
Multe etichete de clasă duc la calcule complexe incorecte și oferă o precizie scăzută a predicției setului de date.
Informațiile obținute în algoritmul DT oferă un răspuns părtinitor la valori mai mari categorice.

Concluzie

Prin urmare, pentru a concluziona, arbori de decizie oferă o metodă practică și ușoară pentru învățare și cunoscute puternic ca instrumente eficiente pentru învățarea mașinii, deoarece într-un timp scurt funcționează bine cu seturi de date mari. Este o sarcină de învățare care folosește o abordare statistică pentru a trage o concluzie generalizată. Acum este mai bine înțeles de ce arborele decizional este folosit în modelarea predictivă și pentru oamenii de știință de date, acestea sunt instrumentul puternic.

Articole recomandate

Acesta este un ghid pentru crearea unui arbore de decizii. Aici vom discuta despre cum să creăm un arbore de decizie împreună cu diverse avantaje și dezavantaje. Puteți parcurge și alte articole sugerate pentru a afla mai multe -

Prezentare generală a arborelui decizional în R
Care este algoritmul Tree Tree?
Introducere în instrumentele de inteligență artificială
Top 10 întrebări de interviu pentru inteligență artificială

Creați un arbore de decizii - Modalități simple de a vizualiza diagrama arborelui decizional

Cuprins:

Introducere pentru crearea unui arbore de decizie

Ce este Arborele de decizie?

Cum să creați un arbore de decizie?

Setul de date

Arborele de decizii

Câștig de informații

entropia

Entropie pentru clasă

Entropia vârstei

Avantajele arborelui decizional

Dezavantajele arborelui decizional

Concluzie

Articole recomandate

Photoshop vs Photoshop CC - Top 5 Cele mai utile diferențe de știut

Pașii de ajutor pentru a stimula creșterea și dezvoltarea personală

Photoshop vs Paint - Top 9 cea mai uimitoare comparație

PHP alternative - Aflați principalele alternative ale PHP

Photoshop vs Photoshop Elements - Top 7 cele mai bune diferențe de învățat

Tipuri de algoritmi de învățare a mașinilor - Definiție - Tipuri

Tipuri de NAT - Terminologii de lucru și - Tipuri și avantaje ale NAT

Tipuri de aplicații mobile - Avantajele și dezavantajele aplicațiilor mobile

Tipuri de uniri în SQL - Top 4 tipuri de uniri în SQL cu exemple

Tipuri de dispozitive de rețea - Top 8 tipuri diferite de dispozitive de rețea

Cariere în Splunk - Calea carierei și salariul - Locuri de munca - perspectivă

Cariera în dezvoltarea web - Informații despre job, salariu și educație

Cariera în Unix - Educație și o mare oportunitate de carieră - Salariu și locuri de muncă

Cariera Lean Six Sigma - Calea și perspectivele carierei - Locuri de munca - Salariu

Carieră în web design - Calea educației și carierei - Locuri de munca - Salariu