background image

 

 

VII          EKSPLORACJA DANYCH

Drzewa decyzyjne …

background image

 

 

VII          EKSPLORACJA DANYCH

Drzewa decyzyjne …

background image

 

 

VII          EKSPLORACJA DANYCH

Drzewa decyzyjne …

background image

 

 

VII          EKSPLORACJA DANYCH

Drzewa decyzyjne …

background image

 

 

VII          EKSPLORACJA DANYCH

Drzewa decyzyjne …

background image

 

 

VII          EKSPLORACJA DANYCH

Jak drzewa decyzyjne wybierają atrybut 
dzielący:

Drzewa decyzyjne starają się stworzyć zbiór liści, 
które są najczystsze, tzn. takie które zawierają 
jak najwięcej rekordów należących do tej samej 
klasy. W ten sposób drzewa decyzyjne 
zapewniają przypisanie do klasy z największą 
miarą ufności.

Metod określania jednorodności będącej miarą 
czystości liści jest wiele, a dwie 
najpopularniejsze to:

Algorytm drzew klasyfikacyjnych i regresyjnych 

CART

Algorytm C4.5

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

Φ

(s│t) = 2 P

L

P

P

 

(s│t)

 

gdzie:

(s│t) =  

Σ

 

P(j│t

L

) – P(j│t

P

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

P

L

 = 

liczba rekordów w t

L

liczba rekordów w zbiorze uczącym

P

P

 = 

liczba rekordów w t

P

liczba rekordów w zbiorze uczącym

Φ

(s│t) = 2 P

L

P

P

 

(s│t)

 

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

(s│t) =  

Σ

 

P(j│t

L

) – P(j│t

P

P(j│t

L

) = 

liczba rekordów należących do klasy j w t

L

liczba rekordów w t

P(j│t

P

) = 

liczba rekordów należących do klasy j w t

P

liczba rekordów w t

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

Podział Lewe poddrzewo

Prawe poddrzewo

1

zawartość węgla = mała

zawartość węgla = duża

2

zawartość manganu = mała zawartość manganu = duża

3

zawartość krzemu = mała

zawartość krzemu = duża

4

zawartość miedzi = mała

zawartość miedzi  {średnia, duża}

5

zawartość miedzi = średnia zawartość miedzi  {mała, duża}

6

zawartość miedzi = duża

zawartość miedzi  {mała, średnia}

7

zawartość magnezu = mała zawartość magnezu = duża

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

R

N

N

L

L

N

L

zawartość Si

5 mała, 1 średnia
zawartość Mn

duża 6

mała 14

8 średnia, 6 duża
zawartość Mn

duża 9

mała 5

5 średnia3 średnia, 6 duża

duża 1

mała 5

5 mała

1 średnia

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm C 4.5

Algorytm  ID3  jest  jednym  z  algorytmów 

operujących 

na 

drzewach 

decyzyjnych, 

opracowanym  w  1986  roku  przez  Rossa  Quinlana. 
Cechą  charakterystyczną  algorytmu  jest  wybór 
atrybutów,  dla  których  kolejno  przeprowadzane  są 
testy  pozwalające,  by  końcowe  drzewo  było  jak 
najprostsze  i  jak  najefektywniejsze.  Wybór  atrybutu 
bazuje  na  liczeniu  entropii.  Algorytm  C4.5  jest 
rozwinięciem  algorytmu  ID3  opracowanym  w  1993 
roku również przez Quinlana.

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm C 4.5

  

Algorytmy C4.5 nie jest ograniczony do 

binarnych podziałów. Podczas, gdy CART tworzy 
drzewo binarne, C4.5 tworzy drzewo o bardziej 
zróżnicowanym kształcie.

  

Dla zmiennych jakościowych algorytm C4.5 z 

definicji tworzy osobne gałęzie dla każdej wartości 
atrybutu jakościowego. Może to powodować 
nadmierne rozgałęzienie.

  

Metoda mierzenia jednorodności w 

algorytmie C4.5 jest zupełnie inna niż w 
algorytmie CART i używa pojęcia zysk informacji 
lub redukcja entropii.

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm C 4.5

H(X) =  –Σ p

j

 log

2

(p

j

)

Dla zmiennej X przyjmującej k możliwych 
wartości z prawdopodobieństwem p 
odpowiednio p

1

, p

2

, …p

i

, można zdefiniować 

wielkość nazwaną entropią X określoną 
wzorem:

background image

 

 

VII          EKSPLORACJA DANYCH

Algorytm C 4.5

Dla założenia, że możliwy jest podział S, 
dzielący zbiór T na kilka podzbiorów T

1

, T

2

, … 

T

k

, wówczas ważona suma entropii dla 

pojedynczych podzbiorów określona jest 
wzorem:

H

S

(T) =  Σ P

 H

S

(T

i

)

i=1

k

background image

 

 

VII          EKSPLORACJA DANYCH

H(X) =  –Σ p

j

 log

2

(p

j

)

H

S

(T) =  Σ P

 H

S

(T

i

)

i=1

k

background image

 

 

VII          EKSPLORACJA DANYCH

H(X) =  –Σ p

j

 log

2

(p

j

)

Wytrzymałość:
mała – 5 
średnia – 9
duża – 6

background image

 

 

VII          EKSPLORACJA DANYCH

R

N

N

zawartość C

3 mała,
5 średnia,
1 duża

duża 9

mała 11

2 mała,
4 średnia,
5 duża

background image

 

 

VII          EKSPLORACJA DANYCH

R

N

N

zawartość C

3 mała,
5 średnia,
1 duża

duża 9

mała 11

2 mała,
4 średnia,
5 duża

background image

 

 

VII          EKSPLORACJA DANYCH

background image

 

 

VII          EKSPLORACJA DANYCH

R

N

N

zawartość Cu

0 mała,
0 średnia,
5 duża

duża 5

mała 9

5 mała,
4 średnia,
0 duża

N

0 mała,
5 średnia,
1 duża

średnia 6

background image

 

 

VII          EKSPLORACJA DANYCH

Wady drzew decyzyjnych

  

im więcej klas oraz im bardziej się one 

nakładają, 

tym większe drzewo decyzyjne

  

trudno zapewnić jednocześnie wysoką 

jakość 

klasyfikacji i małe rozmiary drzewa

  

w węzłach testowany jeden 

atrybut

background image

 

 

VII          EKSPLORACJA DANYCH

Wady drzew decyzyjnych nadmierne 
dopasowanie

  nadmierne uczenie prowadzi do 

dopasowania także do zaszumionych danych

  zbudowane drzewo dobrze radzi sobie z 

danymi ze zbioru uczącego i źle z danymi ze 
zbioru testującego

  drzewo ma niską zdolność do generalizacji 

dla nowych danych

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: dlaczego ?

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: przycinanie

dead 
branc
h

codominant 
stems

included 
bark

dead 
branch

water 
sprouts

broken 
branch

decay

sucke
r

Źródło:
Vancouver Urban Forestry 
www.cityofvancouver.us/urbanforestry

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: przycinanie

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: dlaczego ?

Czy przycinanie poprawia dokładność:

 w większości przypadków TAK,

 ale efekty zależą od obszaru 

zastosowania

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew może być 

prowadzone na dwa sposoby:

 pre – pruning (fw) polegający na 

zatrzymaniu rozrostu drzewa jeśli prowadzi 
to do tworzenia węzłów i liści grupujących 
nieliczne przypadki

 post – pruning, w którym prowadzimy do 

wzrostu pełnego drzewa i dopiero wówczas 
dokonujemy cięć

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Pre-pruning

Post-pruning

 pre – pruning (fw) jest uważany za rozwiązanie gorsze

 post – pruning, wykorzystuje poddrzewa (potomków)

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew metodami post:

 zbuduj pełne drzewo decyzyjne, 

pozwalając nawet na nadmierne 
dopasowanie

 przekształć drzewo w zbiór reguł 

decyzyjnych

 przycinaj każdą regułę niezależnie od 

innych

 uporządkuj pozostałe reguły w 

sekwencję zdań gotową do użycia

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew metodami post:

 reduced error pruning REP

 minimum error pruning 

MEP

 pessimistic error pruning 

PEP

 error - based pruning 

EBP

 cost - complexity pruning 

CCP

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Zbiór danych

Zbiór uczący

Zbiór do wzrostu drzewa

Zbiór do przycinania drzewa

Zbiór testujący

70 %

30 %

70 %

30 %

Typowy (powszechnie stosowany) podział danych na zbiory:

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: 

REP

Algorytm postępowania w metodzie 

REP:

 zbuduj drzewo korzystając z całego zbioru 

uczącego

 losowo wybierz i usuń węzeł

 zamień węzeł w jego większościową 

reprezentację

 jeśli zmodyfikowane drzewo sprawdzane na 

zbiorze testującym jest tak samo dobre lub 
lepsze od drzewa podstawowego zastosuj je

 powróć do punktu 2

background image

 

 

VII          EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: REP,MEP,PEP

Większość algorytmów przycinania (reduced error 
pruning, pessimistic error pruning, minimum error 
pruning) opiera się na następującym schemacie:

repeat

przeglądaj węzły wewnętrzne drzewa T
if błąd dla poddrzewa T

t

 > błąd dla liścia t 

then

zastąp poddrzewo T

t

 liściem

przypisz do liścia t etykietę

odpowiedniej

klasy

end if
until
 przycinanie zmniejsza błąd

Poszczególne metody różnią się sposobem szacowania błędu oraz 
kolejnością przeglądania węzłów drzewa.


Document Outline