Klasyfikacja - drzewa decyzyjne

VII EKSPLORACJA DANYCH

Jak drzewa decyzyjne wybierają atrybut
dzielący:

Drzewa decyzyjne starają się stworzyć zbiór liści,
które są najczystsze, tzn. takie które zawierają
jak najwięcej rekordów należących do tej samej
klasy. W ten sposób drzewa decyzyjne
zapewniają przypisanie do klasy z największą
miarą ufności.

Metod określania jednorodności będącej miarą
czystości liści jest wiele, a dwie
najpopularniejsze to:

Algorytm drzew klasyfikacyjnych i regresyjnych

CART

Algorytm C4.5

VII EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

(s│t) = 2 P



(s│t)

gdzie:



(s│t) =

│

P(j│t

) – P(j│t

)

│

VII EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

liczba rekordów w t

liczba rekordów w zbiorze uczącym

liczba rekordów w t

liczba rekordów w zbiorze uczącym

(s│t) = 2 P



(s│t)

VII EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART



(s│t) =

│

P(j│t

) – P(j│t

)

│

P(j│t

) =

liczba rekordów należących do klasy j w t

liczba rekordów w t

P(j│t

) =

liczba rekordów należących do klasy j w t

liczba rekordów w t

VII EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

Podział Lewe poddrzewo

Prawe poddrzewo

zawartość węgla = mała

zawartość węgla = duża

zawartość manganu = mała zawartość manganu = duża

zawartość krzemu = mała

zawartość krzemu = duża

zawartość miedzi = mała

zawartość miedzi  {średnia, duża}

zawartość miedzi = średnia zawartość miedzi  {mała, duża}

zawartość miedzi = duża

zawartość miedzi  {mała, średnia}

zawartość magnezu = mała zawartość magnezu = duża

VII EKSPLORACJA DANYCH

Algorytm drzew klasyfikacyjnych CART

zawartość Si

5 mała, 1 średnia
zawartość Mn

duża 6

mała 14

8 średnia, 6 duża
zawartość Mn

duża 9

mała 5

5 średnia3 średnia, 6 duża

duża 1

mała 5

5 mała

1 średnia

VII EKSPLORACJA DANYCH

Algorytm C 4.5

Algorytm ID3 jest jednym z algorytmów

operujących

drzewach

decyzyjnych,

opracowanym  w  1986  roku  przez  Rossa  Quinlana.
Cechą  charakterystyczną  algorytmu  jest  wybór
atrybutów,  dla  których  kolejno  przeprowadzane  są
testy  pozwalające,  by  końcowe  drzewo  było  jak
najprostsze  i  jak  najefektywniejsze.  Wybór  atrybutu
bazuje  na  liczeniu  entropii.  Algorytm  C4.5  jest
rozwinięciem  algorytmu  ID3  opracowanym  w  1993
roku również przez Quinlana.

VII EKSPLORACJA DANYCH

Algorytm C 4.5

•

Algorytmy C4.5 nie jest ograniczony do

binarnych podziałów. Podczas, gdy CART tworzy
drzewo binarne, C4.5 tworzy drzewo o bardziej
zróżnicowanym kształcie.

•

Dla zmiennych jakościowych algorytm C4.5 z

definicji tworzy osobne gałęzie dla każdej wartości
atrybutu jakościowego. Może to powodować
nadmierne rozgałęzienie.

•

Metoda mierzenia jednorodności w

algorytmie C4.5 jest zupełnie inna niż w
algorytmie CART i używa pojęcia zysk informacji
lub redukcja entropii.

VII EKSPLORACJA DANYCH

Algorytm C 4.5

H(X) = –Σ p

log

)

Dla zmiennej X przyjmującej k możliwych
wartości z prawdopodobieństwem p
odpowiednio p

, p

, …p

, można zdefiniować

wielkość nazwaną entropią X określoną
wzorem:

VII EKSPLORACJA DANYCH

Algorytm C 4.5

Dla założenia, że możliwy jest podział S,
dzielący zbiór T na kilka podzbiorów T

, T

, …

, wówczas ważona suma entropii dla

pojedynczych podzbiorów określona jest
wzorem:

(T) = Σ P

)

i=1

VII EKSPLORACJA DANYCH

H(X) = –Σ p

log

)

(T) = Σ P

)

i=1

VII EKSPLORACJA DANYCH

H(X) = –Σ p

log

)

Wytrzymałość:
mała – 5
średnia – 9
duża – 6

VII EKSPLORACJA DANYCH

zawartość C

3 mała,
5 średnia,
1 duża

duża 9

mała 11

2 mała,
4 średnia,
5 duża

VII EKSPLORACJA DANYCH

zawartość C

3 mała,
5 średnia,
1 duża

duża 9

mała 11

2 mała,
4 średnia,
5 duża

VII EKSPLORACJA DANYCH

zawartość Cu

0 mała,
0 średnia,
5 duża

duża 5

mała 9

5 mała,
4 średnia,
0 duża

0 mała,
5 średnia,
1 duża

średnia 6

VII EKSPLORACJA DANYCH

Wady drzew decyzyjnych

•

im więcej klas oraz im bardziej się one

nakładają,

tym większe drzewo decyzyjne

•

trudno zapewnić jednocześnie wysoką

jakość

klasyfikacji i małe rozmiary drzewa

•

w węzłach testowany jeden

atrybut

VII EKSPLORACJA DANYCH

Wady drzew decyzyjnych nadmierne
dopasowanie

•

nadmierne uczenie prowadzi do

dopasowania także do zaszumionych danych

•

zbudowane drzewo dobrze radzi sobie z

danymi ze zbioru uczącego i źle z danymi ze
zbioru testującego

•

drzewo ma niską zdolność do generalizacji

dla nowych danych

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: przycinanie

dead
branc
h

codominant
stems

included
bark

dead
branch

water
sprouts

broken
branch

decay

sucke
r

Źródło:
Vancouver Urban Forestry
www.cityofvancouver.us/urbanforestry

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: dlaczego ?

Czy przycinanie poprawia dokładność:

•

w większości przypadków TAK,

•

ale efekty zależą od obszaru

zastosowania

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew może być

prowadzone na dwa sposoby:

•

pre – pruning (fw) polegający na

zatrzymaniu rozrostu drzewa jeśli prowadzi
to do tworzenia węzłów i liści grupujących
nieliczne przypadki

•

post – pruning, w którym prowadzimy do

wzrostu pełnego drzewa i dopiero wówczas
dokonujemy cięć

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Pre-pruning

Post-pruning

•

pre – pruning (fw) jest uważany za rozwiązanie gorsze

•

post – pruning, wykorzystuje poddrzewa (potomków)

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew metodami post:

•

zbuduj pełne drzewo decyzyjne,

pozwalając nawet na nadmierne
dopasowanie

•

przekształć drzewo w zbiór reguł

decyzyjnych

•

przycinaj każdą regułę niezależnie od

innych

•

uporządkuj pozostałe reguły w

sekwencję zdań gotową do użycia

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Przycinanie drzew metodami post:

•

reduced error pruning REP

•

minimum error pruning

MEP

•

pessimistic error pruning

PEP

•

error - based pruning

EBP

•

cost - complexity pruning

CCP

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: metody

Zbiór danych

Zbiór uczący

Zbiór do wzrostu drzewa

Zbiór do przycinania drzewa

Zbiór testujący

70 %

30 %

70 %

30 %

Typowy (powszechnie stosowany) podział danych na zbiory:

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania:

REP

Algorytm postępowania w metodzie

REP:

•

zbuduj drzewo korzystając z całego zbioru

uczącego

•

losowo wybierz i usuń węzeł

•

zamień węzeł w jego większościową

reprezentację

•

jeśli zmodyfikowane drzewo sprawdzane na

zbiorze testującym jest tak samo dobre lub
lepsze od drzewa podstawowego zastosuj je

•

powróć do punktu 2

VII EKSPLORACJA DANYCH

Unikanie nadmiernego dopasowania: REP,MEP,PEP

Większość algorytmów przycinania (reduced error
pruning, pessimistic error pruning, minimum error
pruning) opiera się na następującym schemacie:

repeat

przeglądaj węzły wewnętrzne drzewa T
if błąd dla poddrzewa T

> błąd dla liścia t

then

zastąp poddrzewo T

liściem

przypisz do liścia t etykietę

odpowiedniej

klasy

end if
until przycinanie zmniejsza błąd

Poszczególne metody różnią się sposobem szacowania błędu oraz
kolejnością przeglądania węzłów drzewa.

Document Outline