Przyk÷

ad drzewa

Aura

Temperatura

Wilgotno´s´c

Wiatr

Klasa

s÷

oneczna

wysoka

du·

nie

s÷

oneczna

wysoka

du·

tak

pochmurna

wysoka

du·

nie

deszczowa

´srednia

du·

nie

deszczowa

niska

normalna

nie

deszczowa

niska

normalna

tak

pochmurna

niska

normalna

tak

s÷

oneczna

´srednia

du·

nie

s÷

oneczna

niska

normalna

nie

deszczowa

´srednia

normalna

nie

s÷

oneczna

´srednia

normalna

tak

pochmurna

´srednia

du·

tak

pochmurna

wysoka

normalna

nie

deszczowa

´srednia

du·

tak

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

2 / 35

Przyk÷

ad - regu÷

y wynikaj ¾

ace z drzewa

Aura

Temperatura

Wilgotno´s´c

Wiatr

Klasa

s÷

oneczna

wysoka

du·

nie

s÷

oneczna

wysoka

du·

tak

pochmurna

wysoka

du·

nie

deszczowa

´srednia

du·

nie

deszczowa

niska

normalna

nie

deszczowa

niska

normalna

tak

pochmurna

niska

normalna

tak

s÷

oneczna

´srednia

du·

nie

s÷

oneczna

niska

normalna

nie

deszczowa

´srednia

normalna

nie

s÷

oneczna

´srednia

normalna

tak

pochmurna

´srednia

du·

tak

pochmurna

wysoka

normalna

nie

deszczowa

´srednia

du·

tak

: If Aura = pochmurna, then Klasa = 1

(4 przypadki)

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

4 / 35

Przyk÷

ad - regu÷

y wynikaj ¾

ace z drzewa - c.d.

Aura

Temperatura

Wilgotno´s´c

Wiatr

Klasa

s÷

oneczna

wysoka

du·

nie

s÷

oneczna

wysoka

du·

tak

pochmurna

wysoka

du·

nie

deszczowa

´srednia

du·

nie

deszczowa

niska

normalna

nie

deszczowa

niska

normalna

tak

pochmurna

niska

normalna

tak

s÷

oneczna

´srednia

du·

nie

s÷

oneczna

niska

normalna

nie

deszczowa

´srednia

normalna

nie

s÷

oneczna

´srednia

normalna

tak

pochmurna

´srednia

du·

tak

pochmurna

wysoka

normalna

nie

deszczowa

´srednia

du·

tak

: If Aura = s÷

oneczna,

Wilgotno´s´c = du·

za, then Klasa = 0

przypadki)

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

5 / 35

Rekurencyjna de…nicja drzewa decyzyjnego

X - dziedzina atrybutów a

, . . . , a

C - zbiór kategorii.
R

, . . . , r

- zbiór mo·

zliwych wyników testu t.

Drzewo

Li´s´c z etykiet ¾

a d

C jest drzewem decyzyjnym.

Je´sli t : X

jest testem przeprowadzonym na warto´sciach

atrybutów przyk÷

adów o zbiorze mo·

zliwych wyników R

oraz

, . . . , T

s ¾

a drzewami decyzyjnymi, to w ¾

eze÷zawieraj ¾

acy test t, z

którego wychodzi m ga÷¾

ezi, przy czym dla i

1, . . . , m ga÷¾

a´z i -ta

odpowiada wynikowi r

i prowadzi do drzew T

, jest drzewem

decyzyjnym.

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

6 / 35

Zst ¾

epuj ¾

aca budowa drzewa decyzyjnego (Top-Down

Induction of Decision Trees)

funkcja buduj_drzewo

(

P, d , S

)

P - zbiór przyk÷

adów etykietowanych kategoriami c,

Np. dla c

1 mamy P

, dla c

0 mamy P

P dotyczy ka·

zdej kolumny, np. dla c

1 i atrybutu “Aura” jest

Aura

Aura_sloneczna

[

Aura_pochmurna

[

Aura_deszczowa

d - etykieta kategorii,

S - zbiór mo·

zliwych testów;

zwraca: drzewo decyzyjne reprezentuj ¾

ace hipotez ¾

e przybli·

zaj ¾

ac ¾

a c na

zbiorze P;

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

8 / 35

Zst ¾

epuj ¾

aca budowa drzewa decyzyjnego (Top-Down

Induction of Decision Trees) - c.d.

If kryterium_stopu

(

P, S

)

utwórz li´s´c l;

kategoria

(

P, d

)

;

zwró´c l;

end

Utwórz w ¾

eze÷n;

wybierz_test

(

P, S

)

;

d :

kategoria

(

P, d

)

;

for

[

]

buduj_drrzewo

(

, d , S

;

end

zwró´c n.

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

9 / 35

Testy atrybutów

(

) =

(

) =

oth.

(

) =

(

)

oth.

(

) =

(

)

oth.

Test powinien by´c dopasowany do problemu a drzewo w miar ¾

e mo·

zliwo´sci

proste.

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

10 / 35

Przyk÷

ad - który atrybut wybra´c do podzia÷

Aura

deszczowa

pochmurna

sloneczna

0,0

0,0,0

1,1,1

1,1,1,1

1,1

5/14

0.3571

4/14

0.2857

5/14

0.3571

Temperatura

niska

srednia

wysoka

0,0

1,1,1

1,1,1,1

1,1

4/14

0.2857

6/14

0.4286

4/14

0.2857

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

11 / 35

Przyk÷

ad - który atrybut wybra´c do podzia÷

u? - c.d.

Wilgotnosc

duza

normalna

0,0,0,0

1,1,1

1,1,1,1,1,1

7/14

0.5

7/14

0.5

Wiatr

nie

tak

0,0,0

1,1,1,1,1,1

1,1,1

8/14

0.5714

6/14

0.4286

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

12 / 35

Teoria: informacja i entropia

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

∑

log

(mo·

ze by´c inny log

( )

ale konsekwentnie).

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na wynik r testu t

t ,r

(

) =

∑

t ,r

log

t ,r

jest du·

za, je·

zeli w´sród przyk÷

adów ze zbioru P, dla których test t daje

wynik r , rozk÷

ad na kategorie jest równomierny.

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

13 / 35

Teoria: ´srednia wa·

zona entropii i przyrost informacji

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na test t jest ´sredni ¾

a wa·

zon ¾

entropii dla poszczególnych wyników testu:

(

) =

∑

t ,r

(

)

, E

(

) =

∑

log

Przyrost informacji (information gain) po zastosowania testu t do zbioru
przyk÷

adów P:

(

) =

(

)

(

)

= inf. przed rozdzieleniem “minus” inf. po rozdzieleniu. Miara

ró·

znorodno´sci klas. W w ¾

e´zle wybieramy test maksymalizuj ¾

acy przyrost

informacji:

max

(

Informacja I

(

)

nie zale·

zy od ocenianego testu (dla zbioru przyk÷

adów

P), czyli minimalizujemy entropi ¾

e E

(

)

, a wi ¾

ec maksymalizujemy

ró·

znorodno´s´c klas.

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

14 / 35

Interpretacja entropii

Dla dwuelementowego zbioru kategorii C

= f

0, 1

,przyjmuj ¾

t ,r

)

(

) =

(

)

, p

)

t ,r

(

) =

(

)

(

) =

p log

(

)

log

(

)

0.0 0.2 0.4 0.6

0.8 1.0

0.0

0.5

1.0

E(p)

Maksymalna entropia jest zawarta w zbiorze przyk÷

adów o równomiernym

rozk÷

adzie kategorii. E

0 dla p

0 lub p

1, czyli informacja(entropia)

jest tym mniejsza, im bardziej wyra´zna jest przewaga jednej kategorii nad
drug ¾

a (w ¾

eze÷bardziej “czysty”).

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

15 / 35

Przyk÷

ad - obliczenia dla atrybutu “Aura”

Liczno´sci zbiorów potrzebne do wyznaczenia wartosci przyrostu informacji
dla testu to·

zsamo´sciowego na warto´sciach atrybutu “aura”.

= f

0, 1

, P

= jf

3, 4, 5, 7, 9, 10, 11, 12, 13

gj =

= jf

1, 2, 6, 8, 14

gj =

Aura_sloneczna

= jf

1, 2, 8, 9, 11

gj =

Aura_sloneczna

= jf

9, 11

gj =

Aura_sloneczna

= jf

1, 2, 8

gj =

Aura_pochmurna

= jf

3, 7, 12, 13

gj =

Aura_pochmurna

= jf

3, 7, 12, 13

gj =

Aura_pochmurna

= j

∅

j =

Aura_deszczowa

= jf

4, 5, 6, 10, 14

gj =

Aura_deszczowa

= jf

4, 5, 10

gj =

Aura_deszczowa

= jf

6, 14

gj =

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

16 / 35

Przyk÷

ad - obliczenia dla atrybutu “Aura” - c.d.

Aura_sloneczna

(

) =

log

0.971

Aura_pochmurna

(

) =

log

Aura_deszczowa

(

) =

log

0.971

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

17 / 35

Przyk÷

ad - obliczenia dla atrybutu “aura” - c.d.

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na test t jest ´sredni ¾

a wa·

zon ¾

entropii dla poszczególnych wyników testu:

Aura

(

) =

∑

t ,r

(

) =

Aura_sloneczna

j + j

Aura_sloneczna

(

) +

Aura_pochmurna

j + j

Aura_pochmurna

(

) +

Aura_deszczowa

j + j

Aura_deszczowa

(

)

Aura

(

) =

0.971

0.694

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

∑

log

0.940

Przyrost informacji dla atrybutu “Aura”:
g

(

) =

(

)

(

) =

0.940

0.694

0.246

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

18 / 35

Przyk÷

ad - obliczenia dla atrybutu “Temperatura”

Liczno´sci zbiorów potrzebne do wyznaczenia wartosci przyrostu informacji
dla testu to·

zsamo´sciowego na warto´sciach atrybutu “Temperatura”.

= f

0, 1

, P

= jf

3, 4, 5, 7, 9, 10, 11, 12, 13

gj =

= jf

1, 2, 6, 8, 14

gj =

Temp_wysoka

= jf

1, 2, 3, 13

gj =

Temp_wysoka

= jf

3, 13

gj =

Temp_wysoka

= jf

1, 2

gj =

Temp_srednia

= jf

4, 8, 10, 11, 12, 14

gj =

Temp_srednia

= jf

4, 10, 11, 12

gj =

Temp_srednia

= jf

8, 14

gj =

Temp_niska

= jf

5, 6, 7, 9

gj =

Temp_niska

= jf

5, 7, 9

gj =

Temp_niska

= jf

gj =

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

19 / 35

Przyk÷

ad - obliczenia dla atrybutu “Temperatura” - c.d.

Temp_wysoka

(

) =

log

Temp_srednia

(

) =

log

0.918

Temp_niska

(

) =

log

0.811

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

20 / 35

Przyk÷

ad - obliczenia dla atrybutu “Temperatura” - c.d.

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na test t jest ´sredni ¾

a wa·

zon ¾

entropii dla poszczególnych wyników testu:

Temperatura

(

) =

∑

t ,r

(

) =

Temp_wysoka

j + j

Temp_wysoka

(

) +

Temp_srednia

j + j

Temp_srednia

(

) +

Temp_niska

j + j

Temp_niska

(

)

Temperatura

(

) =

0.918

0.811

0.911

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

∑

log

0.940

Przyrost informacji dla atrybutu “Temperatura”:
g

(

) =

(

)

(

) =

0.940

0.911

0.029

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

21 / 35

Przyk÷

ad - obliczenia dla atrybutu “Wilgotnosc” - c.d.

= f

0, 1

, P

= jf

3, 4, 5, 7, 9, 10, 11, 12, 13

gj =

= jf

1, 2, 6, 8, 14

gj =

Wilgotnosc_duza

= jf

1, 2, 3, 4, 8, 12, 14

gj =

Wilgotnosc_duza

= jf

3, 4, 12

gj =

Wilgotnosc_duza

= jf

1, 2, 8, 14

gj =

Wilgotnosc_normalna

= jf

5, 6, 7, 9, 10, 11, 13

gj =

Wilgotnosc_normalna

= jf

gj =

Wilgotnosc_normalna

= jf

5, 7, 9, 10, 11, 13

gj =

Wilgotnosc_duza

(

) =

log

0.985

Wilgotnosc_normalna

(

) =

log

0.592

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

22 / 35

Przyk÷

ad - obliczenia dla atrybutu “Wilgotnosc” - c.d.

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na test t jest ´sredni ¾

a wa·

zon ¾

entropii dla poszczególnych wyników testu:

Wilgotnosc

(

) =

∑

t ,r

(

) =

Wilgotnosc_duza

j + j

Wilgotnosc_duza

(

) +

Wilgotnosc_normalna

j + j

Wilgotnosc_normalna

(

)

Wilgotnosc

(

) =

0.985

0.592

0.788

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

∑

log

0.940

Przyrost informacji dla atrybutu “Wilgotnosc”:
g

(

) =

(

)

(

) =

0.940

0.788

0.152

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

23 / 35

Przyk÷

ad - obliczenia dla atrybutu “Wiatr” - c.d.

= f

0, 1

= jf

3, 4, 5, 7, 9, 10, 11, 12, 13

gj =

9, P

= jf

1, 2, 6, 8, 14

gj =

Wiatr_nie

= jf

1, 3, 4, 5, 8, 9, 10, 13

gj =

Wiatr_nie

= jf

3, 4, 5, 9, 10, 13

gj =

Wiatr_nie

= jf

1, 8

gj =

Wiatr_tak

= jf

2, 6, 7, 11, 12, 14

gj =

Wiatr_tak

= jf

7, 11, 12

gj =

Wiatr_tak

= jf

2, 6, 14

gj =

Wiatr_nie

(

) =

log

0.811

Wiatr_tak

(

) =

log

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

24 / 35

Przyk÷

ad - obliczenia dla atrybutu “Wiatr” - c.d.

Entropia zbioru przyk÷

adów P ze wzgl ¾

edu na test t jest ´sredni ¾

a wa·

zon ¾

entropii dla poszczególnych wyników testu:

Wiatr

(

) =

∑

t ,r

(

) =

Wiatr_nie

j + j

Wiatr_nie

(

) +

Wiatr_tak

j + j

Wiatr_tak

(

)

Wiatr

(

) =

0.811

0.892

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

∑

log

0.940

Przyrost informacji dla atrybutu “Wiatr”:
g

(

) =

(

)

(

) =

0.940

0.892

0.048

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

25 / 35

Przyk÷

ad - przyrost informacji w wierzcho÷

ku 1

Przyrost informacji dla atrybutu “Aura”: g

(

) =

0.246

Przyrost informacji dla atrybutu “Temperatura”: g

(

) =

0.029

Przyrost informacji dla atrybutu “Wilgotnosc”: g

(

) =

0.152

Przyrost informacji dla atrybutu “Wiatr”: g

(

) =

0.048

W w ¾

e´zle 1 wybieramy test maksymalizuj ¾

acy przyrost informacji:

max

(

Wniosek: Atrybut “Aura” maksymalizuje przyrost informacji

)

wybieramy do podzia÷

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

26 / 35

Przyk÷

ad - dalszy podzia÷

Przyrost informacji dla atrybutu “Temperatura”: g

(

) =

0.571

Przyrost informacji dla atrybutu “Wilgotnosc”: g

(

) =

0.971

Przyrost informacji dla atrybutu “Wiatr”: g

(

) =

0.020

Wybieramy test maksymalizuj ¾

acy przyrost informacji:

max

(

Wniosek: Atrybut “Wilgotnosc” maksymalizuje przyrost informacji

)

wybieramy do podzia÷

Podzia÷w oparciu o zysk informacyjny (Interactive Dichotomizer
version 3, ID3).

Proces budowy drzewa zatrzymuje si ¾

e gdy spe÷

nione jest kryterium

stopu (np. dalszy podzia÷nie jest mo·

zliwy).

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

28 / 35

Drzewa decyzyjne - indeks Giniego

Zamiast minimalizacji entropii E

t ,r

(

) =

∑

t ,r

log

t ,r

lepiej jest minimalizowa´c indeks Giniego (Gini index):

t ,r

(

) =

∑

t ,r

0.0

0.2 0.4

0.6 0.8

1.0

0.0

0.5

1.0

E,G

Wykresy: E

p log

(

)

log

(

)

, Q

(

)

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

29 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Entropia: C

= f

1, 2

, P

8, P

4, P

Atrybut L: P

4, P

3, P

L,1

(

) =

log

0.81128

L,2

(

) =

log

0.81128

(

) =

L,1

(

) +

L,2

(

) =

0.81128

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

30 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

ad, c.d.

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Atrybut R: P

4, P

1, P

R,1

(

) =

log

0.81128

R,2

(

) =

log

0.81128

(

) =

R,1

(

) +

R,2

(

) =

0.81128

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

31 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

ad, c.d.

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Entropia: C

= f

1, 2

, P

8, P

4, P

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

log

4
8

log

4
8

log

4
8

1.0

Przyrost informacji wed÷

ug entropii:

Lewy: g

(

) =

(

)

(

) =

0.81128

0.18872

Prawy: g

(

) =

(

)

(

) =

0.81128

0.18872

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

32 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

ad, c.d.

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Gini: C

= f

1, 2

, P

8, P

4, P

Atrybut L: P

4, P

3, P

L,1

(

) =

3
4

0.375

L,2

(

) =

1
4

0.375

(

) =

L,1

(

) +

L,2

(

) =

0.375

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

33 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

ad, c.d.

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Gini: C

= f

1, 2

, P

8, P

4, P

Atrybut R: P

4, P

1, P

R,1

(

) =

1
4

0.375

R,2

(

) =

3
4

0.375

(

) =

R,1

(

) +

R,2

(

) =

0.375

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

34 / 35

Drzewa decyzyjne - indeks Giniego: przyk÷

ad, c.d.

Kl1:4
Kl2:4

Kl1:3

Kl1:1

Kl2:1

Kl2:3

Gini: C

= f

1, 2

, P

8, P

4, P

Informacja zawarta w zbiorze etykietowanych przyk÷

adów P

(

) =

4
8

1.0

Przyrost informacji wed÷

ug indeksu Giniego jest wi ¾

ekszy ni·

z dla entropii:

Lewy: g

(

) =

(

)

(

) =

0.375

0.625

0.18872

Prawy: g

(

) =

(

)

(

) =

0.375

0.625

0.18872

Jacek Kluska (Politechnika Rzeszowska)

(Decision Trees)

2010

35 / 35

Document Outline