Microsoft Word - PozyskiwanieWiedzy.doc

Gliwice 2013-02-05

- 1/8 -

Instytut

Podstaw

Konstrukcji

Maszyn

Wydział

Mechaniczny

Technologiczny

Politechnika

ska

ul. Konarskiego 18a

44-100 Gliwice

tel. 237 1467
fax 237 1360

http://ipkm.polsl.pl

Metody sztucznej
inteligencji

Pozyskiwanie wiedzy

Rok akademicki 2012/13

Opracował: dr in

. K. Ciupke

Gliwice 2013-02-05

- 2/8 -

1. Cel

wiczenia

Celem

wiczenia jest zapoznanie si

z zagadnieniami pozyskiwania wiedzy z baz

danych i nabycie praktycznych umiej

tno

ci zarówno w zakresie pozyskiwania

wiedzy jak i jej oceny.

2. Wprowadzenie

Wiedza, któr

nast

pnie mo

e by

yta w systemach sztucznej inteligencji, mo

pozyskiwana z dwóch głównych

ródeł:

•

od specjalistów z danej dziedziny (bezpo

rednio lub po

rednio poprzez np.

publikacje)

•

z baz danych.

Pozyskiwanie wiedzy od specjalistów nastr

cza wiele ró

norakich problemów, m.in.:

•

jest czasochłonne,

•

jest mało efektywne,

•

nie bez znaczenia jest równie

niech

ęć

specjalistów do dzielenia si

swoj

wiedz

Dlatego te

bazy danych stały si

przedmiotem zainteresowania jako

ródło

potencjalnej wiedzy.

Jedn

z cz

sto stosowanych form pozyskiwanej wiedzy s

tzw. klasyfikatory, czyli

wiedza (w postaci np. reguł lub drzew decyzyjnych) pozwalaj

ca na

przyporz

dkowanie

analizowanych

danych

okre

lonych

klas

(np. przyporz

dkowanie ro

liny do odpowiedniego gatunku na podstawie opisuj

cych

danych). Innym sposobem pozyskiwania wiedzy z baz danych jest odkrywanie

zale

ci funkcyjnych pomi

dzy danymi w bazie danych. Zagadnienie to nie jest

jednak przedmiotem niniejszego laboratorium.

3. Przykładowe zadanie

Wzi

to pod uwag

trzy, trudne do rozró

nienia, gatunki irysów:

•

setosa,

•

versicolor,

•

virginica,

Dokonano pomiarów wybranych cech kwiatów tych ro

lin, mierz

c długo

ść

i szeroko

ść

kielichów oraz długo

ść

i szeroko

ść

płatków. W sumie zmierzono kwiaty

150 ro

lin, po 50 z ka

dego gatunku. Zadanie polega na pozyskaniu wiedzy,

pozwalaj

cej na rozró

nienie poszczególnych gatunków na podstawie warto

badanych cech.

3.1. Drzewa decyzyjne

Jedn

z form zapisu wiedzy s

drzewa decyzyjne. Istniej

algorytmy pozwalaj

ce na

pozyskiwanie wiedzy i zapisanie jej w postaci drzew. Przykładowe drzewo decyzyjne
pozyskane dla danych opisanych w punkcie 3. przedstawia Rys. 1.

Gliwice 2013-02-05

- 3/8 -

Z przedstawionego drzewa wynika,

e klasyfikacja odbywa si

w pierwszej kolejno

na podstawie szeroko

ci płatka. Je

eli szeroko

ść

ta jest mniejsza b

równa

0,6 mm to kwiat nale

y zaklasyfikowa

do gatunku setosa (w przypadku

analizowanych danych 50 przypadków zostało tak wła

nie zaklasyfikowanych).

eli natomiast szeroko

ść

płatka jest wi

ksza od 1,7 mm to mamy do czynienia

z gatunkiem virginica. W przypadku, gdy szeroko

ść

płatka jest mniejsza b

równa

1,7 mm, wówczas dalsza klasyfikacja jest mo

liwa dopiero po okre

leniu długo

płatka (je

eli długo

ść

płatka <= 4,9 mm to kwiat nale

y do gatunku versicolor - 48

przypadków z bazy sklasyfikowano w ten sposób) W przypadku, gdy długo

ść

płatka

byłaby wi

ksza od 4,9 mm nale

y znowu wzi

ąć

pod uwag

szeroko

ść

płatka i na tej

podstawie dokona

klasyfikacji pozostałych 6 przypadków.

Rys. 1. Przykładowe drzewo decyzyjne

3.2. Reguły

Inn

form

zapisu wiedzy s

reguły. Ogólna posta

reguły jest nast

puj

ca:

eli przesłanka to konkluzja

ęść

warunkowa

ęść

decyzyjna

Jest to posta

reguły prostej. Reguła zło

ona natomiast to taka, której cz

ęść

warunkowa składa si

z kilku przesłanek, np.:

eli przesłanka1 i przesłanka2 to konkluzja

Podobnie jak w przypadku drzew decyzyjnych, istniej

metody pozyskiwania wiedzy

z danych, pozwalaj

ce na generowanie wiedzy w postaci reguł. Jak mo

na łatwo

zauwa

, opisuj

c drzewo decyzyjne posłu

ono si

form

reguły:

eli szeroko

ść

płatka <= 0.6 to gatunek setosa

Gliwice 2013-02-05

- 4/8 -

eli szeroko

ść

płatka > 0.6 i szeroko

ść

płatka < 1.7 i

długo

ść

płatka <= 4.9 to gatunek versicolor

W istocie, obydwie formy zapisu s

sobie równowa

ne, tzn. ka

de drzewo decyzyjne

da si

zapisa

w postaci reguł i odwrotnie.

4. Przykład pozyskiwania wiedzy

Do przeprowadzenia

wiczenia zastosowano oprogramowanie: Orange 2.0b for

Windows (GNU General Public License) dost

pne na stronie

http://www.ailab.si/orange/

4.1. Pozyskiwanie wiedzy w postaci drzewa decyzyjnego

W systemie Orange zaimplementowano dwa algorytmy generowania drzew
decyzyjnych: algorytm Classification Tree oraz algorytm C4.5 [2]. Sposób tworzenia
drzew decyzyjnych w systemie Orange oraz ich wizualizacji przedstawiono na
Rys. 2. Drzewa przedstawiono w postaci graficznej jak i w postaci tekstowej.

Rys. 2. Przykład tworzenia i wizualizacji drzew decyzyjnych.

4.2. Pozyskiwanie wiedzy w postaci reguł

Algorytmy pozyskiwania reguł ró

od algorytmów tworzenia drzew

decyzyjnych, st

d te

wiedza pozyskana w postaci reguł i drzew decyzyjnych mo

w niektórych przypadkach ró

Gliwice 2013-02-05

- 5/8 -

Reguły, podobnie jak drzewa decyzyjne, mo

na pozyskiwa

z danych stosuj

c ró

algorytmy. W systemie Orange zaimplementowany jest algorytm CN2 [1]. Przykład
zastosowania algorytmu pozyskiwania reguł i ich prezentacji pokazano na Rys. 3.

Rys. 3. Przykład pozyskiwania wiedzy w postaci reguł

5. Ocena wiedzy

Istotnym zagadnieniem w przypadku pozyskiwania wiedzy jest jej ocena. Maj

c do

czynienia z wiedz

zapisan

w postaci klasyfikatorów, mo

emy ocenia

tzw. sprawno

ść

klasyfikacji. Im jest ona wy

sza, tym pozyskana wiedza jest „lepsza”.

Sprawno

ść

klasyfikatora wyznaczana jest na podstawie oceny poprawno

ci działania

(klasyfikacji) utworzonego klasyfikatora. Proces ten nosi nazw

testowania

klasyfikatora. Klasyfikator ma za zadanie sklasyfikowa

przypadki, które nie były

uwzgl

dniane w procesie jego pozyskiwania, a których poprawna klasyfikacja jest

znana. Wówczas wyznaczaj

c iloraz liczby poprawnie sklasyfikowanych przypadków

do liczby wszystkich przypadków testowych uzyskuje si

sprawno

ść

klasyfikacji.

Przyjmijmy nast

puj

ce oznaczenia:

•

cały zbiór dost

pnych danych nazywamy zbiorem danych ucz

cych –

•

zbiór danych zastosowanych do tworzenia klasyfikatora nazywamy zbiorem

danych trenuj

cych –

•

zbiór danych u

ytych do testowania okre

lamy mianem danych testowych –

W praktyce stosowanych jest kilka sposobów testowania klasyfikatorów:

1. losowy podział zbioru

na dwa rozł

czne podzbiory

∪

(ang. random

sampling), przy czym wielko

ść

zbiorów okre

lana jest procentowo np. 70%

przypadków w zbiorze

, pozostałe w zbiorze

2. podział zbioru

podzbiorów

U={U

, U

,…, U

)

, wówczas

L=U\U

, T=U

∀

i=(1,…,k)

(ang. cross-validation); najcz

ęś

ciej, operacj

tworzenia klasyfikatora i jego testowania dokonywana jest

-krotnie,

a uzyskane wyniki s

redniane,

3. ze zbioru

usuwany jest jeden przypadek

(

L=U\ u

), tworzony jest

klasyfikator, a zbiór testowy jest zbiorem jednoelementowym

L={u

}

(ang. leave-one-out); operacje powtarzana jest

-krotnie, gdzie

n=|U|

okre

liczno

ść

zbioru

Gliwice 2013-02-05

- 6/8 -

Do oceny pozyskanej wiedzy, w systemie Orange przewidziany jest widget Test
Lerners (por. Rys. 4). Uzyskane u

rednione wyniki mo

na przedstawi

np. w postaci

tzw. macierzy pomyłek (ang. confusion matrix) – Rys. 5, w której prezentowane s

liczby przypadków poprawnie i bł

dnie sklasyfikowanych, z podziałem na

poszczególne klasy.

Rys. 4. Schemat pozyskiwania wiedzy w postaci reguł i drzew decyzyjnych oraz

sposób prezentacji wyników jej oceny

Rys. 5. Macierz pomyłek

Szczegółowe

wyniki

dotycz

np.

dokładno

klasyfikacji

(sprawno

klasyfikatora) mo

na znale

źć

w informacjach podawanych przez widget Test lerners

(por. Rys. 6).

Gliwice 2013-02-05

- 7/8 -

Rys. 6. Wyniki podawane przez widget Test lerners

Na jednym schemacie mo

na zastosowa

kilka metod pozyskiwania wiedzy i jej

oceny, co pokazano na Rys. 7.

Rys. 7. Przykład zastosowania kilku metod pozyskiwania wiedzy jednocze

nie

Dane stosowane w procesie pozyskiwania wiedzy mo

emy wst

pnie przetworzy

m.in. podda

procesowi dyskretyzacji (zamieni

dane ci

głe na dane dyskretne) i/lub

wybra

cechy, które b

uwzgl

dniane w procesie pozyskiwania wiedzy. Przykłady

tego typu działa

w systemie Orange przedstawia Rys. 8.

Gliwice 2013-02-05

- 8/8 -

Rys. 8. Proces pozyskiwania wiedzy uwzgl

dniaj

cy dyskretyzacj

warto

ci i

selekcj

cech

6. Zadania do wykonania

1. Opracowa

schemat pozyskiwania wiedzy w postaci reguł.

2. Wczyta

wskazane przez prowadz

cego dane.

3. Pozyska

wiedz

w postaci reguł klasyfikacji.

4. Uzupełni

schemat tak, by mo

liwe było testowanie klasyfikatora metod

cross-

validation dla

k=10

5. Przetestowa

klasyfikator i przeanalizowa

uzyskane wyniki.

6. Uzupełni

schemat w sposób pozwalaj

cy na pozyskiwanie wiedzy w postaci

drzew decyzyjnych stosuj

c dwa ró

ne algorytmy generowania drzew.

7. Wygenerowa

drzewa decyzyjne i porówna

je ze sob

8. Przetestowa

pozyskane klasyfikatory i przeanalizowa

uzyskane wyniki.

9. Przeanalizowa

wyniki klasyfikacji dla ró

nych metod testowania klasyfikatorów.

10. Dokona

dyskretyzacji danych.

11. Pozyska

wiedz

dla danych dyskretnych i oceni

jako

ść

pozyskanej wiedzy.

12. Ograniczy

liczb

uwzgl

dnianych cech.

13. Pozyska

wiedz

dla ograniczonych danych i oceni

jako

ść

pozyskanej wiedzy.

14. Przeanalizowa

uzyskane wyniki.

15. Wskaza

metod

dzi

ki której pozyskano „najlepsz

” wiedz

16. Opracowa

sprawozdanie obejmuj

ce wyniki i wnioski wynikaj

ce ze wszystkich

opisanych wy

ej punktów.

Literatura

[1] Clark P., Niblett T. The CN2 induction algorithm. Machine Learning, 3(4): 261–

283, 1989.

[2] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann

Publishers, 1993.