background image

Metody analizy i 

odkrywania wiedzy w 

niekompletynych zbiorach 

danych

Łukasz Ryniewicz 25.04.2007

background image

Plan prezentacji

• Typy niekompletności informacji
• Metody uzupełniania danych

• Statystyczne
• k-najbliższych sąsiadów, drzewa 

decyzyjne

• Metody analizy niekompletnych 

danych

• Rozmyte reguły asocjacyjne
• Zbiory przybliżone i modyfikacje
• Modyfikacje algorytmów

background image

Etapy eksploracji danych

Analiza problemu

dane

Selekcja i czyszczenie danych

dane wyselekcjonowane

Transformacja danych

•Wybór strategii co do 
badania danych

•Konwersja

•Dyskretyzacja

•Zmiana reprezentacji z 
relacyjnej na transakcyjną

dane przetworzone

background image

Etapy eksploracji danych

Eksploracja danych

wzorce

Przygotowanie wyników do oceny

dane wygodne 
do 
analizowania

Analiza wyników

•Wybór 
narzędzi

•Wybór 
algorytmów

•Zastosowania 
ich

Obróbka żeby było miłe dla oka

Zastosowanie uzyskanej wiedzy w praktyce

background image

Typy niepełności danych

• Niepewność – gdy nie wiemy czy dane 

są poprawne

• Niedokładność – np. gdy mamy dane 

w postaci przedziałów: 100-200, dane 
opisowe : dość ciepło

• Niekompletność – nie znamy wartości 

atrybutu

• Niespójność – np. jednemu obiektowi 

są przypisane różne wartości

• Ignorancja – gdy mamy brak wiedzy 

background image

Niekompletność

• Brakujące dane – są możliwe do 

uzupełnienia

• chwilowa – nie jest dostępna dana w 

momencie jej wstawiania

• niedokładność urządzeń, metod – 

możliwe do oszacowania

• Niedostępne dane 

• nie są możliwe do uzupełnienia, 
• gdy są instancje do których nie mają 

zastosowania wartości atrybutów (np. 
baza z polami: bramki, strzelcy w 
przypadku meczu bezbramkowego)

background image

Model transakcyjny danych

A

B

C

d

1

0

1

1

1

2

*

0

*

1

3

1

*

2

1

4

0

1

2

1

5

1

*

1

0

6

0

1

*

0

A

a

A

a

a

V

V

U – zbiór obiektów

A – zbiór atrybutów

d -  atrybut decyzyjny

dziedzina 

})

{

,

(

d

A

U

DT

a

V

a

V

a

x

f

a

x

V

A

U

f

)

,

(

)

,

(

:

:

}

,...

2

,

1

:

{

n

j

K

K

j

- zbiór klas decyzyjnych

background image

Metody stosowane podczas 
transformacji danych

Usuwanie niekompletności danych

• Pomijanie obiektów zawierających braki 

danych

• W bazach traznsakcyjnych pomijanie 

brakującego atrybutu

• Zastępowanie brakujących wartości

• Użycie stałej – np. nowej nie występującej w 

zbiorze wartości danego atrybutu

• Użycie mody, mediany, wartości średniej dla 

wartości danego atrybutu

• Użycie metod data mining – np. k-najbliższych 

sąsiadów gdzie porównujemy obiekt z 
brakującą wartością z obiektami sąsiednimi i na 
ich podstawie odtwarzamy brakujący atrybut

background image

Metody statystyczne

• Procedury oparte na kompletnych rekordach – gdy 

mało braków

• Procedury ważące – ustawiane są wagi rekordów by 

zminimalizować odchylenia związane z brakami

• Procedury oparte o uzupełnianie danych

• Jawne w postaci formalnego modelu 

(średnia, mediana, regresja, badanie 

korelacji)

• Niejawne ukierunkowane na algorytmy 

implikujące modele (uzupełnianie na 

podstawie podobieństw, zastępowanie 

innymi rekordami, zastępowanie stałymi)

• Procedury oparte o modele – definiuje się model 

kompletnych danych i zależności są wyliczane na 

podstawie rozkładu prawdopodobieństw

background image

Metody statystyczne - 
przykład

1. Podziel zbiór U na klasy decyzyjne

2. Dla każdej klasy wyznacz            za 

pomocą statystyki S

3. Dla każdego braku uzupełnij według 

przynależności do odpowiedniej klasy 
decyzyjnej

}

)

(

:

{

di

x

d

U

x

U

di

a

di

V

*})

)

,

(

:

({

a

di

a

di

v

x

a

f

U

x

v

S

s

background image

k-najbliższych sąsiadów

1. Bazę – U dzielimy na 2 podzbiory

•            - przynajmniej 1 wartość 

atrybutu nie jest znana

•            - pozostałe

2. Dla każdego rekordu r należącego do     

   znajdujemy k najbliższych sąsiadów z 
           Odległość liczona tylko przy 
wykorzystaniu znanych w r atrybutów. 
Uzupełnienie braku (np. poprzez 
wyznaczenie mody z wartości 
atrybutów k sąsiadów i wstawienie jej 
do r)

N

DR

N

DR

Z

DR

Z

DR

background image

Drzewa decyzyjne

1. Bazę – U dzielimy na 2 podzbiory

•            - przynajmniej 1 wartość atrybutu nie 

jest znana

•            - pozostałe

2. Wyznaczamy zbiór atrybutów gdzie pojawiła sie wartość 

nieznana – 

3. Dla każdego atrybutu a należącego do         tworzymy 

drzewo decyzyjne         na podstawie         gdzie każda 

wartość a tworzy klasę decyzyjną

4. Klasyfikujemy rekord r z          z brakującym atrybutem a 

do odpowiedniej klasy

5. W przypadku gdy rekord r ma więcej niż jeden brak to:

1. Dla braku a klasyfikacja
2. W r uzupełnienie braku tylko wtedy gdy 

osiągnięto liść

3. Powrót do 5.1
4. Gdy nie osiągamy już liści klasyfikujemy na 

podstawie najbardziej licznego zbioru

N

DR

Z

DR

N

A

N

A

a

DT

Z

DR

N

DR

background image

Metody stosowane na etapie 
odkrywania wiedzy

• Użycie standardowych metod gdy 

przeprowadziliśmy już proces 
uzupełniania danych

• Użycie zmodyfikowanych metod analizy 

pod kątem braków danych

• Użycie metod używających podejście 

do danych i klasyfikacji zbiorów 
rozmytych i przybliżonych

• Podejście probabilistycznie

background image

•Dla każdego atrybutu jest definiowany zbiór 
lingwistycznych termów       które określają jakieś 
pojęcie z dziedziny,  np wysoki

•        jest reprezentowany przez zbiór rozmyty na 
dziedzinie A, ozn: d(A), o funkcji przynależności

Reguły asocjacyjne oparte na 
zbiorach rozmytych

i

tA

L

]

1

,

0

[

)

(

:

A

d

i

tA

L

i

tA

L

background image

•Stopień w jakim term        charakteryzuje pewien 
rekord r to wartość funkcji przynależności:

•Stopień w jakim zbiór termów                           
charakteryzuje rekord to:

•Reprezentacja termów za pomocą zbiorów 
rozmytych pozwala obliczyć stopień                gdy 
potrzebna wartość nie jest znana. Wtedy funkcja     
            zwraca wartość  ½   

Reguły asocjacyjne oparte na 
zbiorach rozmytych

i

tA

L

)

.

(

)

,

(

i

L

tA

A

r

r

L

St

i

tA

i

m

t

tA

tA

tA

L

L

L

L

Z

,...,

,

:

2

1

)}

.

(

),...,

.

(

),

.

(

min{

)

,

(

2

1

2

1

m

L

L

L

L

A

r

A

r

A

r

r

Z

St

m

tA

tA

tA

t

)

,

(

r

L

St

i

tA

)

.

(

i

L

A

r

i

tA

background image

•Generacja reguł dla różnych atrybutów      
  i                 w postaci:

Zamiast wsparcia jest liczona różnica 
między prawdopodobieństwami:

Reguły asocjacyjne oparte na 
zbiorach rozmytych

U

r

tA

U

r

tA

tA

tA

tA

r

L

St

r

L

L

St

L

L

ki

mj

ki

ki

mj

)

,

(

)

},

,

({

)

,

Pr(

mj

ki

tA

tA

L

L

R

:

k

A

m

A

U

r

tA

tA

Am

s

Ak

p

U

r

tA

tA

r

L

L

St

r

L

St

L

ms

kp

mj

mj

)

},

,

({

)

,

(

)

Pr(

Ai

-liczba termów zdefiniowana dla atrybutów Ai

background image

•Jeżeli różnica ta jest statystycznie istotna, 
wtedy jest akceptowana taka reguła i jest 
obliczane zaufanie reguły

Reguły asocjacyjne oparte na 
zbiorach rozmytych

)

|

Pr(

)

|

Pr(

log

)

,

(

j

p

tA

tA

tA

tA

tA

tA

o

mj

ki

mj

ki

mj

ki

L

L

L

L

L

L

W

background image

•Dane wykluczone Dis(X)
•Obowiązująca baza vdb(X)

Rekord jest wykluczony dla danego 
zbioru X jeśli zawiera przynajmniej jedną 
wartość nieznaną dla jednego atrybutu 
który znajduje się w zbiorze X. Zbiór tych 
rekordów – Dis(X), vdb(X) = U\Dis(X)

Definicje reguł asocjacyjnych 
uwzględniające braki danych

)

(

)

(

X

vdb

U

X

wsparcie

X

X

X

XY

U

Y

Dis

U

U

Y

X

zaufanie

)

(

)

(

background image

•Nieznane wartości atrybutu są zastępowane 
przez wszystkie znane wartości. Każda wartość 
w zastępuje nieznaną daną dla której 
prawdopodobieństwo prob(w,a) jest równe 
względnej częstości jej występowaniu w 
wektorach dla których jest określona wartość 
tego atrybutu.

•Wsparcie elementu elem(w,a) o wartości w z 
dziedziny atrybutu a dla pojedynczego rekordu 
r:

•Wsparcie zbioru                                                 
                dla pojedynczego rekordu r:

Podejście probabilistyczne I

))

,

(

(

w

a

elem

probWsp

r

k

i

i

i

r

r

a

w

elem

probWsp

X

probWsp

1

))

,

(

(

)

(

{

1   gdy r.a = w

prob(w,a)   gdy r.a = ?

0   w p. p.

)}

,

(

),...,

,

(

),

,

(

{

2

2

1

1

k

k

a

w

elem

a

w

elem

a

w

elem

background image

•Normalnie transakcja t wspiera zbiór X 
albo nie

•Każdy element występujący w transakcji t 
wspieranej przez k-elementowy zbiór Zk 
wnosi 1/k do wartości całkowitego 
wsparcia zbioru Zk

•Całkowita wartość wsparcia Zk jest sumą 
wsparć wnoszone przez poszczególne 
elementy

•Znalezienie rozkładu 
prawdopodobieństwa na brakującym 
atrybucie, i wtedy przemnażamy wartość 
wnoszoną przez to prawdopodobieństwo

Zk={a,b,c}     t={a,b,*}  p(c)=3/5         
=> wsp(Zk)=1/3+1/3+(1/3)*(3/5)

Podejście probabilistyczne 
II

background image

Podejścia wykorzystujące 
zbiory przybliżone – relacja 
nierozróżnialności

A

B

)}

(

)

,

(

:

{

)

(

B

IND

x

y

U

y

x

I

B

)}

,

(

)

,

(

:

)

,

{(

)

(

a

y

f

a

x

f

U

U

y

x

B

IND

B

a

A

B

C

d

1

0

1

1

1

2

1

0

1

1

3

1

1

2

1

4

0

1

2

1

5

1

1

1

0

6

0

1

0

0

}

)

(

:

{

X

x

I

U

x

X

B

B

}

)

(

:

{

X

x

I

U

x

X

B

B

U

X

B

X

B

X

B

)

(

Używana w algorytmach generacji reguł indukcyjnych

Współczynnik aproksymacji:

background image

Przybliżenia zbiorów klas decyzyjnych 
służy do utworzenia zbioru reguł 
decyzyjnych w postaci:

Gdzie 

Relacja nierozróżnialności może być 
stosowana jedynie w kompletnych 
zbiorach, dlatego istnieją jej modyfikacje

Podejścia wykorzystujące 
zbiory przybliżone – relacja 
nierozróżnialności

)

)

,

(

(

d

v

x

d

f

P

)

,

:

)

,

(

(

ai

ai

i

ai

i

V

v

A

a

v

x

a

f

P

background image

Podejścia wykorzystujące 
zbiory przybliżone - relacja 
tolerancji

A

B

*}

)

,

(

*

)

,

(

a

y

f

a

x

f

)

,

(

)

,

(

:

)

,

{(

)

(

a

y

f

a

x

f

U

U

y

x

B

T

B

a

A

B

C

d

1

0

1

1

1

2

1

*

1

1

3

1

1

*

1

4

0

1

2

1

5

*

*

1

0

6

0

1

0

0

}

)

(

:

{

X

x

T

U

x

X

B

B

}

)

(

:

{

X

x

T

U

x

X

B

B

U

X

B

X

B

X

B

)

(

Używana w algorytmach generacji reguł indukcyjnych

Używana przy uzupełnianiu braków

background image

•Elementów podobnych do x

•Elementów do których x jest podobny

Podejścia wykorzystujące 
zbiory przybliżone - relacja 
podobieństwa

A

B

)

,

(

)

,

(

*

)

,

(

:

y

a

f

x

a

f

y

a

f

x

yS

B

a

B

A

B

C

d

1

0

1

1

1

2

1

*

1

1

3

1

1

*

1

4

0

1

2

1

5

*

*

1

0

6

0

1

0

0

}

:

{

)

(

x

yS

U

y

x

S

B

B

}

)

(

:

{

)

(

1

X

x

S

U

x

X

B

B

Używana w algorytmach generacji reguł indukcyjnych

y podobny do x

Dla każdego x są definiowane 2 klasy:

}

:

{

)

(

1

y

xS

U

y

x

S

B

B

}

:

)

(

{

)

(

X

x

x

S

X

B

B

background image

Podejścia wykorzystujące zbiory 
przybliżone – rozmyta relacja 
podobieństwa

)

,

y

x

R

a

a

b

c

D

X1

1

2

3

1

X2

*

2

3

1

X3

*

*

3

2

•Intuicja- x2 jest bardziej podobny do 
x1 niż x3 do x1

•Zwykła relacja tolerancji nie 
rozróżnia

•Zakładamy że pod brakującymi 
wartościami dla ustalonego atrybutu 
może występować znana wartość z 
jednakowym prawdopodobieństwem

•Podobieństwo obiektów x,y 
względem a można zapisać:

*

)

,

(

*

)

,

(

1

*)

)

,

(

*

)

,

(

(

*)

)

,

(

*

)

,

(

(

1

*

)

,

(

*

)

,

(

)

,

(

)

,

(

0

*

)

,

(

)

,

(

1

2

y

a

f

x

a

f

V

y

a

f

x

a

f

y

a

f

x

a

f

V

y

a

f

x

a

f

y

a

f

x

a

f

y

a

f

x

a

f

a

a

B

a

a

A

y

x

R

y

x

B

R

)

,

(

)

,

)(

(

I możemy zapisać 
rozmytą relacje 
podobieństwa:

background image

•Metoda polega na klasyfikacji n>2 klas decyzyjnych
•Tworzone są klasyfikatory niezależne Cij których 
celem jest stwierdzenie czy nowy obiekt należy do 
klasy i-tej czy j-tej (odpowiednio Cij = 1, Cij = 0)

•Do budowy klasyfikatorów są wykorzystywane 
powyższe relacje które pozwalają stwierdzić do 
której klasy bardziej obiekt klasyfikowany należy

•Do każdego klasyfikatora określa sie współczynnik 
wiarygodności w fazie uczenia

•Decyzja klasyfikacyjna:

Metoda kwadratowa

i

ij

i

ij

ncor

nerror

ncor

P

i

j

ij

ij

i

i

x

C

P

S

i

x

d

)}

(

{

max

)

(

background image

Oczekiwana ilość informacji potrzebna do 
klasyfikacji:

Maksymalizujemy przyrost informacji 
G(U,T) w wyniku podziału testem T:

Żeby uniknąć zbyt wielkiej ilości podziałów 
wprowadzamy współczynnik:

Gdzie P(U,T) – wartość informacyjna testu:

Drzewa decyzyjne – C4.5

U

Ki

U

K

U

I

n

i

i

log

)

(

1

)

(

)

(

)

,

(

1

i

k

i

i

U

I

U

U

U

I

T

U

G

)

,

(

)

,

(

)

,

(

T

U

P

T

U

G

T

U

WI

U

U

U

U

T

U

P

i

k

i

i

log

)

,

(

1

background image

Uo – zbiór tych obiektów w których 
występuje brak na atrybucie potrzebnym do 
testu T
Przyrost informacji

Wartość informacyjna testu

Drzewa decyzyjne – C4.5 
modyfikacja

)

,

(

)

,

(

'

0

0

T

U

U

G

U

U

U

T

U

G

U

U

U

U

U

U

U

U

T

U

P

i

k

i

i

o

log

log

)

,

(

1

0

background image

Drzewa decyzyjne – podejście 
probabilistyczne

T

L

)

)

(

,...,

)

(

|

)

(

(

...

)

)

(

|

)

(

(

)

)

(

(

)

|

(

1

1

1

1

1

1

2

2

1

1

m

m

m

m

r

x

t

r

x

t

r

x

t

P

r

x

t

r

x

t

P

r

x

t

P

x

I

P

t1

t2

t3

tm

I

n1

n2

n3

nm

T:

r1

r2

rm

m

n

,...,

1

m

t

,...,

1

m

m

R

r

R

r

 ,...,

1

1

-liść

-węzły

-testy

-wyniki testów

Dla przykładu x (bez braków 
danych) prawdopodobieństwo 
osiągnięcia liścia I wynosi:

Gdy wyniki testów są znane (x nie zawiera braków 
potrzebnych przy testach) to prawdopodobieństwo 
osiągnięcia liścia wynosi 0 lub 1

background image

Drzewa decyzyjne – podejście 
probabilistyczne

Jeżeli test tk w węźle nk nie może być ustalony 
dokładnie (występuje brak danych) to możemy 
przyjąć prawdopodobieństwo z rozkładu Ω 
określone następująco:

]

[

,

]

[

,

,

1

1

1

1

)

)

(

,...,

)

(

|

)

(

(

k

k

k

k

k

k

t

n

T

t

r

t

n

T

k

k

k

k

x

U

U

r

x

t

r

x

t

r

x

t

P

Gdzie        podzbiór przykładów dla których wartość testu jest znana

]

[t

U

background image

Metoda podziału

Polega na podzieleniu danych na 
mniejsze porcje tak by nie zawierały one 
braków i niosły maksymalną ilość 
informacji o klasyfikacji. Następnie dla 
każdej porcji jest stosowany odrębny 
model klasyfikacji, i następuje synteza 
wyników

a

b

c

d

1

0

*

1

0

1

*

1

0

1

1

0

1

1

0

1

*

0

1

0

*

1

0

0

a

b

d

1

0

1

0

1

1

0

1

0

1

1

1

b c

d

1 1

0

1 0

1

0 1

0

1 0

0

a

b

c

d

0

1

1

0

1

1

0

1

M1

M2

M3

d

1

1

0

1

0

0

a

b

d

1

0

1

0

1

1

0

1

0

1

1

1

b c

d

1 1

0

1 0

1

0 1

0

1 0

0

a

b

c

d

0

1

1

0

1

1

0

1

background image

Literatura

•Imieliński T., Lipiński W., Incomplete Information in Relational 
Databases, Journal of the AEM, tom 31, 1984

•Chan K. C. C., Wai-Ho A., Mining Fuzzy Association Rules, 
Proceedings of the Sixth International Conference on Information and 
Knowledge Managment, Las Vegas, 1997

•Regel A., Cremilleux B., Treatment of Missing Values for Association 
Rules, Proceedings of Research and Development in Knowledge 
Discovery and Data Mining, Second Pacific-Asia Conference, PAKDD-
98, Melbourne, 1998

•Protaziuk G., Odkrywanie wiedzy w niekopletnych zbiorach danych, 
rozprawa doktorska, Warszawa 2005

•Kryszewicz M., Rybiński H., Incomplete database issues for 
representative association rules, Proceedings of Foundations of 
Inteligent Systems, 11th International Symposium, Warszawa 1999

•Nayak J. R., Cook D. J., Approximate Association Rule Mining, 
Proceedings of the Fourteenth International Articital Inteligence 
Research Society Conference, Key West, Floryda, 2001

•Feelders A., Handling missing data in trees: surrogate splits of 
statistical ipmutation?, Proceedings of Principles of Data Mining and 
Knowledge Discovery Third European Confereance, PKDD ’99, Praga, 
1999

background image

Dziękuję za 
uwagę


Document Outline