background image

Metody analizy 

danych 

eksperymentalnych

 Transformacja danych

background image

Podstawowymi pojęciami w eksploracji danych są pojęcia 

obiektu

 i 

cechy

 (atrybutu)

Obiektem

 będzie się nazywać element 

pewnego zbioru, badany ze względu na pewne swoje właściwości, 
które noszą nazwę 

cech 

(atrybutów). Te same cechy dla różnych 

obiektów mogą przyjmować różne 

wartości

. Reprezentantem 

obiektu w bazie danych jest zwykle rekord, a wartości cech 
charakteryzujących ten obiekt – pola tego rekordu, przy czym 
cechami są nazwy pół rekordu, jednakowe dla wszystkich 
obiektów-rekordów.
Przyjmuje się następujące oznaczenia:

I={1,2,…,n} 

– zbiór numerów obiektów, będących przedmiotem 

eksploracji,

J={1,2,…,m}

 

– zbiór numerów cech opisujących każdy obiekt ze 

zbioru 

O

,

X={X

1

,X

2

,…,X

m

- zbiór wektorów wartości cech obiektów postaci:

przy czym wiersz (rekord) 

X

i

=(x

i1

, x

i2

, …, x

im

odpowiada 

jednemu obiektowi o numerze 

i

, a kolumna 

X

j

=(x

1j

, x

2j

, …, x

nj

– 

wektorowi wartości cechy o numerze 

j

Pojęcia podstawowe

11

12

1m

21

22

2m

ij n m

n1

n2

nm

x

x

… x

x

x

… x

X = x

,

… …

x

x

… x

� � =

� �

2

GK (MADE(02) - 2010)

background image

Metody eksploracji danych takie, jak klasyfikacja, 

grupowanie czy rangowanie należą do metod 

statystycznej analizy 

wielowymiarowej

, który to termin oznacza grupę metod 

statystycznych, umożliwiających jednoczesną analizę przynajmniej 
dwóch cech (własności, atrybutów) obiektów wielocechowych, przy 
czym takimi obiektami mogą być określone rzeczy, osoby, 
kategorie abstrakcyjne lub zdarzenia, np. produkty spożywcze, 
studenci, zjawiska przyrody, przestępstwa. 

Ze względu na to, że metody eksploracji danych (ogólnie: 

statystycznej analizy wielowymiarowej) z zasady wymagają, aby 
wartości cech (atrybutów) badanych obiektów były liczbami 
rzeczywistymi
, zachodzi potrzeba uprzedniego rozpoznania skali 
pomiarowej, w której są wyrażone wartości cechy obiektu. 
Podstawowy katalog skal pomiarowych obejmuje skale [Stevens, 
1959]:

nominalną,

porządkową (rangową),

przedziałową (interwałową),

ilorazową (stosunkową). 
Skale są uporządkowane od najsłabszej do najmocniejszej według 
przekształceń dopuszczalnych na wartościach cechy (danych). 
Dwie pierwsze z nich noszą często nazwę skal 

niemierzalnych

, a 

dwie ostatnie – 

mierzalnych

, co przekłada się na nazewnictwo 

cech.

Skale pomiarowe

3

GK (MADE(02) - 2010)

background image

Skala nominalna:

-  przyporządkowuje poszczególnym wartościom cechy wyłącznie 

nazwy,

-  pozwala jedynie na stwierdzenie identyczności lub różnic 

porównywanych obiektów oraz na zliczanie obiektów 
identycznych i różnych, 

przykład pomiaru na tej skali: przyporządkowanie płci (kobieta, 

mężczyzna) porównywanym ze względu na tę cechę osobom,

jedyną dopuszczalną procedurą arytmetyczną jest zliczanie, a 

spośród procedur statystycznych - tylko te, które oparte są na 
zliczaniu.

Skala porządkowa (rangowa):

wartości cechy (liczby) oznaczają rangi, tj. kolejność obiektów, 

przy czym rangi odwzorowują nie tylko równość obiektów, ale też 
ich uporządkowanie pod względem rozpatrywanej cechy 

(liniowe 

porządkowanie obiektów), zatem można stwierdzać, czy obiekt 
jest lepszy (większy) od innego, czy też gorszy (mniejszy),

umożliwia zliczanie obiektów uporządkowanych (liczby relacji 

równości (identyczności), większości i mniejszości), 

nie pozwala określić odległości między obiektami, 

przykład pomiaru na tej skali: poziom wykształcenia, 

dozwolone są w tej skali wszelkie przekształcenia liczb nie 

zmieniające porządku obiektów, np. potęgowanie, 
pierwiastkowanie, logarytmowanie itp.

Skale pomiarowe

4

GK (MADE(02) - 2010)

background image

Skala przedziałowa

 

(interwałowa): 

pozwala dodatkowo, w stosunku do skali porządkowej, obliczyć 

odległości między obiektami, dokonując pomiaru wartości cech 
za pomocą liczb rzeczywistych,

dla skali tej możliwe jest, obok operacji arytmetycznych 

dopuszczalnych dla skal poprzednich, także dodawanie i 
odejmowanie, 

wartość zerowa na tej skali ma charakter umowny (np. 0

o

 w skali 

Celsjusza), co prowadzi do zachowania różnic między 
wartościami cechy przy zmianie jednostek miary, 

przykład pomiaru na tej skali: średnie dochody pracowników w 

przemyśle,

wartości cech mogą być przekształcane liniowo, ponieważ 

transformacja liniowa zachowuje nie tylko kolejność mierzonych 
wartości cech, ale także względne ich odległości. Nie jest 
natomiast dozwolone ani mnożenie, ani dzielenie, gdyż operacje 
te wynikają z założenia o istnieniu rzeczywistego punktu 
zerowego.  Dopuszczalnymi technikami statystycznymi dla tej 
skali, oprócz odpowiednich dla skal poprzednich są: średnia 
arytmetyczna, wariancja, rachunek korelacji i regresji oraz 
wiele testów parametrycznych

,

Skale pomiarowe

5

GK (MADE(02) - 2010)

background image

Skala ilorazowa

 

(stosunkowa):

ma podobny charakter jak skala przedziałowa z tym, że 

występuje na niej zero bezwzględne (zero ogranicza 
lewostronnie zakres tej skali),

pozwala dodatkowo, w stosunku do skal poprzednich, 

dokonywać także dzielenia i mnożenia, a tym samym 
przedstawiać dowolną wartość cechy danego obiektu jako 
wielokrotność wartości cechy dla innego obiektu,

przykład pomiaru na tej skali: waga ludzi,

wartości cech w skali ilorazowej traktować można jako odległość 

mierzoną od bezwzględnego zera. Dozwolone są tym przypadku 
wszelkie operacje arytmetyczne, z mnożeniem i dzieleniem 
włącznie. Również możliwe jest stosowanie dowolnych  technik 
statystycznych

.

Skale pomiarowe

6

GK (MADE(02) - 2010)

background image

Skale pomiarowe

Skale pomiarowe są uporządkowane od najsłabszej do 
najmocniejszej: nominalna
, porządkowa, przedziałowa i 
ilorazowa

7

GK (MADE(02) - 2010)

background image

Ponieważ wartości cech niemierzalnych (skala nominalna i 

porządkowa) są wyrażane w postaci kategorii (poziomów) (np. 
kolor oczu) ich bezpośrednie wykorzystanie w algorytmach 
statystycznej analizy wielowymiarowej jest bardzo ograniczone, 
zachodzi więc konieczność ich uprzedniego przekodowania na 
liczby rzeczywiste
. W tym zakresie wykorzystuje się najczęściej 
dwa następujące sposoby przekodowywania wartości cech 
niemierzalnych na liczby:

bez względu na liczbę kategorii (poziomów) cechy, 
poszczególnym jej kategoriom można przypisać kolejne liczby 
naturalne w sposób dowolny, bez względu na to, czy te kategorie 
można uporządkować według intensywności oddziaływania, czy 
nie. Np. dla cechy zachowanie ucznia
, która ma cztery kategorie: 
niepoprawne
poprawnedobre bardzo dobre, poszczególnym 
kategoriom przypisuje się kolejne liczby naturalne od 1 do 4 
(niepoprawne - 1
poprawne - 2dobre – 3, bardzo dobre – 4),   

jeżeli cecha ma tylko dwie kategorie (cecha binarna, np. płeć), 
można ją zamienić na pojedynczą tzw. cechę sztuczną
, najczęściej 
zero-jedynkową
, poprzez nadanie jednej kategorii wartości 0, a 
drugiej – 1 (np. mężczyzna – 0, kobieta – 1),  

Skale pomiarowe

8

GK (MADE(02) - 2010)

background image

• jeżeli cecha ma więcej niż dwie kategorie, można ją zamienić 

nie

 

na pojedynczą cechę sztuczną, ale na zespół takich cech, także 
najczęściej zero-jedynkowych
, przy czym liczba wprowadzanych 
cech sztucznych musi być najmniejszą liczbą całkowitą, 
spełniającą następujący warunek:

2

liczba cech sztucznych  

≥  liczba kategorii cechy 

przekodowywanej

.

W takim przypadku reprezentowanie poszczególnych kategorii 

cechy wymaga nadania odpowiednich wartości wszystkim 
wprowadzonym cechom sztucznym. Np. dla cechy zachowanie 
ucznia
, która ma cztery kategorie: niepoprawnepoprawne
dobre 
bardzo dobre, wprowadza się 2 sztuczne cechy, 
zdefiniowane następująco:

Pojęcia podstawowe

Zachowanie ucznia

Cecha

sztuczna 1

Cecha

sztuczna 2

Niepoprawne

0

0

Poprawne

0

1

Dobre

1

0

Bardzo dobre

1

1

9

GK (MADE(02) - 2010)

background image

P

odstawą stosowania wielu metod eksploracji danych jak 

np. klasyfikacja, grupowanie czy rangowanie obiektów 
wielocechowych jest macierz wartości cech obiektów (macierz 

X

). 

Istotą tych metod jest porównywanie ze sobą cech różniących się 
wartościami i mianami. Aby takie porównanie było sensowne, 
należy wszystkie cechy sprowadzić do porównywalnej postaci 
poprzez tzw. 

transformację danych

Cele transformacji danych:

ujednolicenie charakteru ech obiektów (postulat jednolitej 
preferencji),

doprowadzenie różnoimiennych cech do wzajemnej 
porównywalności (postulat addytywności),

zastąpienie zróżnicowanych zakresów zmienności poszczególnych 
cech zakresem stałym (postulat stałości rozstępu lub stałości 
wartości ekstremalnych),

wyeliminowanie z obliczeń wartości ujemnych (postulat 
dodatniości).  

Transformacja danych, w zależności od skali pomiarowej 

cechy może być realizowana za pomocą wielu metod spośród, 
których najczęściej stosuje się: rangowanie, normowanie 
analityczne i ważenie cech.

Transformacja danych

10

GK (MADE(02) - 2010)

background image

Rangowanie cech 

jest najprostszym sposobem 

transformowania cech i polega na przypisaniu każdej wartości 
(kategorii) cechy pewnej liczby, tzw. 

rangi

, która określa pozycję 

zajmowaną przez daną wartość cechy w uporządkowanym ciągu 
wartości tej cechy. Najczęściej stosuje się 

rangi normalne 

(rangi w 

postaci kolejnych liczb naturalnych) 

lub 

rangi Spearmana

Normowanie przez rangowanie można stosować do cech 
mierzonych w skali porządkowej lub silniejszej.

Normowanie analityczne. 

Niech                             oznacza 

wektor wartości 

j

-tej cechy obiektów przed unormowaniem, a                            

oznacza ten wektor z unormowanymi wartościami 

j

-tej cechy. 

Normowanie analityczne opiera się na przekształceniu 
wyrażającym się następującą formułą:

gdzie: 

A

j

 – parametr zmiany skali wartości cechy,

  

B

j

 

– parametr skalujący wartości cechy (pozbawia cechę miana),

 

p

 – parametry przekształcenia (na ogół p = 1). Większe wartości 

parametru powodują zwiększenie wariancji. Parzyste naturalne 
wartości parametru dają w wyniku wszystkie dodatnie wartości 
cechy po unormowaniu.

(

)

j

1j

2j

nj

X = x ,x ,…x

(

)

'

'

'

'

j

1j

2j

nj

X = x ,x ,…,x

p

ij

j

'

ij

j

i=1,2,...,n; j=1,2,...m,

x

A

x

,       

B

-

=�

Transformacja danych

11

GK (MADE(02) - 2010)

background image

Parametr 

A

j

 najczęściej przybiera następujące wartości: 

stałą równą 

0

wartość oczekiwaną 

(średnią arytmetyczną) 

wartości cech (elementów wektora 

X

), mini

m

aln

ą

 

(

x

min

), bą

 

maksymalną (

x

max

) wartość spośród aktualnych wartości 

cechy

 

(elementów wektor

a

 

X

)

.    

Parametr 

B

j

 najczęściej przybiera następujące wartości: 

mini

m

aln

ą

 

(

x

min

), bą

 maksymalną (

x

max

) wartość spośród 

aktualnych wartości 

cechy

 (elementów wektor

a

 

X

)

, różnicę 

wartości maksymalnej i minimalnej (

x

max 

- x

min

), 

sumę

 wszystkich 

aktualnych wartości cechy (elementów wektora 

X

), 

wartość 

oczekiwaną 

(średnią arytmetyczną) oraz 

odchylenie standardowe 

(

s

) obliczone na podstawie wszystkich aktualnych wartości cechy 

(elementów wektora 

X

).

Szczególnym przypadkiem normalizacji  jest 

standaryzacja

, która 

jest przeprowadzana według następującej formuły:

Wektor wartości cechy po standaryzacji ma następujące własności: 
jego elementy są liczbami na ogół z przedziału 

(-3,3)

, wartość 

średnia z wszystkich elementów jest równa 

0

, a odchylenie 

standardowe – równe 

1

.

Transformacja danych

ij

j

'

ij

j

i=1,2,...,n; j=1,2,...,m.

x

x

x

,       

s

-

=

12

GK (MADE(02) - 2010)

background image

Innym przypadkiem normowania analitycznego jest 

unitaryzacja

, która jest realizowana przy następujących 

wartościach parametrów 

A

B

 i 

p

:

Na ogół w praktyce przyjmuje się 

A

 = 

x

min

 

oraz 

p

 =

1

, uzyskując 

unitaryzację zerową

,

 której formuła przekształcająca przyjmie 

postać:

Unitaryzacja zerowa powoduje, że elementy wektora 

X

j

 mają 

następujące własności: wszystkie elementy są liczbami przedziału 

[0,1]

, wartość maksymalna jest równa 

1

, a minimalna  

0

.

Przykład

: wartości cechy: 

2.0, -3.4, 5.8, 2.4, -6.2, 0.0, 1.2, -4.2

Wartości cech po:

standaryzacji: 

0.7967, -0.6868, 1.8406, -0.4121, -1.456, 0.2472, 

0.5769, -0.9066

,

unitaryzacji: 

0.6833, 0.2333, 1, 0.3167, 0, 0.5167, 0.6167, 

0.1667

.

Transformacja danych

min

max

min

j

j

j

j

j

max

j

j=1,2,...,m

0

A

x ,     B =x

- x ,      p=0.5,1,2...;  

.

x

=�

min

ij

j

'

ij

max

min

j

j

i=1,2,...,n; j=1,2,...,m

x

x

x

,       

.

x

x

-

=

-

13

GK (MADE(02) - 2010)

background image

Kolejny przypadkiem normowania analitycznego jest 

normalizacja w przedziale[-1,1]

, która jest realizowana przy 

następujących wartościach parametrów 

A

B

 i 

p

:

Formuła rozpatrywanej normalizacji przyjmie postać:

Normalizacja w przedziale 

[-1,1

powoduje, że elementy wektora 

X

j

 mają następujące własności: wszystkie elementy są liczbami 

przedziału 

[-1,1]

 o

 wartości oczekiwanej równej 

0

.

W ramach normowania analitycznego stosuje się też wiele 

metod zorientowanych na cechy mierzone tylko w skali ilorazowej; 
noszą one wspólną nazwę 

przekształceń ilorazowych

. Przykłady 

przekształceń:

Transformacja danych

j

j

j

ij

j

i

j=1,2,...,m

A

x ,   B

max x

x  ,  p=1;  

.

=

=

-

ij

j

'

ij

ij

j

i

i=1,2,...,n; j=1,2,...,m

x

x

x

,      

.

max x

x

-

=

-

1

ij

ij

ij

ij

ij

'

'

'

'

'

ij

ij

ij

ij

ij

n

max

min

j

j

j

j

ij

i

ij

i

i=1,2,...,n; j=1,2,...,m.

x

x

x

x

x

x

,  x

, x

, x

,  x

,   

s

x

x

x

max x

x

=

=

=

=

=

=

-

14

GK (MADE(02) - 2010)

background image

 Ważenie cech 

jest stosowane w przypadkach, gdy zachodzi 

potrzeba określenia, na ile są ważne cechy z punktu widzenia 
przyjętego kryterium oraz takiego przekształcenia wartości tych 
cech, aby cechy po przekształceniu mogły zachować swój wpływ 
proporcjonalny do ważności w końcowych wynikach eksploracji. 
Najczęściej ważenie cech jest stosowane w procesie 
konstruowania uogólnionych ocen obiektów, stanowiących 
podstawę ich porównywania. Ważność cech na ogół ustala się za 
pomocą 

wag

.

Ważenie cech powinno być przeprowadzane dopiero po ich 

transformacji, 
najlepiej po standaryzacji

Przyjmuje się, że waga przypisana dowolnej cesze jest 

dowolną liczbą nieujemną (

 0

). Niech wektor 

W=(w

1

,w

2

,...,w

m

będzie wektorem wag (tzw. wag surowych), a jego element 

w

j

,

 

(j=1,2,…,m) 

– surową wagą przypisaną cesze 

X

i

. Ocena wpływu wag 

na określenie hierarchii ważności cech w zbiorze cech wymaga ich 
unormowania. Niech wektor 

W

 =(w

1

,w

2

,...,w

m

będzie wektorem 

wag unormowanych. 

Ważoną macierz danych 

X



  uzyskuje się przez 

przemożenie każdego elementu macierzy unormowanej (lub 
zestandaryzowanej) 

X

 przez odpowiednią wagę unormowaną, tj. 

Transformacja danych

''

'

'

ij

ij

j

 i=1,2,...,n; j=1,2,...,m

x

x w ,  

.

= �

15

GK (MADE(02) - 2010)

background image

Istnieje wiele sposobów normowania wag, ale najczęściej 

stosowane są następujące:

1. Suma unormowanych wag wynosi 

1

:

2. Suma kwadratów unormowanych wag wynosi 

1

:

3. Suma wag jest równa dowolnej wartości 

c > 0

:

Transformacja danych

( )

m

2

j

'

'

j

j

m

j=1

2

j

j=1

 j =1,2,...,m

w

w =

,    

w

=1.

w

m

j

'

'

j

j

m

j=1

j

j=1

 c >0; j =1,2,...,m

w

w =

c,    

w =c.

w

m

j

'

'

j

j

m

j=1

j

j=1

 j =1,2,...,m

w

w =

,    

w =1.

w

16

GK (MADE(02) - 2010)

background image

Ustalanie wag surowych 

w

j

, (j=1,2,…,m) 

może być 

dokonywane przez ekspertów lub statystycznie. W przypadku 
ustalania wartości wag na drodze statystycznej, uwzględnia się 
naturalną zmienność cechy mierzoną za pomocą współczynnika 
zmienności 

v

j

, (j=1,2,…,m) 

lub siłę naturalnego powiązania cechy 

z pozostałymi, mierzoną za pomocą współczynnika korelacji 

r

ij

(i,j=1,2,…,m)

.

 

1.Wagi uwzględniające naturalną zmienność cechy (wagi są 
wyznaczane na podstawie wartości cech 

przed

 

ich normalizacją

):

2.Wagi uwzględniające skorelowanie cechy z pozostałymi (wagi 
są wyznaczane na podstawie wartości cech 

po ich normalizacji

):

Transformacja danych

j

j

j

m

j

j

j=1

s

j

x

 j =1,2,...,m; v

v

w =

,    

.

v

=

m

ij

i=1

j

m m

ij

i=1 j=1

 i, j =1,2,...,m.

r

w =

,    

r

��

17

GK (MADE(02) - 2010)

background image

           W procesie badania obiektów wielocechowych istotne jest 
określenie ich liniowego uporządkowania (nadanie rangi) w 

m

-

wymiarowej unormowanej przestrzeni cech. 

Przed wykonaniem 

działań zmierzających do rangowania obiektów konieczne jest 
określenie charakteru poszczególnych cech i zakwalifikowanie 
ich do jednej z następujących grup:

stymulant,

destymulant,

nominant.

Stymulantą

 

nazywana jest taka cecha, której wysokie 

wartości są pożądane z punktu widzenia celu rangowania. Wyższe 
wartości stymulanty (np. średnia płaca) kwalifikują obiekt jako 
lepszy ze względu na tę cechę.

Destymulantą

 nazywana jest taka cecha, której niskie 

wartości są pożądane z punktu widzenia celu rangowania. Niższe 
wartości destymulanty (np. poziom bezrobocia) kwalifikują 
obiekt jako lepszy ze względu na tę cechę.

Nominantą

 nazywana jest taka cecha, której „normalne” 

wartości (np. normalna temperatura ciała człowieka) są 
pożądane z punktu widzenia celu rangowania; nie są pożądane 
natomiast wartości stanowiące duże odchylenia w dół i w górę od 
wartości „normalnych”. Wartość cechy uważana za „normalną” 
(najlepszą) może być wyznaczana arbitralnie lub na podstawie 
wartości średniej (oczekiwanej).

Zmiana charakteru cech

18

GK (MADE(02) - 2010)

background image

K

walifikacja cech powinna odpowiedzieć na pytanie, czy 

wszystkie cechy rangowanych obiektów są 

stymulantami 

(destymulantami)

, gdyż tylko taka „jednokierunkowość” cech 

zapewnia właściwe rangowanie. Jeżeli przyjąć, że rangowanie 
będzie oparte na stymulantach, to wszystkie wykryte w trakcie 
analizy cechy będące 

destymulantami

 i 

nominantami 

będą 

musiały być przetransformowane na 

stymulanty 

przed 

rozpoczęciem rangowania.

Zamiana destymulanty na stymulantę

. Rozpatruje się 

jedną cechę 

X

j

 o wartościach 

x

ij

, (i=1,2,…,n; j=1,2,…,m)

,

 

będącą 

destymulantą. Można ją zamienić na stymulatę 

Z

j

 o wartościach 

z

ij

stosując najczęściej jedno z dwóch następujących 

przekształceń:

Zmiana charakteru cech

{ }

(

)

{ }

{ }

0

ij

i=1,2,...,n

ij

ij

ij

j

i=1,2,...,n

ij

ij

i=1,2,...,n

min x

ij

a= max x

 i=1,2,...,m; j=1,2,...,m

a =0, a = max x , a =2x ,

a =1,

,

z

a x ,

a

z

,

   

.

x

= -

=

19

GK (MADE(02) - 2010)

background image

Zamiana nominanty na stymulantę

. Niech cecha 

X

j

 o 

wartościach 

x

ij

, (i=1,2,…,n; j=1,2,…,m) 

będzie nominantą. 

Pożądaną („normalną”) wartością nominaty może być jedna 
wartość (nominanta punktowa
) lub przedział wartości 
(nominanta przedziałowa
). Niech rozpatrywana nominanta 

X

j

 

będzie nomintą przedziałową, która przyjmuje wartości 
„normalne” z 

przedziału pożądanego

 

[x

d

, x

g

], (d,g=1,2,…,m; d 

 

g)

. Nominanta punktowa przyjmowałaby jedną wartość pożądaną 

równą 

x = x

d

 = x

Lewym przedziałem 

nominanty 

X

j

 nazywa się 

przedział 

[x

1j

, x

d

)

, a 

prawym przedziałem 

– przedział 

(x

g

, x

nj

]

.

 

Niech wektor 

Z

j

 o wartościach 

z

ij 

oznacza stymulatę. 

Przekształcenia nominanty 

X

j

 

w stymulantę 

Z

j

 można dokonać 

stosując np. formułę:

gdzie:

a, b 

- miejsca zerowe funkcji 

f(x)

,

p

1

, p

2

 

– parametry odpowiedzialne za typ funkcji, odpowiednio 

lewego i prawego przedziału nominanty.

Zmiana charakteru cech

( )

(

)

(

)

1

2

p

d

ij

ij

d

d

ij

ij

d

g

p

ij

g

ij

g

g

,

x

dla   x

,x

dla   x

x ,x

dla   x

x

x -

1-

   

x -a

z

f x

1                     

x - x

1-

   

b- x

+�

� - �

� �

� �

� �

=

=�

� �

� �

� �

20

GK (MADE(02) - 2010)

background image

W przypadku, gdy nominanta 
przyjmuje tylko jedną „normalną” 
wartość, 

pożądany przedział

 jej 

wartości sprowadza się do jednej 
wartości (jednego elementu) 

x

p

 

takiej, że 

x

p

 = x

d

 = x

g

. Przykładowy 

wykres funkcji 

f(x)

 dla 

rozpatrywanego przypadku 
nominanty, przy założeniu, że 

p

1

 = 

1

 i 

p

2

 = 2

Zmiana charakteru cech

Przykładowy wykres funkcji 

f(x)

 

przekształcenia nominanty w 
stymulantę przy założeniu, że 

p

1

 = 

1

 i 

p

2

 = 2

21

GK (MADE(02) - 2010)

background image

Możliwość stosowania funkcji 

f(x)

 przekształcania 

nominanty w stymulantę wymaga określenia wartości progowych 

a

 i 

b

, występujących w tej funkcji. Jednym z częściej stosowanych 

sposobów wyznaczania tych wartości jest sposób przedstawiony 
niżej:

jeżeli spełniona jest nierówność                                                      

       to 

jeżeli spełniona jest nierówność                                                      

       to 

Zmiana charakteru cech

{ }

{ }

d

ij

ij

g

i=1,2,...,n

i=1,2,...,n

x - min x

max x - x ,

{ }

{ }

d

g

ij

i=1,2,...,n

ij

i=1,2,...,n

a x

x

max x ,

b max x ,

=

+ -

=

{ }

{ }

ij

i=1,2,...,n

d

g

ij

i=1,2,...,n

a

min x ,

b x

x

min x .

=

=

+ -

{ }

{ }

d

ij

ij

g

i=1,2,...,n

i=1,2,...,n

x - min x

max x - x ,

>

22

GK (MADE(02) - 2010)

background image

W analizie danych opartej na klasyfikacji, bądź grupowaniu 

istotną rolę odgrywa określanie 

odległości

 (podobieństwa) między 

obiektami. Do określania tych odległości służy 

metryka

. Niech 

d

 

oznacza metrykę, a 

d(o

i

,o

k

)

 - odległość metryczną obiektu 

o

k

 od 

obiektu 

o

i

Metryką nazywa się funkcję dwuargumentową 

d

, która 

spełnia następujące własności:

1.d(o

i

,o

k

) > 0 

– odległość między dwoma różnymi obiektami jest 

zawsze dodatnia,

2.d(o

i

,o

k

) = d(o

k

,o

i

– odległość od obiektu 

o

i

 do obiektu 

o

k

 jest 

taka sama jak odległość od obiektu 

o

k

 do obiektu 

o

i

,

3.d(o

i

,o

i

) = 0 

– odległość od punktu 

o

i

 do siebie jest równa 

0

,

4.d(o

i

,o

q

 d(o

i

,o

k

) + d(o

j

,o

q

– odległość między dowolnymi trzema 

obiektami 

o

i

o

q

 i 

o

k

 spełnia własność trójkąta: suma dowolnych 

dwóch odległości jest nie mniejsza od odległości trzeciej.
Dogodną formą przedstawiania odległości między obiektami jest 
macierz odległości 

D

. Jest to macierz kwadratowa, symetryczna, z 

zerowymi wartościami na głównej przekątnej (to wynika z 
własności 1, 2 i 3 metryki). Ponadto każda podmacierz 

3

3

 

macierzy 

D

 spełnia następującą własność: suma każdych dwóch 

spośród trzech elementów nad główną przekątną podmacierzy jest 
nie mniejsza od elementu trzeciego (własność trójkąta – 4-ta 
własność metryki).

Miary odległości dla 

obiektów

23

GK (MADE(02) - 2010)

background image

Macierz 

D

 odległości między obiektami:

Macierz

 

D

 

jest tworzona tylko na podstawie unormowanej 

macierzy 

X

. Elementami macierzy 

D

 są liczby określające 

odległości między obiektami reprezentowanymi przez jej wiersze a 
obiektami reprezentowanymi przez jej kolumny. Istnieje wiele 
mierników odległości, a ich stosowanie zależy od:

skali pomiarowej wartości cech; istnieje wiele miar odległości dla 
przypadku, gdy wartości wszystkich cech obiektu są mierzone w 
takiej samej skali pomiarowej,  

zastosowanej formuły transformacji danych do przekształcenia 
wartości cech, 

spełnienia przez formułę obliczeniową dodatkowych wymagań, 
np. nierówności trójkąta,

skal pomiarowych wartości cech obiektu, gdy te skale są inne.

Miary odległości dla 

obiektów 

12

1n

21

2n

n1

n2

0

d

... d

d

0

... d

D

...

...

... ...

d

d

... 0

=

24

GK (MADE(02) - 2010)

background image

W przypadku 

cech mierzalnych 

najczęściej stosuje się:

1.Odległość Minkowskiego:

gdzie:

d

ik

 – odległość obiektu 

o

i

 

od obiektu 

o

k

,

x

ij

x

kj

 

– wartości unormowanej 

k

-tej cechy obiektów, odpowiednio 

o

i

 oraz 

o

j

 

(elementy macierzy 

X

),

p

 – parametr (

p = 1

 – odległość miejska (Hamminga), 

p = 2

 – 

odległość euklidesowa (stosowana najczęściej), 

p = 

 - odległość 

Czebyszewa). 

Największą wartość elementy 

d

ik

 macierzy 

D

 osiągają dla 

p = 1

która maleje wraz ze wzrostem 

p

, a dla 

p = 

 

wyraża się 

zależnością:

Miary odległości dla 

obiektów

1

m

p

'

'

p

ik

ij

kj

j

  i,k=1,2,...,n; j=1,2,...,m,

d

x

x

,    

=

=

-

{

}

'

'

ik

ij

kj

j 1,2,...,m

i,k=1,2,...,n

d

max x

x ,     

.

=

-

25

GK (MADE(02) - 2010)

background image

2. Odległość Braya-Curtisa:

3. Odległość Canberry:

4. Odległość łukowa:

m

'

'

ij

kj

j=1

ik

m

'

'

ij

kj

j=1

i,k =1,2,...,n

x - x

d =

,   

.

x

x

+

'

'

m

ij

kj

ik

'

'

j=1

ij

kj

i,k =1,2,...,n

x - x

1

d =

,   

.

m

x

x

+

(

)

( )

( )

m

'

'

ij

kj

j=1

ik

m

m

2

2

'

'

ij

kj

j=1

j=1

 i,k =1,2,...,n

1-

x x

d =

,     

.

x

x

Miary odległości dla 

obiektów

26

GK (MADE(02) - 2010)

background image

5. Odległość Mahalanobisa:

gdzie:

Z

ik

 

– 

m

-elementowy wektor, którego elementami 

z

j

 

są różnice 

unormowanych wartości cech obiektów 

o

i

 oraz 

o

k

C

-1

 – macierz odwrotna do macierzy kowariancji utworzona na 

podstawie nieunormowanej macierzy 

X

, tj. macierz 

kwadratowa 

m

m

 o elementach:

przy czym

Odległość ta powinna być stosowana w przypadku, gdy cechy 

mają rozkłady normalne oraz zachodzi potrzeba 
uwzględnienia korelacji między nimi.

-1

T

ik

ik

ik

i,k=1,2,...,n,

d =Z C Z      

'

'

j

ij

kj

 j=1,2,...,m

z =x - x ,    

,

(

)

(

)

n

jl

ij

j

il

l

i=1

j,l=1,2,...,m

1

c =

x - x

x - x ,    

,

n

n

j

ij

i=1

j =1,2,...,m

1

x =

x ,    

.

n

Miary odległości dla 

obiektów

27

GK (MADE(02) - 2010)

background image

6. Odległość miejska (taksówkowa, manhatańska):

W przypadku 

cech niemierzalnych 

(skala nominalna lub 

porządkowa, cechy jakościowe)

 najczęściej stosowaną miarą 

podobieństwa obiektów 

O

i

 oraz 

O

jest 

współczynnik 

podobieństwa Sneatha

, definiowany jako:

gdzie 

(warunek)

 indykator (funkcja) postaci:

Miary odległości dla 

obiektów

(

)

m

ik

ij

kj

j=1

i,k =1,2,...,n

1

d =

x

x ,     

.

m

I

(

)

warunek = prawda

warunek

inaczej .

1,    

,

=

0,    

I

m

'

'

ik

ij

kj

j=1

i,k =1,2,...,n

d =

x - x ,   

.

28

GK (MADE(02) - 2010)

background image

W przypadku 

cech niemierzalnych 

(skala nominalna, cechy 

binarne) 

konieczne

 

jest ustalenie sposobu kodowania wartości 

tych cech, tj. ich kategorii: cecha „występuje” (+) i cecha „nie 
występuje” (-) w badanych obiektach:

Przyjmuje się oznaczenia:

gdzie:

a

d

 – liczba przypadków jednoczesnego występowania (

a

) lub nie 

występowania (

b

) cechy w badanych obiektach 

O

i

 oraz 

O

k

,

b

c

 – liczba przypadków występowania cechy w obiekcie 

O

i

 i nie 

występowania w obiekcie 

O

(

b

) lub nie występowania cechy w 

obiekcie 

O

i

 i występowania w obiekcie 

O

 (

c

).

Miary odległości dla 

obiektów

Cecha X

j

a

j

b

j

c

j

d

j

Obiekt 

O

i

Obiekt 

O

k

+

+

1

0

0

0

+

-

0

1

0

0

-

+

0

0

1

0

-

-

0

0

0

1

   

   

   

   

,

,

,

,

1

1

1

1

m

j

j

m

j

j

m

j

j

m

j

j

d

d

c

c

b

b

a

a

29

GK (MADE(02) - 2010)

background image

W przypadku 

cech niemierzalnych binarnych 

najczęściej stosuje się:

1.Odległość Czekanowskiego:

2.Odległość Jaccarda:

3.Odległość Sokala i Michenera:

4.Odległość Russela i Rao:

Miary odległości dla 

obiektów

ik

  i,k=1,2,...,n,

2 a

d

1-

,    

2 a+b+c

=

ik

  i,k=1,2,...,n,

a

d

1-

,    

a+b+c

=

ik

  i,k=1,2,...,n,

a d

d

1-

,    

a+b+c d

+

=

+

ik

  i,k=1,2,...,n.

a

d

1-

,    

a+b+c d

=

+

30

GK (MADE(02) - 2010)

background image

W celu określenia 

podobieństwa cech 

badanych obiektów 

stosuje się miary odległości, które są 

semimetrykami

,  ponieważ 

nie spełniają własności trójkąta. Miary te są oparte na 
współczynnikach korelacji między cechami. Do konstrukcji 

macierzy odległości

 

D dla cech 

stosuje się zwykle następujące 

semimetryki:

semimetryka 1:

gdzie: 

r

jl

 – współczynnik korelacji dla 

j

-tej i 

l

-tej cechy obiektu,

semimetryka 2:

semimetryka 3:

semimetryka 4:

Miary odległości dla cech 

obiektów

m,

1,2,...,

l

j,

,

r

1

2

d

    

jl

jl

m,

1,2,...,

l

j,

,

r

1

d

2

jl

    

jl

m,

1,2,...,

l

j,

,

r

1

d

2

jl

    

jl

.

m

1,2,...,

l

j,

,

r

1

d

    

jl

jl

31

GK (MADE(02) - 2010)

background image

32

GK (MADE(02) - 2010)


Document Outline