background image

06.03.2013  

1  

Pracownia Chemometrii Środowiska 

dr hab. Tomasz Puzyn, prof. UG 

Pracownia Chemometrii Środowiska 

e-mail: 

t.puzyn@qsar.eu.org

 

tel. (58) 523 54 51 

 

Pracownia Chemometrii Środowiska 

 
 
1.  Scharakteryzowanie tzw. tendencji centralnej oraz 

rozrzutu wyników 
 
 

2.  Sprawdzenie rozkładu zmiennej 

 
 

3.  Wykrycie tzw. punktów odbiegających (ang. outliers

2  

background image

06.03.2013  

2  

Pracownia Chemometrii Środowiska 

1; 2; 3; 4; 5 

Średnia m = 3 

Mediana M = 3 

1; 2; 3; 4; 50 

Średnia m = 12  

Mediana M = 3 

3  

Pracownia Chemometrii Środowiska 

•  Średnia ważona M

W

 
 
 
 

•  Średnia geometryczna M

G

 
 
 
 

•  Średnia harmoniczna M

H

M

G

=

x

i

i

=1

n

n

M

H

=

n

1

x

i

i

=1

n

M

W

=

w

i

x

i

i

=1

n

w

i

i

=1

n

4  

background image

06.03.2013  

3  

Pracownia Chemometrii Środowiska 

5  

Pracownia Chemometrii Środowiska 

background image

06.03.2013  

4  

Pracownia Chemometrii Środowiska 

28; 29; 30; 31; 32 

10; 20; 30; 40; 50 

Średnia m = 30 

Średnia m = 30 

Odchylenie standardowe s = 1,6 

Odchylenie standardowe s = 15,8 

7  

Pracownia Chemometrii Środowiska 

10; 20; 30; 40; 50 

Średnia m = 30 

s

2

=

(x

i

− m)

2

i

−1

n

n

− 1

s

=

(x

i

− m)

2

i

−1

n

n

− 1

x

i

− m)

2

i

=1

n

i

x

i

(x

i

-m)  (x

i

-m)

2

1

10

-20

400

2

20

-10

100

3

30

0

0

4

40

10

100

5

50

20

400

n=5

1000

s

2

 = 1000/4 = 250   s = √s

2

 = 15,8 

8  

background image

06.03.2013  

5  

Pracownia Chemometrii Środowiska 

Z

ij

=

X

ij

− X

j

s

j

10 

20 

30 

40 

50 

Pracownia Chemometrii Środowiska 

-1,26

 

-0,63

 

0,00

 

0,63

 

1,26

 

Z

ij

=

X

ij

− X

j

s

j

10 

20 

30 

40 

50 

-1,26

 

-0,63

 

0,00

 

0,63

 

1,26

 

background image

06.03.2013  

6  

Pracownia Chemometrii Środowiska 

11  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(

x)

 -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

Pracownia Chemometrii Środowiska 

12  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(x)  -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

σ  -­‐  odchylenie  standardowe  

μ  -­‐  średnia  arytmetyczna  

background image

06.03.2013  

7  

Pracownia Chemometrii Środowiska 

Dla każdej zmiennej obliczamy: 
 

•  Wartość najmniejszą 

MIN

•  Wartość największą 

MAX

•  Stosunek 

MIN/MAX

•  Rozstęp 

r = MAX – MIN

•  Środek rozkładu 

d = (MAX+MIN)/2 

•  Średnią 

m

•  Inne miary tendencji centralnej (np. medianę 

M

), 

•  Odchylenie standardowe 

s

•  Współczynnik skośności rozkładu normalnego 

q

•  Współczynnik spłaszczenia (kurtozę) 

K

13  

Pracownia Chemometrii Środowiska 

14  

background image

06.03.2013  

8  

Pracownia Chemometrii Środowiska 

MAX

 lub 

MIN

 znacznie różni się od spodziewanej wartości à 

prawdopodobnie punkt odbiegający. 

| MIN/MAX | < 0,1

 à zmienna może nie mieć rozkładu normalnego. 

m ≈ MAX i m ≠ d

 lub 

m ≈ MIN i m ≠ d

 à rozkład silnie skośny 

m >> M 

lub 

m << M 

à

 rozkład skośny lub punkty odbiegające 

r/s < 4

 (dla n < 50) lub r/s < 5 (dla n > 50) à zmienna może nie mieć rozkładu 

normalnego (prawdopodobna niejednorodność w rozkładzie). 

|q| >> 0

 à rozkład prawdopodobnie nie jest symetryczny lub istnieje punkt 

odbiegający. 

K<0

 à rozkład prawdopodobnie bardzo spłaszczony z węższymi częściami 

brzegowymi lub 

K>0

 à krzywa rozkładu bardzo stroma w części centralnej i 

relatywnie długie części boczne. 

15  

Pracownia Chemometrii Środowiska 

< 5,3 

[5,3; 5,8) 

[5,8; 6,3) 

41 

[6,3; 6,9) 

114 

[6,9; 7,4) 

139 

[7,4; 7,9) 

78 

[7,9; 8,5) 

22 

8,5 ≥ 

n = 400 
m = 7,0 
s = 0,58 

16  

background image

06.03.2013  

9  

Pracownia Chemometrii Środowiska 

1.  Dzielimy wszystkie zdarzenia 

elementarne na przedziały o jednakowej 
szerokości, przy czym ich liczba 

k ≤ n/4

   dla n = 

kilkanaście

 à 

k = 4-5 

   dla n = 

kilkaset

 à 

k = 8-10

 

   dla n = 

kilka tys

. à 

k = ok. 12 

 

2.  W przypadku 

parzystej liczby 

przedziałów

 średnia powinna leżeć w 

środkowym przedziale;  
w przypadku 

nieparzystej liczby 

– w 

pobliżu granicy pomiędzy dwoma 
środkowymi przedziałami. 
 

3.

Skrajne wyniki 

powinny leżeć możliwie 

w środku skrajnych przedziałów. 

17  

Pracownia Chemometrii Środowiska 

18  

Standaryzowana  wartość  mierzonej  cechy  (x)  

 f(

x)

 -­‐  

G

ęs

to

ść

 p

raw

do

po

do

bi

stw

a  

background image

06.03.2013  

10  

Pracownia Chemometrii Środowiska 

•  Przyjmujemy 

założenie o rozkładzie 

normalnym pozostałych punktów

 

•  Stosujemy 

odpowiednie testy 

statystyczne

, zależnie od liczebności 

wyników: 
 
Jeżeli 

n < 10 

à

 test Q-Dixona, 

 
Jeżeli 

10 < n < 40 

à

 rozkład t-Studenta, 

     
Jeżeli 

n > 40 

à

 reguła 3 σ. 

19  

Pracownia Chemometrii Środowiska 

Przyjęcie założeń, określenie hipotezy 

zerowej (H

0

) oraz hipotezy alternatywnej 

(H

A

Otrzymanie rozkładu z próby, wyznaczenie 

poziomu istotności oraz obszaru 

krytycznego 

Obliczenie wartości statystyki testowej 

Podjęcie decyzji na podstawie wartości 

statystyki testowej oraz reguł decyzyjnych 

dla danego testu 

20  

background image

06.03.2013  

11  

Pracownia Chemometrii Środowiska 

Przyjąć H

Odrzucić H

H

0

 jest 

prawdziwa 

OK 

Błąd I-go 

rodzaju 

H

0

 jest 

fałszywa 

Błąd II-go 

rodzaju 

OK 

Wniosek z testu 

Pra

w

da

 

21  

Pracownia Chemometrii Środowiska 

1.

Porządkujemy

 

wyniki

 w kolejności rosnącej: 

x

1

 < x

2

 < x

3

 <…< x

n-1

 < x

n

  

 

2.

Formułujemy 

H

0

: x

1

 (lub odpowiednio x

n

) nie jest punktem odbiegającm 

                      H

A

: x

1

 (lub odpowiednio x

n

) jest punktem odbiegającym 

 

3.

Obliczamy statystykę Q

 
                                                                            gdy podejrzewamy x

1

 

 
lub 
                                                                            gdy podejrzewamy x

 

4.  Uzyskaną wartość Q 

porównujemy z tablicami 

(Q

kr

) na odpowiednim 

poziomie ufności α. 

Jeżeli Q ≥ Q

kr

 

à

 

punkt odbiegający

 (bo z 

prawdopodobieństwem 1-α nie należy do tej samej populacji co pozostałe). 
 

10 

Q

kr 

0,941  0,765  0,642  0,560  0,507  0,468  0,437  0,412 

α=0,05 

22  

background image

06.03.2013  

12  

Pracownia Chemometrii Środowiska 

Statystyka t 
•  Obliczamy statystykę t ze wzoru 
•  Odnajdujemy w tablicach wartość t

kr

 dla założonego 

poziomu istotności α. 

•  Jeżeli t > t

kr

 to z prawdopodobieństwem 1-α nie 

należy do populacji (odrzucamy). 

 

Przedział ufności 
•  Obliczamy przedział, w którym z 

prawdopodobieństwem 1-α znajdują się wszystkie 
wartości x

i

 (tzw. przedział ufności). 

•  Każdą wartość x

i

 leżącą poza wyznaczonym 

przedziałem możemy odrzucić (popełniając przy tym 
błąd nie większy niż α). 

UWAGA! Średnią i odchylenie standardowe obliczamy dla pozostałych punktów 
 bez „podejrzanego

 wyniku!!!  

23  

Pracownia Chemometrii Środowiska 

24  

background image

06.03.2013  

13  

Pracownia Chemometrii Środowiska 

0.100 

0.050 

0.020 

0.010 

6.314 

12.706 

31.821 

63.656 

2.920 

4.303 

6.965 

9.925 

2.353 

3.182 

4.541 

5.841 

2.132 

2.776 

3.747 

4.604 

2.015 

2.571 

3.365 

4.032 

1.943 

2.447 

3.143 

3.707 

1.895 

2.365 

2.998 

3.499 

1.860 

2.306 

2.896 

3.355 

1.833 

2.262 

2.821 

3.250 

10 

1.812 

2.228 

2.764 

3.169 

11 

1.796 

2.201 

2.718 

3.106 

12 

1.782 

2.179 

2.681 

3.055 

13 

1.771 

2.160 

2.650 

3.012 

14 

1.761 

2.145 

2.624 

2.977 

15 

1.753 

2.131 

2.602 

2.947 

16 

1.746 

2.120 

2.583 

2.921 

17 

1.740 

2.110 

2.567 

2.898 

18 

1.734 

2.101 

2.552 

2.878 

19 

1.729 

2.093 

2.539 

2.861 

α – poziom istotności 

ν = n - 1 

ν 

– 

liczb

st

op

ni

 sw

ob

od

n = 19 
v = 18 
m = 69,5 
s = 4,8 

25  

Pracownia Chemometrii Środowiska 

Jeżeli dany wynik x

i

 znajduje się o więcej niż 3 odchylenia standardowe od 

średniej to z prawdopodobieństwem ok. 99 % możemy mówić, że nie należy on do 
populacji. 

26  

Zakres 

P(A) 

[-­‐1,0;  1,0]

≈  0.68

[-­‐2,0;  2,0]

≈  0.95

[-­‐3,0;  3,0]

≈  0.99