background image

 

Wykład 1: Wstępne 

przetwarzanie danych

Biometria i 

biostatystyka

background image

Literatura

Koronacki J., Mielniczuk J.: 
Statystyka dla studentów 
kierunków technicznych i 
przyrodniczych. 
WNT, Warszawa 
2001

Greń J: Statystyka matematyczna – 
modele i zadania. 
PWN Warszawa

background image

Program kursu

1.

Wstępne przetwarzanie danych

2.

Prezentacja danych

3.

Zmienne losowe i ich rozkłady

4.

Podstawy wnioskowania statystycznego

5.

Testy parametryczne

6.

Test 1

7.

Testy zgodności dopasowania

8.

Wnioskowanie o proporcjach

9.

Nieparametryczne metody statystyczne

10.

Analiza zależności

11.

Test 2

background image

Nauka zajmująca się badaniem zmienności 
populacji organizmów. Wyniki pomiarów 
biometrycznych po opracowaniu metodami 
statystyki matematycznej wykorzystywane 
są, między innymi w antropologii, fizjologii, 
genetyce, hodowli, medycynie, paleontologii. 

Biometria

background image

Biometria to również technika dokonywania 

pomiarów istot żywych. W najnowszych 

zastosowaniach ukierunkowana jest na 

metody automatycznego rozpoznawania ludzi 

na podstawie ich cech fizycznych. Przykładem 

urządzeń do pomiarów biometrycznych na 

podstawie których można identyfikować 

konkretne osoby jest system rozpoznawania 

tęczówki oka rejestrujący obraz tęczówki oka.

Biometria

www.wikipedia.pl

background image

Statystyka – cóż to jest?

Naukowa analiza 
danych opisujących 
naturalną zmienność.

background image

Naukowa analiza:

Zbieranie danych dokonywane jest z 
uwzględnieniem ogólnie akceptowanych 
kryteriów przeprowadzania 
eksperymentów naukowych.

Prezentacja danych oraz wyników analiz 
musi być przeprowadzana obiektywnie, 
zgodnie z zasadami ‘kodu etycznego 
naukowca’. 

„Liczby nigdy nie kłamią, wszystkiemu 

winni są statystycy”

background image

Dane

Statystyka to analiza zjawisk, które 
dotyczą populacji lub grupy 
osobników; opiera się na analizie 
zbioru informacji, a nie pojedynczego 
pomiaru. Oznacza to, że nie będzie 
nas interesować pojedynczy osobnik.

Dane stanowią pomiary bądź 
zliczenia.

background image

Naturalna zmienność:

Analizować będziemy jedynie takie 
zdarzenia, które w naturze nie 
podlegają bezpośrednie naszej kontroli 
(np. liczba ziaren grochu w strąku).

Czasami dopuszczalne jest częściowe 
kontrolowanie czynników przez badacza 
(np. mierząc krzywą cukrową u osób z 
podejrzeniem cukrzycy podaje się im 
wcześniej odpowiednią dawkę cukru).

background image

 

Podstawowym celem analizy 
statystycznej jest wnioskowanie o 
cechach dużej grupy osobników na 
podstawie informacji uzyskanej z 
relatywnie małolicznej grupy badanej. 

Takie podejście wymaga 
sprecyzowania pojęć populacji i próbki.

background image

Podstawowe definicje 

Dane składają się z pojedynczych 

obserwacji

, które są pomiarami 

dokonanymi na pojedynczej 
jednostce.

Jeśli mierzymy wzrost u 100 osób, 
wówczas wzrost każdej z osób stanowi 
pojedynczą obserwację.

background image

Podstawowe definicje

Próba

 jest zbiorem pojedynczych 

obserwacji wybranych z 
zastosowaniem specyficznych 
kryteriów selekcji.

Zebranych 100 pomiarów wzrostu 

stanowi próbę.

background image

Podstawowe definicje

Cecha, którą mierzymy w 
pojedynczych obserwacjach 
nazywana jest 

zmienną

.

Więcej niż jedna zmienna może być 
mierzona u pojedynczej jednostki.

Możemy mierzyć u każdej z osób jej wzrost 
oraz np. masę ciała i wiek.

background image

Podstawowe definicje

Populacja

 to całość pojedynczych 

obserwacji, o których przeprowadzane 
jest wnioskowanie statystyczne, 
istniejąca gdziekolwiek na świecie, 
albo przynajmniej w dokładnie 
zdefiniowanym w dziedzinie czasu i 
przestrzeniu obszarze próbkowania.

Przykładowo: 

1. Wszyscy ludzie w wieku 18-25 lat 

2. Wszyscy ludzie w wieku 18-25 w 

Gliwicach

background image

Trochę więcej o zmiennych 
...

Możemy zatem powiedzieć, że zmienna 
to cecha, która zmienia się u osobników 
w jakiś określony sposób. 

Cecha, która nie jest różnorodna nie 
podlega zainteresowaniu statystyków.

background image

Trochę więcej o zmiennych 
...

Stałocieplność u ssaków nie jest 
zmienną ponieważ wszystkie one 
są stałocieplne. 
Temperatura ciała poszczególnych 
ssaków może być zmienną.

 

background image

Trochę więcej o zmiennych 
...

Zmienne

Zmienne 

pomiarowe

Zmienn

rangow

e

Atrybut

y

Zmienne 

ciągłe

Zmienne 

dyskretne

background image

Zmienne pomiarowe 
(mierzalne)

Zmienne pomiarowe

 to takie, 

których różne wartości mogą być 
uporządkowane numerycznie .

Mogą być wyrażone w skali 
ilorazowej bądź przedziałowej.

background image

Zmienne pomiarowe

Są dwie najważniejsze cechy 

skali 

ilorazowej

:

W całym zakresie skali jest ustalona, niezmienna 
jednostka.

Zdefiniowany jest punkt zerowy, który ma 
znaczenie fizyczne.

background image

Cóż to oznacza?

Stała jednostka

:

Przykładowo, różnica wzrostu pomiędzy 
osobąmi o wzrostach 166 cm i 167 cm 
jst taka sama jak różnica pomiędzy 
osobami 180 cm i 181 cm

.

Punkt zerowy

:

Pozwala na określenie stosunku dwóch 
pomiarów. Możemy zatem powiedzieć, że 90 
cm to połowa 180 cm.

background image

Zmienne pomiarowe

Niektóre skale spełniają warunek stałej 

jednostki, ale nie posiadają zera 

fizycznego. Takie skale nazywamy 

skalami przedziałowymi

.

Książkowym przykładem są skale temperatury: Celsius (ºC) 

i Fahrenheit (ºF). Różnica temperatur pomiędzy 20ºC a 

25ºC jest taka sama w sensie energetycznym jak różnica 

pomiędzy 5ºC 10ºC. Jednak nie można powiedzieć, że 

temperatura 40ºC jest dwukrotnością temperatury 20ºC; 

punkt zerowy został zdefiniowany arbitralnie. (Takiego 

problemu nie ma w przypadku stosowania skali Kelvina)

background image

Zmienne pomiarowe

Niektóre skale, często stosowane w 
biologii i medycynie, to skale 
przedziałowe zwane 

skalami 

cyklicznymi.

Pora dnia, pora roku to przykłady takich skal. Okres 
czasu pomiędzy 14:00 a 15:30 jest taki sam jak 
pomiędzy 8:00 a 9:30. Nie możemy nic powiedzieć 
o stosunku pór dnia. 

background image

Zmienne pomiarowe

Występują dwa typy zmiennych pomiarowych:

Zmienne ciągłe

 teoretycznie przyjmujące 

nieskończoną liczbę wartości pomiędzy dwoma 

ustalonymi wielkościami.

Zmienne dyskretne 

to zmienne, które 

przyjmują wartości ze ściśle określonego, 

skończonego zbioru wartości dopuszczalnych.

background image

Ciągłe versus dyskretne

Ciągłe:

długość (cm, in), waga (mg, lb), powierzchnia 

(sq cm, sq ft), objętość (ml, qt), prędkość 

(cm/sec, mph, mg/min), czas trwania (hr, yr), 

kąt (grad, rad), temperatura (º), procenty

Dyskretne:

Liczność (liści, fragmentów, zębów), liczba 

potomków, liczba białych krwinek w 1mm

3

 

krwi, liczba żyraf u wodopoju, liczba jajeczek 

złożonych przez konika polnego

background image

Zmienne rangowe

Niektóre zmienne nie mogą być 
dokładnie zmierzone, ale można 
uporządkować ich poziomy rosnąco 
lub malejąco. O takich danych mówi 
się, że są przedstawione w 

skali 

porządkowej (rangowej)

, opisującej 

bardziej relacje aniżeli ilościowe 
różnice .

background image

Zmienne rangowe

Wyrażając jakąś zmienną w skali rangowej, 
jako ciąg wielkości 1, 2, 3, 4, 5 nie 
zakładamy, iż różnica pomiędzy rangami 1 i 
2 jest taka sama (bądź proporcjonalna do) 
jak różnica pomiędzy rangami 2 i 3. 

Zmienne przedstawione w skali porządkowej 
wnoszą znaczniej mniej informacji aniżeli 
zmienne w skali ilorazowej bądź 
przedziałowej.

background image

Atrybuty

Zmienne, które nie mogą być 

zmierzone, a jedynie wyrażone są 

jakościowo nazywa się 

atrybutami 

skalę, w której są wyrażone nazywamy 

skalą nominalną

 (od słowa „name”).

Atrybuty to przykładowo takie cechy 

jak: żywy/martwy, prawo-/leworęczny, 

mężczyzna/kobieta, kolor oczu (zielony, 

niebieski, szary, brązowy), kolor 

włosów (czarne, brązowe, blond czy 

rude)

.

background image

Wstępne przetwarzanie 
danych

Kiedy dane zostały już zebrane w 

konkretnym eksperymencie badawczym, 
powinne być najpierw przedstawione w 
postaci, która jest użyteczna dla 
dalszych obliczeń i interpretacji. 

W pierwszym kroku najczęściej wykreśla 

się 

wykresy częstościowe

 oraz wyznacza 

się tzw. 

statystyki opisowe

.

background image

Wykresy częstościowe

Ilościowe

Są to reprezentacje graficzne realizacji 

zmiennych pomiarowych, zarówno 

ciągłych jak i dyskretnych, oraz 

zmiennych rangowych.

Jakościowe

Dotyczą tylko zmiennych typu atrybut.

background image

Przykład

U 462 dzieci z terenu Górnego Śląska 

została rozpoznana cukrzyca typu 1 na 
przestrzeni lat 1989-1996. 

Zebrano następujące dane:

Płeć dziecka (chłopiec/dziewczynka) 

Numer kolejny dziecka w rodzinie 

Rok urodzenia

Waga urodzeniowa

background image

Przykład 1 – Płeć

251

207

0

50

100

150

200

250

300

Female

Male

N

of

 c

as

es

54.8

45.2

Female
Male

Można przedstawić dane w postaci zliczeń bądź 
procentów

background image

Przykład 2 – numer 
dziecka

165

54

7

5

1

223

0

50

100

150

200

250

1st

2nd

3rd

4th

5th

6th

Child number in a family

N

of

 c

as

es

165

67

223

0

50

100

150

200

250

1st

2nd

3rd or later

Child number in a family

N

of

 c

as

es

Czasami zachodzi potrzeba przekodowania 

danych

Zmienna dyskretna

Zmienna rangowa

background image

Przykład 3 – rok urodzenia

1315

30

43

29

52

4144

36

25252525

2021

1311

5 4 2 1

6

0

10

20

30

40

50

60

Birth year

N

of

 c

as

es

102

137

86

66

29

8

34

0

20

40

60

80

100

120

140

160

75-77 78-80 81-83 84-86 87-89 90-92 93-96

Birth year

N

of

 c

as

es

Grupowanie klas często pozwala uzyskać 

bardziej spójny i regularny kształt wykresu.

background image

Statystyki opisowe

Istnieje potrzeba zwięzłego podsumowania 
danych w takiej postaci, która pozwoli na 
ocenę i łatwą prezentację ich własności. 
Wykresy częstościowe są taką formą. 
Jednakże potrzebujemy również opisu w 
formie liczb, które pozwoliłyby na zwięzły i 
dokładny ilościowy opis własności 
obserwowanego rozkładu częstości. 
Nazywamy je 

statystykami opisowymi

background image

Statystyki opisowe

Definiuje się dwie podstawowe grupy 

statystyk opisowych:

Statystyki położenia 

(miary centralnej 

tendencji) – określają położenie próbki w 
przestrzeni reprezentującej analizowaną 
zmienną losową.

Statystyki rozrzutu 

(miary zmienności) – 

oceniają rozrzut pomiarów wokół środka 
dystrybucji.

background image

Statystyki położenia

background image

Średnia arytmetyczna

Najszerzej używaną statystyką 
położenia jest 

średnia arytmetyczna

powszechnie nazywana średnią. 

Każdy pomiar (realizacja zmiennej 
losowej) wchodzący w skład próby 
oznaczamy jako x

i

. Indeks i  jest liczbą 

całkowitą przyjmującą wartości od 1 
do N – całkowitej liczby osobników w 
próbie. 

background image

Średnia arytmetyczna

Średnia arytmetyczna najczęściej oznaczana jest jako       

N

x

x

N

i

i

1

x

background image

Przykład 4

Zmierzono wzrost losowo 
wybranych dziewięciolatków. Jaka 
jest średnia z próby?

X=[114, 123.3, 116.7, 129.0, 118, 
124.6, 123.1, 117.4, 111, 121.7, 
124.5, 130.5] 

N=12

15

.

121

12

5

.

130

7

.

116

3

.

123

114

x

background image

Przykład 5

Strukturę zarobków w pewnej 

firmie przedstawia tabela. 

Ile wynosi średnia pensja?

Pensja

Liczba 

osób

(1000;2000]

10

(2000; 4000]

25

(4000; 6000]

12

(6000;8000]

8

(8000;10000]

4

(10000;20000]

2

2

4

25

10

15000

2

3000

25

1500

10

w

x

4459

x

background image

Średnia ważona

Często występuje potrzeba wyznaczenia 
wartości średniej średnich bądź innych 
statystyk, których wiarygodność jest 
różna z powodu np. różnych liczności 
próbek. W takim przypadku trzeba 
wyznaczyć 

średnią ważoną

N

i

i

N

i

i

i

w

w

x

w

x

1

1

background image

Przykład 6

Dokonano pomiaru stężenia pewnego 

związku w ściekach nieoczyszczonych. 
Próbki pobrano i przebadano w trzech 
laboratoriach, zbierając za każdym razem 
ich inna liczbę. Jakie jest średnie stężenie 
tej substancji w ściekach? 

W tym przypadku trzy wartości średnie 

wyznaczono na podstawie trzech prób o 
różnych licznościach, ich średnia ważona 
wynosi zatem:

Średnie 

stężenie 

[%]

Liczność 

próby

3.85

12

5.21

25

4.70

8

76

.

4

8

25

12

70

.

4

8

21

.

5

25

85

.

3

12

w

x

i różni się od standardowej średniej 
arytmetycznej

59

.

4

3

70

.

4

21

.

5

85

.

3

x

background image

Średnia geometryczna

Często dokonuje się transformacji 
zmiennej losowej wyliczając logarytmy 
ich wartości. Jeśli wyliczymy średnią 
arytmetyczną pomiarów po 
transformacji i dokonamy transformacji 
odwrotnej, to uzyskana liczba będzie 
inna niż średnia arytmetyczna danych w 
surowej postaci. Nazywa się ją 

średnią 

geometryczną

.

background image

Średnia geometryczna

Korzystając z własności funkcji 

logarytmicznej możemy tę wielkość 

przedstawić jako: 

N

x

x

N

i

i

GM

1

log

log

N

N

i

i

GM

i

i

i

i

GM

x

x

x

x

N

N

x

N

x

x

N

1

1

log

log

1

log

log

log

background image

Średnia harmoniczna

Odwrotność średniej arytmetycznej 
odwrotności pomiarów nazywana 
jest 

średnią harmoniczną

 i 

oznaczana jest najczęściej 
symbolem H

N

i

i

H

N

i

i

H

x

N

x

x

N

x

1

1

1

1

1

1

1

1

background image

Mediana

Mediana

 M definiowana jest jako taka 

wartość zmiennej (po uporządkowaniu 
danych w szereg rosnący), że taka 
sama liczba pomiarów jest od niej 
większa i mniejsza. 

Jeśli liczność próbki jest liczbą 
nieparzystą, wówczas

2

/

)

1

( 

N

X

M

background image

Mediana

Gdy N jest liczbą parzystą wtedy 
wyrażenie (N+1)/2 nie jest liczbą 
całkowitą – nie ma po prostu liczby 
środkowej. Miast niej są dwie liczby 
najbliższe środka, a mediana jest 
wyznaczana jako średnia z nich:

2

/

)

(

1

2

2

N

N

X

X

M

background image

Obliczanie mediany

1.

Uporządkuj wszystkie pomiary 
rosnąco

2.

Jeśli n (liczba pomiarów) jest 
nieparzyste, M to środkowy 
pomiar na liście

3.

Jeśli n jest parzyste, M jest średnią 
dwóch środkowych pomiarów

background image

Przykład 7

Znajdź medianę liczby mil na galon 
benzyny samochodów klasy kabriolet

Uporządkuj dane w rosnącym 
porządku

13  13  16  19  21  21  23  23  24  26
26  27  27  27  28  28  30  30  68

Nieparzyste n, więc mediana jest 
środkiem listy, czyli 26

background image

Mediana

Kiedy wyniki obserwacji się 
powtarzają, mogą się pojawić 
problemy w szukaniu mediany. 
Obliczanie mediany jest 
trudniejsze, ponieważ wiele 
wartości leży w tym samym 
przedziale (klasie) co mediana i 
mają to samo oznaczenie klasy.

background image

Przykład 8

Dane są w formie rozkładu 
częstości z powodu dużej 
ilości obserwacji w 
doświadczeniu

Mediana dla zestawionej 
tabeli jest (n+1)/2 wartością. 
Tutaj n=9465 więc szukamy 
4733-ciej obserwacji.

4733-ci wynik jest w klasie 
107.5, czyli gdzieś między 
103.5 a 115.5. Ta klasa 
zawiera 2240 wyników, a 
wynik 4733 jest 4733-
3049=1684-tym wynikiem w 
klasie.

Klasa 

wagowa

Liczność f

Dystrybuanta F

59.5

2

2

67.5

6

8

75.5

39

47

83.5

385

432

91.5

888

1320

99.5

1729

3049

107.5

2240

5289

115.5

2007

7296

123.5

1233

8529

131.5

641

9170

139.5

201

9371

147.5

74

9445

155.5

14

9459

163.5

5

9464

171.5

1

9465

background image

Przykład 8

background image

Przykład 8

Przyjmując rozkład 
równomierny w klasie, 
wartość nr 4733 będzie w:

całego przedziału klasy lub w 
75.18% odległości między 
dolną a górną granicą 
przedziału.

Ponieważ przedział każdej 
klasy to 8 oz, wartość 
mediany to  0.7518 x 8.0 = 
6.014 oz powyżej dolnej 
granicy klasy (103.5 oz); czyli 
mediana wag noworodków 
wynosi 103.5 + 6.014 = 

109.514

 

oz.

Klasa

Liczność f

Dystrybuanty  F

59.5

2

2

67.5

6

8

75.5

39

47

83.5

385

432

91.5

888

1320

99.5

1729

3049

107.5

2240

5289

115.5

2007

7296

123.5

1233

8529

131.5

641

9170

139.5

201

9371

147.5

74

9445

155.5

14

9459

163.5

5

9464

171.5

1

9465

7518

.

0

2240

1684

background image

Kwartyle

Mediana to tylko jedna z rodziny statystyk 
porządkowych, dzielących wyniki na 
części. Dzieli zbiór na dwie równoliczne 
części. 

Z kolei 

kwartyle 

to punkty w  25%, 50%, i 

75% zbioru – które dzielą rozkład na 
pierwszą, drugą, trzecią i czwartą ćwiartkę. 
Są zwykle opisywane symbolami Q

1

 (dolny 

kwartyl), M (mediana), Q

3

 (górny kwartyl).

background image

Kwartyle

Dolnym kwartylem 

próby nazywamy 

medianę podpróby, składającej się ze 
wszystkich elementów próby o 
wartościach mniejszych od mediany całej 
próby. 

Górnym kwartylem

 próby nazywamy 

medianę podpróby, składającej się ze 
wszystkich elementów próby o 
wartościach większych od mediany całej 
próby.

background image

Kwartyle

Przykład 9
Dane: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
Dane uporządkowane: 6, 7, 

15

, 36, 39, 

40

, 41, 42, 

43

, 47, 49

Q

1

=15; Q

2

=M=40; Q

3

=43

Przykład 10
Dane uporządkowane: 7, 15, 36, 39, 40, 41
Q

1

=15; Q

2

=M=37.5; Q

3

=40 

Przykład 11
Dane uporządkowane: 1 2 3 4
Q

1

=1.5; Q

2

=M=2.5; Q

3

=3.5 

background image

Inne statystyki 
porządkowe

Istnieją także kwintyle, decyle i 
percentyle, dzieląc rozkład na 
odpowienio 5, 10, i 100 równych 
części.

Ogólny termin dla tych wszystkich 
to 

kwantyle

.

background image

Moda

Modę

 zazwyczaj definiuje się jako pomiar 

występujący najczęściej w analizowanym 
zbiorze danych. Jednakże czasami lepiej 
zdefiniować ją jako pomiar o istotnie 
większej koncentracji/częstości 
występowania od pozostałych. 

W niektórych przypadkach może 
występować więcej niż jeden punkt 
koncentracji. 

background image

Przykład 12

Załóżmy, iż próba składa się z następujących 
pomiarów: 6, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 
11, 12, 12, 12, 12, 12, 12, 13, 13, i 14 mm. 

0

1

2

3

4

5

6

7

N

o

 o

in

d

iv

id

u

a

ls

6

7

8

9 10 11 12 13 14

length [mm]

Główna moda

Moda oboczna

Rozkład dwumodalny

background image

Uwagi

background image

Uwagi

Średnia arytmetyczna jest najczęściej 
stosowaną statystyką położenia, jednak 
jest bardzo wrażliwa na wartości odstające 
(istotnie różne od pozostałych), podczas 
gdy mediana i moda są nań odporne.

W przypadku symetrycznego i 
jednomodalnego rozkładu zmiennej 
losowej średnia arytmetyczna, mediana i 
moda są sobie równe.

background image

Statystyki rozrzutu

background image

Zakres

Zakres

 jest miarą, która ukazuje 

zmienność/rozrzut pomiarów zmiennej.

i

N

i

i

N

i

x

x

Zakres

,...,

1

,...,

1

min

max

Jest silnie wrażliwy na pojedyncze 
wielkości odstające i z tego 
powodu może być traktowany 
jedynie jako zgrubna ocena 
zmienności pomiarów.

background image

Przedział 
międzykwartylowy

Odległość pomiędzy Q

1

 a Q

3

, pierwszym 

i trzecim kwartylem (inaczej 25-tym i 
75-tym percentylem) jest nazywana 

przedziałem międzykwartylowym  

albo 

odchyleniem kwartylowym. 

1

3

Q

Q

IQR

background image

Średnie odchylenie

Ponieważ średnia jest użyteczną miarą 
położenia, wielkość mierząca odchyłki od 
średniej wyrażać będzie zmienność 
pomiarów w próbie. 

Suma wartości absolutnych odchyłek od 
wartości średniej podzielona przez liczność 
próby N daje w wyniku statystykę 
nazywaną 

średnim odchyleniem (AD)

N

x

x

AD

N

i

i

1

background image

Wariancja

Alternatywnym sposobem pomiaru odchyleń 
od wartości średniej jest posługiwanie się 
kwadratem odległości a nie wartością 
absolutną. Ich suma jest bardzo ważną 
wielkością w statystyce, nazywaną 

sumą 

kwadratów 

(SS). 

Wariancja

 jest średnią 

kwadratów odchyleń.

1

1

1

1

2

1

2

1

2

N

x

N

x

N

x

x

Var

N

i

N

i

i

i

N

i

i

background image

Odchylenie standardowe

Odchylenie standardowe

 jest dodatnim 

pierwiastkiem wariancji; dzięki temu 
wyrażany jest w oryginalnych 
jednostkach zmiennej losowej.

1

1

2

N

x

x

s

N

i

i

background image

Przykład 13

background image

Współczynnik zmienności

Zarówno wariancja jak i odchylenie 

standardowe przyjmują wartości ściśle 

zależne od poziomu pomiarów. 

Słonie mają uszy, których wielkość jest 

około stukrotnie większa od uszu myszy. 

Tym samym odchylenie standardowe będzie 

(zakładając podobną zmienność osobniczą 

w grupie słoni i myszy) liczbowo stukrotnie 

większe w grupie słoni w odniesieniu do 

myszy. A ich wariancja będzie 100

2

 razy 

większa.

background image

Współczynnik zmienności

Współczynnik zmienności (CV)

 wyraża 

zmienność pomiarów w ramach próbki 
odniesioną do średniej arytmetycznej 
próbki

%

100

x

s

CV

background image

Wskaźniki różnorodności

Dla zmiennych wyrażanych w skali 
nominalnej (atrybuty) nie istnieje 
pojęcie średniej czy mediany, które 
byłoby odniesieniem dla pomiaru 
rozrzutu. Możemy jednak przenieść 
ideę różnorodności dla dystrybucji 
obserwacji w ramach 
poszczególnych kategorii.

background image

Wskaźniki różnorodności

Najczęściej stosowanym wskaźnikiem 
różnorodności jest entropia 

Shannona-

Wienera 

definiowana jako:

gdzie k  jest liczbą kategorii, 
natomiast f

i

  jest częścią 

obserwacji zakwalifikowanych do 
kategorii i.

k

i

i

i

f

f

H

1

log

background image

Wskaźniki różnorodności

Jeśli N  jest licznością próby, a n

i

 

liczbą obserwacji dla kategorii i, to

N

n

f

i

i

więc

N

n

n

N

N

H

k

i

i

i

1

log

log

background image

Przykład 14 – Płeć

2990

.

0

458

)

207

log

207

251

log

251

(

458

log

458

H

background image

Wskaźniki różnorodności

Maksymalną entropię obserwujemy dla 
przypadku gdy 

k

N

n

i

~

wówczas

k

N

k

N

N

N

N

N

k

N

k

N

k

N

N

N

k

N

k

N

N

N

N

n

n

N

N

H

k

i

k

i

i

i

log

log

log

log

log

log

log

log

~

log

~

log

1

1

max

background image

Wskaźniki różnorodności

Możemy zatem wyrazić 
obserwowaną entropię jako część 
maksymalnej możliwej – nazywa 
się ją wówczas 

relatywnym 

wskaźnikiem różnorodności

.

max

H

H

background image

Przykład 14 cd

9933

.

0

2

log

2990

.

0

max

H

H

J

background image

Przykład 15

65

45

12

51

0

10

20

30

40

50

60

70

Black

Brown

Blonde

Red

Hair color - Italian

N

of

 c

as

es

34

169

15

11

0

20

40

60

80

100

120

140

160

180

Black

Brown

Blonde

Red

Hair color - Swedish

N

of

 c

as

es

5486

.

0

H

60

.

0

J

9112

.

0

J

3612

.

0

H


Document Outline