background image

 

 

 

Wykład 3: Rozkłady 

zmiennych losowych

Biometria i 

Biostatystyka

background image

 

 

Rozkład częstości

Jakie jest prawdopodobieństwo, że waga 

urodzeniowa dziecka będzie w przedziale klasy 

2440g?

p=0.0677

background image

 

 

Rozkład częstości

Waga urodzeniowa < 3000 g

Jaki procent dzieci?

28.57%

background image

 

 

Rozkład częstości

Dokonujemy pomiaru wagi urodzeniowej 
dziecka losowo wybranego z nieznanej populacji 
i ma ono wagę urodzeniową równą 6000 g. 

Czy ta nieznana populacja ma rozkład częstości 
taki sam jaka nasza?

 

background image

 

 

Rozkład częstości

P(Birthweight~6000) → 

background image

 

 

Rozkład częstości

Najprawdopodobniej odrzucilibyśmy hipotezę, iż 

nieznana populacja ma rozkład taki sam jak 

nasza, gdyż prawdopodobieństwo przynależności 

do klasy 6000 g jest prawie równe zeru (mniejsze 

niż 10

-12

). 

Wnioskowalibyśmy, że nieznana populacja ma 

prawdopodobnie inną wartość średnią i/albo 

wariancję. 

background image

 

 

Rozkład częstości

Wykorzystaliśmy empiryczny rozkład częstości 
do oceny i wnioskowania o przynależności do 
naszej populacji. W wielu przypadkach 
będziemy się jednak opierać nie na rozkładach 
empirycznych, lecz na teoretycznych 
założeniach. Często mamy przesłanki, by 
założyć iż dane powinny mieć ściśle określony 
rozkład częstości. Jeśli nasze przypuszczenia się 
nie potwierdzą eksperymentalnie, powinniśmy 
ponownie zastanowić się nad tymi założeniami i 
wnioskami wyciągniętymi na ich podstawie.

background image

 

 

Funkcja gęstości 
prawdopodobieństwa

Rozkład teoretyczny częstości 
nazywamy 

funkcją gęstości 

prawdopodobieństwa.

background image

 

 

Funkcje gęstości dyskretnych 
zmiennych losowych

Rozkład dwumianowy

Rozkład geometryczny

Rozkład hipergeometryczny

Rozkład Poissona

background image

 

 

Rozkład dwumianowy

Załóżmy, że przeprowadzono n 
niezależnych eksperymentów lub prób (n 
jest znaną liczbą) i w każdej z prób wynik 
jest 

„sukcesem”

 z prawdopodobieństwem 

p

 a 

„porażką”

 z prawdopodobieństwem 

q=1-p

.

Całkowita liczba sukcesów w n próbach, X,  
jest zmienną losową o rozkładzie 
dwumianowym o parametrach n i p. 

background image

 

 

Rozkład dwumianowy

Prawdopodobieństwo, że X=k, oznaczane 

jako p(k), można wyliczyć w następujący 
sposób:

Konkretna konfiguracja niezależnych k 
sukcesów i (n-k) porażek wystąpi z 
prawdopodobieństwem 

Całkowita liczba takich konfiguracji

k

n

k

p

p

 )

1

(

k

n

k

n

k

k

n

k

p

p

k

n

k

n

p

p

k

n

k

p

)

1

(

)!

(

!

!

)

1

(

)

(

background image

 

 

Rozkład dwumianowy

Wartość średnia to:

p

n

)

x

(

p

x

)

X

(

E

x

n

1

i

i

i

Wariancja:

q

p

n

)

x

(

p

)

x

x

(

)

X

(

Var

s

n

1

i

i

2

i

2

background image

 

 

Rozkład dwupunktowy 
(Bernoulliego) z 
prawdopodobieństwem sukcesu 
p

Zmienna losowa przyjmuje tylko dwie różne wartości a i b (np. 
pojedynczy rzut monetą, n=1). Oznaczmy prawdopodobieństwo 
przyjęcia wartości a przez p, a prawdopodobieństwo przyjęcia 
wartości b przez q = 1 – p. Kodując zmienną losową w postaci: 
‘sukces’ – wartość a – jako 1 a ‘porażka’ – wartość b – jako 0 
wyliczamy wartość średnią:

p

p

1

q

0

)

x

(

p

x

)

X

(

E

x

1

0

i

i

i

natomiast wariancja znaleziona być może jako:

pq

)

q

p

(

pq

p

q

q

p

p

)

p

1

(

q

)

p

0

(

s

2

2

2

2

2

background image

 

 

Rozkład dwumianowy

Wartość średnia i wariancja 
rozkładu dwumianowego przy n 
próbach to 

n-krotność

 wartości 

średniej i wariancji w pojedynczej 
próbie (rozkładu Bernoulliego)

background image

 

 

Rozkład dwumianowy

n=10, p=0.5

n=10, p=0.1

background image

 

 

Przykład

Choroba Tay-Sachsa jest rzadką chorobą 

o podłożu genetycznym ujawniającą się 

w wieku niemowlęcym i 

wczesnodziecięcym. Jeśli matka i ojciec 

są nosicielami mutacji genetycznej Tay-

Sachsa, ich dziecko będzie chore z 

prawdopodobieństwem równym 0.25. 

Jeśli taka para ma czworo dzieci, jaka jest 

funkcja rozkładu prawdopodobieństwa 

liczby dzieci chorych w rodzinie?

background image

 

 

Rozkład dwumianowy

0.31
6

0.42
2

0.21
1

0.04
7

0.00
4

background image

 

 

Rozkład geometryczny jest również 
konstruowany w oparciu o próby 
Bernoulliego, jednak ich liczba jest 
nieskończona. W każdej próbie sukces 
występuje z prawdopodobieństwem p a 
zmienna losowa X określa liczbę całkowitą 
prób do osiągnięcia pierwszego sukcesu – 
czas oczekiwania na sukces. Aby X=k, 
musi być  k-1 porażek a potem sukces w k-
tej próbie. Stąd

Rozkład geometryczny

p

p

k

p

1

)

1

(

)

(

background image

 

 

Rozkład geometryczny

Wartość oczekiwana:

p

X

E

1

)

(

a wariancja:

2

1

)

(

p

p

X

Var

background image

 

 

Przykład

background image

 

 

Rozkład 
hipergeometryczny

Załóżmy, że w słoju znajduje się n kul, 
przy czym r jest czarnych a n-r białych.

Zmienna losowa X określa liczbę kul 
czarnych spośród m wylosowanych w 
jednej próbie (losowanie bez zwracania). 
Zatem 

m

n

k

m

r

n

k

r

k

p

k

X

P

)

(

)

(

background image

 

 

Rozkład 
hipergeometryczny

Wybranie jednej kuli czarnej możliwe jest z 
prawdopodobieństwem r/n. 

Prawdopodobieństwo wybrania drugiej jest już inne i 
wynosi (r-1)/(n-1). Byłoby r/n gdybyśmy losowali ze 
zwracaniem.

Rozkład dwumianowy jest poprawnym modelem tylko 
dla przypadków losowań ze zwracaniem i/lub 
nieskończenie dużych liczności n.

background image

 

 

Rozkład 
hipergeometryczny

Wartość średnia:

mp

)

X

(

E

Wariancja:

1

n

m

n

mpq

)

X

(

Var

background image

 

 

Przykład

Załóżmy, iż w pudle jest 100 
dyskietek, z których 20 jest 
uszkodzonych. 
Wybieramy losowo 10 dyskietek. 
Jakie jest prawdopodobieństwo, że 
co najwyżej dwie będą uszkodzone?
n=100   r=20   m=10

background image

 

 

Przykład

background image

 

 

Rozkład Poissona

Rozkład Poissona jest aproksymacją 
rozkładu dwumianowego, gdy liczba 
prób n jest bardzo duża oraz 
prawdopodobieństwo sukcesu w każdej 
próbie, oznaczone symbolem p, jest 
bardzo małe. Oznaczmy np=λ, wówczas

!

)

(

k

e

k

p

k

background image

 

 

Rozkład Poissona

Zazwyczaj uznaje się, że warunki te są spełnione 
gdy p<0.1 oraz np<5.

Jeśli tak jest, zmienna będzie miała rozkład 
Poissona pod warunkiem, że każde wystąpienie 
‘sukcesu’ jest niezależne od pozostałych 
‘sukcesów’ – dlatego sprawdzając zgodność z 
rozkładem Poissona pośrednio możemy 
sprawdzić niezależność prób.

background image

 

 

Rozkład Poissona

Wartość oczekiwana:

)

(X

E

Wariancja:

)

(X

Var

background image

 

 

Rozkład Poissona

background image

 

 

Przykład

Rzucamy kostką 100 razy i zliczamy liczbę 
wystąpień dwóch szóstek równocześnie – 
zmienna losowa X.

Zmienna losowa ma rozkład dwumianowy, 
przy czym n=100 a p=1/36=0.0278. 

Ponieważ n jest duże a p bardzo małe 
(np<5), możemy przybliżyć rozkład 
dwumianowy rozkładem Poissona z 
λ=np=2.78

background image

 

 

Przykład

background image

 

 

Inny przykład

Załóżmy, iż liczba telefonicznych 
zgłoszeń awarii ma rozkład Poissona o 
parametrze lambda równym λ=0.5 na 
godzinę. 

Jakie jest prawdopodobieństwo, że nie 
będzie żadnych zgłoszeń w ciągu 5 
godzin?

background image

 

 

Inny przykład

Zatem liczba zgłoszeń w przeciągu 5 
godzin ma rozkład Poissona z 
parametrem ω=5λ=2.5. 
Prawdopodobieństwo, iż nie będzie 
żadnych zgłoszeń w ciągu 5 godzin 
można obliczyć jako 

082

.

0

)

0

(

5

.

2

e

k

p

!

)

(

k

e

k

p

k

background image

 

 

Rozkłady ciągłych zmiennych 
losowych

W przypadku ciągłych 

zmiennych losowych rolę 

funkcji częstości przejmuje 

funkcja gęstości f(x), która ma 

następujące właściwości:



1

)

(

   

and

   

0

)

(

dx

x

f

x

f

b

a

dx

x

f

b

X

a

P

)

(

)

(

oraz

background image

 

 

Rozkłady ciągłych zmiennych 
losowych

Rozkład równomierny 
(jednostajny)

Rozkład wykładniczy

Rozkład normalny

background image

 

 

Funkcja gęstości rozkładu 
równomiernego

Dystrybucja, która przyjmuje stałą wartość w 
całym zakresie zmienności zmiennej losowej 
jest nazywana rozkładem równomiernym.

Ma ona postać

x

b

for

b

x

a

for

a

b

a

x

for

X

P

0

1

0

)

(

background image

 

 

Rozkład równomierny

x

dx

x

f

x

X

P

X

F

)

(

)

(

)

(

Dystrybuant
a

background image

 

 

Funkcja gęstości rozkładu 
wykładniczego

Zmienna losowa o rozkładzie wykładniczym 
używana jest najczęściej do opisu czasu 
życia maszyn, części czy osób bądź innych 
organizmów żywych. Używa się jej również 
do opisu czasu oczekiwania do 
zrealizowania zamówienia. 

Funkcja gęstości prawdopodobieństwa (pdf) 
dla konkretnej wartości parametru λ:

0

   

and

   

x

0

for   

    

,

)

(

1

x

e

x

f

background image

 

 

Rozkład wykładniczy

Wartość oczekiwana:

wariancja:

0

1

)

(

dx

e

x

X

E

x

2

0

2

1

)

(

dx

e

x

X

Var

x

background image

 

 

Rozkład wykładniczy

15

background image

 

 

Rozkład wykładniczy

0

1

)

(

0

x

e

x

X

P

0

)

(

1

)

(

)

(

0

0

0

x

e

x

X

P

x

X

P

x

S


funkcja

nazywana jest krzywą 
przeżywalności.

Możemy 
wyznaczyć

background image

 

 

Rozkład wykładniczy

background image

 

 

Przykład

Niech zmienna losowa X oznacza 
‘czas życia’ pralki. Zgodnie z 
informacjami producenta średni 
użytkowania takiej pralki to 15 lat. 

Jakie jest prawdopodobieństwo, że 
pralka będzie mogła być używana 
jedynie przez okres krótszy niż 6 lat?

Jakie jest prawdopodobieństwo, że 
pralka posłuży swojemu właścicielowi 
co najmniej  18 lat?

background image

 

 

Przykład

0.0447

0.0667

P(X≤6) ≈ 0.0447·6+(0.0667-0.0447)·6/2

0.3342

background image

 

 

Przykład

  

0.3297

 

1

)

6

(

15

6

e

X

P

3012

.

0

)

18

(

15

18

e

X

P

background image

 

 

Podsumowując, dla tego modelu 
pralki istnieje około 30% szansa, 
że pralka będzie działa zarówno 
bardzo długo jak i relatywnie 
krótko w stosunku do średniego 
czasu pracy tych pralek. 

Przykład

background image

 

 

Niech Y będzie zmienną losową o rozkładzie 
Poissona, określającą liczbę wystąpień w 
jednostce czasu 

gdzie μ jest średnią liczbą wystąpień w 
jednostce czasu. Wtedy, jeśli X określa czas do 
pierwszego wystąpienia, wówczas ta zmienna 
losowa ma rozkład wykładniczy o średniej 

Poisson i wykładniczy ...

,

!

)

(

k

e

k

Y

P

u

1

)

(X

E

background image

 

 

Przykład

Przeciętnie na pewnym odcinku 
autostrady odnotowuje się 8 
wypadków drogowych w ciągu 
dwóch dni.

Jakie jest prawdopodobieństwo, że 
nie będzie żadnego wypadku w 
ciągu 3 dni lub więcej?

background image

 

 

Przykład

Średnia liczba wystąpień wypadków 

samochodowych w ciągu dnia to 4. Zatem 

średni czas oczekiwania na wypadek to 0.25 

(dnia).

Niech Y będzie zmienną losową o rozkładzie 

Poissona o średniej 4, reprezentującą liczbę 

wypadków na dzień. 

Wtedy X będzie zmienną losową o rozkładzie 

wykładniczym i średniej reprezentującej czas 

oczekiwania do wystąpienia pojedynczego 

wypadku. 

background image

 

 

Przykład

P(brak wypadku przez 3 lub więcej dni) =
P(czas do pierwszego wypadku ≥ 3)

0

)

3

(

12

25

.

0

3

e

e

X

P

background image

 

 

Rozkład normalny

Funkcja gęstości rozkładu normalnego

 pełni 

bardzo ważną rolę w probabilistyce i 
statystyce. Nazywa się ją również funkcją 
gaussowską, gdyż Carl Friedrich Gauss, 
zaproponował ją jako model błędów 
pomiarowych (w roku 1809). 

Funkcja gęstości rozkładu normalnego jest 
używana jako model zmienności takich 
wielkości jak wzrost osób, IQ, czy prędkość 
molekuł gazu. 

background image

 

 

Rozkład normalny

Funkcja gęstości rozkładu normalnego 
zależy od dwóch parametrów, μ - 
średniej oraz σ – odchylenia 
standardowego (przy czym -∞< μ< ∞ i σ 
> 0):

2

2

2

)

(

2

1

)

(

x

e

x

f

background image

 

 

Rozkład normalny

μ=0

μ=4

background image

 

 

Rozkład normalny

σ=2

σ=3

σ=1

background image

 

 

Rozkład normalny

Krzywa jest symetryczna wokół wartości 

średniej. Wartość średnia, mediana i 

moda są takie same.

Nastepujące części pomiarów zmiennej 

o rozkładzie normalnym znajdują się 

wewnatrz przedziałów:
μ ± σ zawiera 68.72 % pomiarów
μ ± 2σ zawiera 95.45 % pomiarów
μ ± 3σ zawiera 99.73% pomiarów

background image

 

 

Rozkład normalny

68.27%

95.45%

99.73%

background image

 

 

Rozkład normalny

Dystrybuanta

Funkcja gęstości 
prawdopodobieństwa

2.28%

5.87%

50.00%

34.13%

13.59%

2.14%

background image

 

 

Standardowy rozkład 
normalny

Przypadek szczególny, gdy =0 

oraz =1 określa tzw. standardową 

normalną dystrybucję. 

Dystrybuanta rozkładu 
standardowego oznaczana jest 
symbolem  a jego funkcja 

gęstości .

background image

 

 

Standardowy rozkład 
normalny

Prawdopodobieństwo dla określonej 
realizacji zmiennej losowej o dowolnym 
rozkładzie normalnym może być 
wyznaczone z użyciem rozkładu 
standardowego.

Wykorzystuje się tutaj następującą 
właściwość:

)

a

,

b

a

(

N

~

Y

 

then

,

b

aX

Y

 

and

 )

,

(

N

~

X

 

If

background image

 

 

Standardowy rozkład 
normalny 

Załóżmy, że X~N(,) a my chcemy znaleźć 

prawdopodobieństwo, że  P(x

0

<X<x

1

) dla 

zadanych liczb x

0

 i x

1

. Rozważmy 

następującą zmienną losową:

X

X

Z

gdzie a=1/ a b=-/. Wówczas 

)

1

,

0

(

N

)

)

(

,

(

N

)

a

,

b

a

(

N

~

Z

1

background image

 

 

Standardowy rozkład 
normalny

Zatem

)

(

)

(

)

(

)

(

)

(

x

x

x

X

X

Z

P

P

x

X

P

x

F

Więc

)

(

)

(

)

(

)

(

)

(

0

1

0

1

1

0

x

x

X

X

x

F

x

F

x

X

x

P

background image

 

 

Przykład

Wyniki standaryzowanego testu na 
inteligencję, IQ, mają w przybliżeiu 
rozkład normalny o średniej =100 

oraz odchyleniu standardowym 
=15. 

Wybieramy losowo jedną osobę. 
Jakie jest prawdopodobieństwo, że 
uzyska ona wynik 120 < X < 130?

background image

 

 

Przykład

Możemy wyznaczyć interesujące nas 
prawdopodobieństwo dokonując 
standaryzacji zmiennej losowej:

069

.

0

9082

.

0

9772

.

0

)

33

.

1

(

)

2

(

)

2

33

.

1

(

)

(

)

130

120

(

15

100

130

15

100

15

100

120

Z

P

P

X

P

X

background image

 

 

Symetria i kurtoza

Często obserwujemy odstępstwa 
od rozkładu normalnego. 
Statystyki, które pozwolą to ocenić 
ilościowo bardzo użyteczne.

Zajmiemy się dwoma najczęściej 
pojawiającymi się odstępstwami 
rozkładów od normalności:

 

skośnością 

kurtozą

.

background image

 

 

Skośność

Skośność

, inaczej zwana asymetrią, ocenia 

na ile jeden z końców krzywej rozkładu 
prawdopodobieństwa jest niesymetryczny 
w stosunku do drugiego końca.

W takim przypadku brak jest zgodności 
wartości średniej i mediany.

W zależności od deformacji, krzywe 
określa się mianem prawo- i 
lewoskośności. 

background image

 

 

Skośność

background image

 

 

Kurtoza

Jeśli symetryczny rozkład ma 
środek, dwa ramiona i dwa końce, 
kurtoza opisuje stosunek między 
częścią środkową i końcami w 
odniesieniu do ramion. 

Definiujemy leptokurtozę 
(wyostrzenie krzywej) i platykurtozę 
(spłaszczenie krzywej).

background image

 

 

Kurtoza

O leptokurtozie (wyostrzeniu) 
mówimy, gdy krzywa ma więcej 
obserwacji blisko środka i na końcach a 
mniej w ramionach w porównaniu do 
rozkładu normalnego, z tą samą średnią i 
wariancją

.

background image

 

 

Kurtoza

O platykurtozie (spłaszczeniu) 
mówimy, gdy krzywa ma mniej 
elementów w środku i końcach, za to 
więcej w ramionach niż krzywa 
normalna.

background image

 

 

Skośność i kurtoza

Przykładowe statystyki mierzące skośność i 
kurtozę są zapisywane jako g

1

 and g

2

 i służą do 

reprezentowania parametrów populacji γ

1

 i γ

2

3

3

1

)

2

)(

1

(

)

(

s

n

n

X

X

n

g

i

4

2

2

4

1

)

1

(

2

)

3

)(

2

(

)

(

3

)

(

s

n

n

X

X

X

X

g

i

i

n

n

n

background image

 

 

Skośność i kurtoza

W normalnym rozkładzie częstości γ

1

 i 

γ

2

 są równe zero. 

Ujemne g

1

 wskazuje na lewoskośność, 

a dodatnie g

1

 - prawoskośność. 

Ujemne g

2

 mówi o wyostrzeniu, zaś 

dodatnie g

2

 - o spłaszczeniu.

Wartości bezwzględne z g

1

 and g

2

 nie 

mają wielkiego znaczenia.

background image

 

 

Ocena skośności i kurtozy za 
pomocą kwantyli

Oznaczając i-ty kwartyl jako Q

i

, możemy 

zdefiniować współczynnik skośności 
Bowley’a (Bowley, 1920):

1

3

2

1

3

2

Q

Q

Q

Q

Q

skewness

wielkość, która może przyjmować wartości od  
-1 dla rozkładu ekstremalnie lewoskośnego, 
przez 0 dla rozkładu symetrycznego, do 1 dla 
rozkładu prawoskośnego

background image

 

 

Ocena skośności i kurtozy za 
pomocą kwantyli

Pomiar kurtozy (wyostrzenia) na podstawie 
oktyli O

i

 (12.5%, 25%, 37.5% itd.) został 

zaproponowany przez Moors’a w 1988

1

3

1

3

5

7

)

(

)

(

Q

Q

O

O

O

O

kurtosis

Dla skrajnie spłaszczonego rozkładu ta 
wartość wynosi 0; 1.233 dla normalnego; 
nieskończoność dla skrajnie wyostrzonego.

background image

 

 

Graficzny test na kształt 
rozkładu

Wykresy kwantylowe (Q-Q) są 
użyteczne, gdy ogólnie porównujemy 
funkcje rozkładów. Na wykresach Q-
Q, rysuje się i porównuje kwantyle 
obu rozkładów.

background image

 

 

Graficzny test na kształt 
rozkładu

background image

 

 

Graficzny test na kształt 
rozkładu


Document Outline