background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

 

Wykład  4.  Próba  losowa  c.d.,  rozkład  empiryczny,  model  statystyczny, 
statystyka, najważniejsze statystyki w modelu normalnym, rozkład Chi-kwadrat, 
rozkład t-Studenta, rozkład F Snedecora.  

 

Próba losowa c.d. 

 

  Niech 

n

2

1

X

,

,

X

,

X

 będzie próbą losową pochodzącą z 

pewnego rozkładu (czasami nazywanego rozkładem 
teoretycznym).   

 

Przypominamy: oznacza to, że zm. los są niezależne i mają takie 

same rozkłady jak ten rozkład, z którego pochodzą. 

 

 

Przyjęliśmy, że zmienne tworzące próbę określone są na tej 

samej przestrzeni mierzalnej (

,

F

   Można przyjąć np, że jest to tzw. przestrzeń kanoniczna. 

Oznacza to, że za zbiór 

 bierze się przestrzeń obserwacji, a 

więc zbiór wartości próbek {x

1

,x

2

,…,x

n

}.  Przyjmuje się, że 

wartości  poszczególnych obserwacji należą do pewnego zbioru 

borelowskiego B

R

. Zatem 

n

B

B

B

B

Zauważmy, że mamy wtedy  
X

i

(

) =X

i

(x

1

,x

2

,…,x

n

) = x

i

 . Za zdarzenia losowe wektora 

losowego  (

n

2

1

X

,

,

X

,

X

) przyjmuje się  podzbiory 

borelowskie z R

n

 ograniczone do zbioru 

.

B

n

  

 

Zaznaczyliśmy  wcześniej,  że  rozkład  prawdopodobieństwa 

każdej    zmiennej  X

i

  należącej  do  próby  losowej,  jest  taki  jak 

rozkład,  z  którego  pochodzi  próba.  W  statystyce  rozkład,  z 
którego 

pochodzi 

próba 

nazywany 

jest 

rozkładem 

teoretycznym
  
                                  Rozkład empiryczny 
 

poprzednim wykładzie definiowaliśmy dystrybuantę empiryczną. 
    

n

1

i

)

x

)

(

X

(

n

i

1

n

1

)

,

x

(

F

ˆ

  ustalamy x

 R. 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

 

Dystrybuanta empiryczna  przy ustalonym x jest zmienną losową 

                            

]

1

,

0

[

:

)

x

(

F

ˆ

 

 

Wniosek z MPWL dla schematu Bernoulliego. 

 

Ponieważ 

n

1

1

1

)

x

(

F

ˆ

x

X

x

X

x

X

n

n

2

1

,  p = F(x). Mamy 

następujące twierdzenie. 

Twierdzenie 1.3  (O zbieżności dystrybuant empirycznych) Jeżeli 
ciąg X

1

, X

2

, ...,X

 jest prostą próbą losową z rozkładu o dystrybuancie 

F, to dla każdego x

R

   

)

x

(

F

)

x

(

F

ˆ

n

.

p

n

 przy n

Uwaga. Prawdziwy jest mocniejszy wynik (podstawowy w statystyce). 
Wyraża go następujące twierdzenie.  

 

Twierdzenie 2.3 Gliwienki – Cantellego. ( por. R.Zielioski’’ Siedem 
wykładów...,PWN, 1990).  
Jeżeli ciąg X

1

, X

2

, ...,X

 jest prostą próbą 

losową z rozkładu o dystrybuancie F, to 

 

                

n

przy

0

|

)

x

(

F

)

x

(

F

ˆ

|

sup

n

.

p

n

x

      

 

Wniosek. Jeżeli próba może byd dowolnie liczna to dystrybuantę z 
rozkładu, z którego pochodzi, można przybliżad z dowolną 
dokładnością. 

                         

 

 

 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

Prawdopodobieostwo empiryczne 

 

Podobnie jak w przypadku dystrybuanty można zdefiniowad 
prawdopodobieostwo empiryczne. Rozważmy zbiór borelowski 
B

R

 i próbę losową prostą  X

1

, X

2

, ...,X

n

  

~ F(x). Przybliżeniem 

nieznanej wartości P(B) jest częstośd obserwacji wpadających do 
zbioru B tzn. 

n

1

i

)

B

X

(

i

1

n

1

)

B

(

P

ˆ

 

Zauważmy, że 

)

a

(

F

ˆ

]

a

,

(

P

ˆ



 

Wniosek. Przy wzroście próby prawdopodobieostwo empiryczne 
(dystrybuanta empiryczna) przybliżają to prawdopodobieostwo 
(dystrybuantę) z którego pochodzą. 

 

Model statystyczny 

 
W praktycznych zagadnieniach rozkład, z którego pochodzą zmienne 
obserwowalne, nie jest dokładnie znany. Efektem tego jest 
niedokładna znajomość rozkładu zmiennych X

i

.   

  
W pewnych przypadkach, już z samej natury zjawiska losowego, 
mamy  pewne  częściowe informacje o rozkładzie teoretycznym. 
Znany jest np.  typ rozkładu teoretycznego, lecz nie są znane jego 
parametry (np. rozkład wykładniczy z nieznanym parametrem 

).  

 
Zakładamy, że nieznany rozkład teoretyczny,  który „rządzi” 
zachowaniem obserwacji (a więc ich rozkładem) zależy od parametru, 
i jest indeksowany przez  

. (Zbiór 

może oznaczać zarówno 

możliwe parametry liczbowe konkretnego rozkładu, jak i całe  rodziny 
rozkładów).  
 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

Modelem statystycznym nazywamy rodzinę ( ,

F

P  ) 

 

wraz z   ciągiem   zmiennych losowych 

n

2

1

X

,

,

X

,

X

 określanych 

na   ,

i nazywanych obserwacjami.  

Uwaga  Rozkłady, którymi „rządzi” rodzina rozkładów

P w naturalny 

sposób dziedziczą parametr 

Np. 

)

x

X

(

P

)

x

(

F

f  jest gęstością, jeśli 

a

dx

)

x

(

f

)

a

(

F

                         

Statystyka 

 

Niech  

n

2

1

X

,

,

X

,

X

 będą obserwacjami w ustalonym modelu 

statystycznym. Statystyką nazywamy dowolną funkcję obserwacji  

T = T(

n

2

1

X

,

,

X

,

X

 
Przykłady statystyk: 
 

a

R = max  (X

1

,  X

2

 , ..., X

n

) -  min(X

1

,  X

2

 , ..., X

n

 

b) Z = 

)

X

X

(

2

1

n

1

  

 

c) 

n

1

i

i

X

n

1

X

---- średnia arytmetyczna z próby 

 

d) 

n

1

i

2

i

2

)

X

X

(

n

1

S

ˆ

---- wariancja z próby ( z daszkiem) 

 

e) 

n

1

i

2

i

)

X

X

(

n

1

S

ˆ

---- odchylenie standardowe z próby 

 f) 

n

1

i

2

i

2

)

X

X

(

1

n

1

S

----   wariancja z próby  

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

    g

n

1

i

2

i

)

X

X

(

)

1

n

(

1

S

 ---- odchylenie standardowe z próby 

 
 

 

Zauważmy, że 

2

2

S

)

1

n

(

S

ˆ

n

stąd  

2

2

S

]

n

/

)

1

n

[(

S

ˆ

                                 

h)  

k

 =  

n

1

i

k

i

X

n

1

 ----  k-ty moment zwykły z próby  

 i)  

k

m

ˆ

=  

k

)

X

X

(

n

1

n

1

i

i

----  k-ty moment centralny z próby  

Momenty z próby są odpowiednikami momentów zwykłych i 
centralnych z rozkładu. Mamy: 

 a

k

 = E(X

k

)  ----  k-ty moment zwykły z rozkładu,   

 

k

= E(X-E(X))

k

 ---- k-ty moment centralny z rozkładu. 

 

Najważniejsze Statystyki w modelu normalnym 

 

Niech 

n

2

1

X

,

,

X

,

X

 

    

będzie próbą prostą pochodzącą z rozkładu 

N(

,

  

a) 

Rozkład średniej:   

Przy założeniach normalności średnia arytmetyczna  
 

      

n

1

i

i

X

n

1

X

    ma rozkład normalny  

)

n

,

(

N

  

    Standaryzacja prowadzi do zmiennej 
 

        

n

X

U

,     która ma rozkład           

)

1

,

0

(

N

 Wykorzystaliśmy  fakt,  znany  z  rachunku  prawdopodobieostwa,  że 
suma niezależnych zmiennych losowych o rozkładzie normalnym ma 
rozkład normalny
.  

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

 

 

Parametry  rozkładu  łatwo  wyliczyd  wykorzystując  następujące  

własności wartości oczekiwanej i wariancji. 

 
a) E(X

1

+…+X

n

)=E(X

1

)+…+E(X

n

) jeśli wartośd 

 

E(X

i

) jest skooczona. 

b) E(aX+b)= aEX+b, a,b

R.

 

c) Var (aX) = a

2

Var (X). 

 d) Jeżeli zm. los. są niezależne (wystarczy nieskorelowane) to  

Var (X

1

+…+X

n

) = Var(X

1

)+…+Var(X

n

). 

 

 

 

 

 

 

 

                                              Na rysunku m = 

.                        

 
b)

     

 

Rozkład Chi-kwadratz k-stopniami swobody 

 
Jest to rozkład zmiennej losowej  

 

                          

k

1

i

2

i

Z

Y

 

gdzie 

k

,

,

2

,

1

i

Z

i

są niezależnymi zmiennymi losowymi o 

rozkładzie N(0,1). (Oznaczenie: Y 

2

(k), k jest liczbą stopni 

swobody). 

 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

 Twierdzenie. 4.1. Rozkład 

2

(k) jest rozkładem Gamma (

)

,

 dla 

2

/

1

,

2

/

k

Dowód pomijamy. 
 

 

Gęstość prawdopodobieństwa dla rozkładu Gamma (

)

,

 

    f(y)= 

;

0

y

,

e

y

)

(

y

1

  

0

r

,

e

x

)

r

(

0

x

1

r

. Parametry: E(Y) =

/

, Var (Y)=

2

/

 

 

Zatem  dla rozkładu 

2

(k):  E(Y)= k, Var (Y)=2k.  

 
 
        

 

   
 
 
 

    Rys.   Rozklady 

)

(

2

.

 

 

 

  

 

Rozkłady asymetryczne. 
 
Kształt gęstości zależy od 
liczby stopni swobody. 
 
Przy dużej liczbie stopni 
 swobody, rozkłady zbliżają się 
do rozkładu normalnego. 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

Twierdzenie4.2 W modelu normalnym 

X

 i 

2

S

 są niezależnymi 

zmiennymi losowymi oraz 

                         

X

 

~

)

n

,

(

N

  

                          

2

2

S

1

n

2

(n-1)  

Dowód pomijamy. 
Uwaga.
  

 

Zauważmy, że zarówno 

X

 jak i 

2

S

są wyznaczone przez tę samą 

 próbę losową. Fakt, że są niezależne nie jest oczywisty. Okazuje się, 
iż istotne jest tu założenie, że próba pochodzi z rozkładu normalnego. 

                                   

Parametry  statystyki S

Stwierdzenie 4.1

2

2

)

S

(

E

Var 

(

2

S

)=

1

n

2

4

.

 

 

Ponieważ  E(

2

2

S

1

n

)=

1

n

)

S

(

E

1

n

2

2

 (Na mocy Tw. 4.2  jest to  

rozkład 

2

(n-1). Zatem wartość oczekiwana = liczbie stopni 

swobody). Z ostatniej równości mamy więc: 

2

2

)

S

(

E

.

  

                    

Rozumując podobnie otrzymujemy: 

Var (

2

2

S

1

n

) = 

)

1

n

(

2

)

S

(

Var

)

1

n

(

2

4

2

) zatem  Var (

2

S

)=

1

n

2

4

 
c)  Rozkład t-Studenta 

 

Rozkład t-Studenta z k stopniami swobody jest to z definicji rozkład 
zmiennej losowej  

T = 

k

/

Y

Z

   gdzie  Z i Y są niezależnymi zmiennymi losowymi , Z o rozkładzie 
N(0,1),  Y o rozkładzie  Chi-kwadrat, z k-stopniami swobody. 
Zapis T

~t(k) . 

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

 

 

 
 
 
Stwierdzenie 4.2. 
Statystyka

 

S

/

)

X

(

n

  ma rozkład t-Studenta z 

(n-1) stopniami swobody. 
 

 

Dowód jest wniosekiem z Twierdzenia 4.2 i definicji statystyki 
 t-Studenta. 

Niech  Z = 

n

)

X

(

  i  niech  Y=

2

2

S

1

n

. Mamy więc 

 

T = 

n

)

X

(

:  

S

/

)

X

(

n

S

)

1

n

(

1

n

2

2

.  

Oznacza to, że statystyka  

S

/

)

X

(

n

     ma rozkład t-Studenta z (n-1) stopniami swobody. 

Rozkłady t-Studenta są   
indeksowane  liczbą stopni  
swobody 

.

 

Są 

symetryczne względem  

prostej t = 0. 

 

Zwyczajowo wartości  
oznacza się literą „t”. 
 
Każdy rozkład ma gestość  
podobną  do krzywej 
Gaussa ze średnią zero.   
E(T) = 0,  
Var(T) = 

)

2

/(

background image

IiE. Mat. Statystyka.Wykład 4. R. Rempała                                         Materiały Dydaktyczne 

10 

 

d) Rozkład F Snedecora z k i m stopniami swobody  
 

Jest to rozkład zm. los. 

m

/

U

k

/

Y

R

 ,      gdzie Y i U są niezależne  

 Y 

2

(k) i U 

2

(m) 

  
Zapis R  

~ F(k,m).      

 
e) Model dwu próbek         
 
Załóżmy, że mamy dwie niezależne próby losowe  

n

2

1

X

,

,

X

,

X

  

i  

m

2

1

Y

,

,

Y

,

Y

   gdzie X

i

  

~ N(

)

,

X

X

  Y

~ N(

)

,

Y

Y

 

 

Statystyki   

2

X

S

i

,

X

 określone dla  próby 

n

2

1

X

,

,

X

,

X

  oraz  

                  

2

Y

S

i

,

Y

 określone dla  próby 

m

2

1

Y

,

,

Y

,

Y

   

 

Zatem    

2

X

2

Y

2

Y

2

X

2

Y

2

Y

2

X

2

X

S

S

)

1

m

(

S

)

1

m

(

1

n

S

)

1

n

(

~F(n-1,m-1) .  

Jeśli założymy, że 

2

Y

2

X

 

  

to 

2

Y

2

X

S

/

S

~F(n-1,m-1) co jest pomocne przy testach weryfikujących 

równość wariancji w rozkładach, z których pochodzą próby.