background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

 

 Wykład 2. 

Próba losowa prosta. Podstawowe statystyki.  Twierdzenia graniczne.  

 

                                                 Proba losowa prosta 

 

Załóżmy, że badamy cechę pewnej  populacji opisaną zm. los.X
której  rozkład  jest  nam  nieznany  (lub  mamy  o  nim  tylko 
częściowe  informacje).  
W  wyniku  przeprowadzenia  n 
niezależnych  doświadczeo,    w  tych  samych  warunkach, 

otrzymujemy n - wartości cechy: 

x

1

,x

2

,…,x

n.

  

Ciąg ten nazwiemy

 

próbą  (próbką).    W  statystyce  matematycznej  zakłada  się,  że 
otrzymane  wartości  próby  są  wynikiem  działania  pewnego 
„mechanizmu  losowego”.  Przy  naszych  założeniach  (niezależne 
doświadczenia,  powtarzane  w  tych  samych  warunkach) 
„mechanizm”    przypomina    tzw.  urnowe  losowanie  ze 
zwracaniem. 

 

 Gdybyśmy, mieli możliwości powtarzania  badao złożonych z n  
doświadczeo,  to za każdym razem otrzymalibyśmy jakąś próbę.  

 

Zauważmy,  że  zbiór  możliwych  wartości  {x

1

}  obserwowanych 

jako  pierwszy  element  w  kolejnych  n-elementowych  próbach 
można  traktowad  jako  realizacje  pewnej  zmiennej  losowej, 
którą  nazwiemy  X

1

,  Podobnie  {x

2

}  –  możliwe  wartości  drugich 

wyników  w  kolejnych  próbach  –  można  traktowad  jako 
realizacje  zm.  los.,którą  nazwiemy  X

  itd.  ,  aż  dojdziemy  do 

zbioru {x

n

}, który potraktujemy jako możliwe realizacje zmiennej 

X

n

.  

 

Mówiąc  krótko:  dane  doświadczalne  x

1

,x

2

,…,x

n

  ,  które 

obserwujemy  jako  wyniki  doświadczeo,  potraktujemy  jako 
realizacje  (wartości)  układu    zmiennych  X

1

,...,X

n

.  Z  tego  też 

względu,  zmienne  losowe  X

1, 

X

2

,  …,  X

n   

nazwiemy  zmiennymi 

obserwowalnymi lub obserwacjami.  

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

 

Zauważmy, że przy naszych założeniach dotyczących losowania, 
zmienne  X

1, 

X

2

, …, X

n

 można traktowad jako  niezależne i mające 

taki rozkład jak badana cech X. 

 

Wygodnie jest założyd, że zmienne X

1, 

X

2

, …, X

n

 są określone na 

wspólnej  przestrzeni  probabilistycznej.  Oznacza  to,  że  dla 
konkretnej  próby  x

1,

...,x

n

,    mamy    x

1

=  X

1

( ),….,  x

n

=X

n

( ),  dla 

pewnego       . 

       Przykład. W urnie mamy 10 losów: 5 losów przegrywających-o 
wartości  zero,  2  wygrywające  o  wartości  1zł,  3  wygrywające  o 
wartości  2 zł.  

 Wylosowujemy  5  losów.  Załóżmy,  że  jest  to  „losowanie  ze 
zwracaniem”.  Niech  zm.  los.  X

oznacza  potencjalne  wartości  losu 

wybranego  jako  pierwszy,  X

2

  potencjalne  wartości  losu  wybranego 

jako  drugi,  itd.  Ostatnia  zmienna  X

  oznacza  potencjalne  wartości 

losu wybranego w piątym losowaniu. 

Zauważmy,  że  przy  tym  postępowaniu  wszystkie  zmienne    są 
niezależne  i  mają  jednakowy  rozkład,  który  jest    rozkładem 
następującej zm. los. X określonej na populacji złożonej z 10 biletów: 
P(X=0)=0.5, P(X=1)=0.2, P(X=2)= 0.3. 

Definicja.    Próbą  losową  prostą  pochodzącą  z  rozkładu  zm.los.  X, 
jest  ciąg  zm.  los.    X

1

,  X

2

,…,X

n, 

  które  są  niezależne  i  mają  taki  sam 

rozkład jak X.  (Zapis w skrócie:  X

1

, X

2

,…,X

~X) 

Uwaga.a)  Jeżeli    rozkład  zm.los.  tworzących  próbę  jest  określony  w 
inny  sposób,  np.  przez  dystrybuantę(  funkcję  gęstości  lub  nazwę 
rozkładu),  to  mówimy,  że  próba  pochodzi  z  rozkładu  o  danej 
dystrybuancie (funkcji gęstości lub z rozkładu o danej nazwie). 

(Np.    X

1

,  X

2

,…,X

n   

~  N(         oznacza,  że  próba  pochodzi  rozkładu 

normalnego o nieznanych parametrach        

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

b)  W  statystyce  rozkład,  z  którego  pochodzi  próba  nazywany  jest 
rozkładem teoretycznym

 c)  W  naszych  rozważaniach  ograniczmy  się  tylko  do  takich  zm. 
obserwowalnych,  które  tworzą  próbę  losową  prostą.  Dlatego  w 
dalszych  rozważaniach  będziemy  czasami  pomijad  przymiotnik 
„prosta”.  (  Nazwa  „  próba  prosta”  pochodzi  od  sposobu  tworzenia 
próbek x

1

,x

2

,…,x

n. 

W przypadku modeli urnowych jest to losowanie ze 

zwracaniem. Należy jednak zaznaczyd, że w statystyce rozważa się też 
próby losowe, które nie są proste).  

Model statystyczny 

W praktycznych zagadnieniach statystycznych rozkład teoretyczny nie 
jest dokładnie znany. Zadaniem statystyka jest „sensowne  
przybliżanie”  brakujących informacji o rozkładzie.    

 W pewnych przypadkach, już z samej natury zjawiska losowego, 
statystyk  może mied   pewne  częściowe informacje o rozkładzie 
teoretycznym. Znany jest np.  typ rozkładu teoretycznego, lecz nie są 
znane jego parametry (np. rozkład wykładniczy z nieznanym 
parametrem 

). W innych sytuacjach zadanie polega na przybliżaniu 

całego rozkładu.  

Budując matematyczny model sytuacji  jaką napotyka statystyk 
zakładamy,  że nieznany rozkład teoretyczny,  który „rządzi” 
zachowaniem obserwacji (a więc ich rozkładem) zależy od parametru, 

. Zbiór 

może oznaczad zarówno możliwe parametry liczbowe 

konkretnego rozkładu, jak i całe  rodziny rozkładów.  

Definicja Modelem statystycznym nazywamy rodzinę ( ,

F, 

P

 ) 

 wraz z   ciągiem   zmiennych losowych 

n

2

1

X

,

,

X

,

X

 

określanych na   ,

i nazywanych obserwacjami.  

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

Jak już zaznaczono, w naszych   rozważaniach, ograniczamy się do 
takich obserwacji, które tworzą próbę losową prostą.  

Założenie. Obserwacje  

n

2

1

X

,

,

X

,

X

  są  niezależnymi zmiennymi 

losowymi o  jednakowym rozkładzie. (Nieznany rozkład  jest rządzony 
przez  rodzinę prawdopodobieostw  
 

 

      . 

Uwaga.  Rozkłady, którymi „rządzi” rodzina rozkładów

P

naturalny sposób dziedziczą parametr 

Np. 

)

x

X

(

P

)

x

(

F

f

 jest gęstością, jeśli 

a

dx

)

x

(

f

)

a

(

F

                                   STATYSTYKI 

Niech   

n

2

1

X

,

,

X

,

X

  będą  obserwacjami  tworzącymi  próbę  losową 

prostą w ustalonym modelu statystycznym.   

Definicja:  Każdą  funkcję  borelowską  T  będącą    funkcją  X

1

,X

2

,…,X

nazywamy statystyką.  

Statystyka-jako funkcja zm. los.- jest także zm. los. Jej rozkład zależy 
od  postaci przekształcenia T oraz od rozkładu zmiennych X

1

,X

2

,…,X

n.

 

Przykłady statystyk: 

a

R = max  (X

1

,  X

2

 , ..., X

n

) -  min(X

1

,  X

2

 , ..., X

n

b) Z = 

)

X

X

(

2

1

n

1

  

c) 

n

1

i

i

X

n

1

X

---- średnia arytmetyczna z próby 

d) 

n

1

i

2

i

2

)

X

X

(

n

1

S

ˆ

---- wariancja z próby ( z daszkiem) 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

e) 

n

1

i

2

i

)

X

X

(

n

1

S

ˆ

---- odchylenie standardowe z próby 

 f) 

n

1

i

2

i

2

)

X

X

(

1

n

1

S

----   wariancja z próby  

    g

n

1

i

2

i

)

X

X

(

)

1

n

(

1

S

 ---- odchylenie standardowe z próby 

 

Z definicji wynika, że 

2

2

S

)

1

n

(

S

ˆ

n

stąd  

2

2

S

]

n

/

)

1

n

[(

S

ˆ

                                 

h)  

k

 =  

n

1

i

k

i

X

n

1

 ----  k-ty moment zwykły z próby  

 i)  

k

m

ˆ =  

k

)

X

X

(

n

1

n

1

i

i

----  k-ty moment centralny z próby   

Jak widad, momenty z próby są odpowiednikami momentów 
zwykłych i centralnych z rozkładu zm. los. Dla rozkładów zm. los. 
mamy bowiem 
 a

k

 = E(X

k

)  ----  k-ty moment zwykły z rozkładu zm. los.,   

 

k

= E(X-E(X))

k

 ---- k-ty moment centralny z rozkładu. 

 

Przykład wykorzystania średniej arytmetycznej do oceny wartości oczekiwanej rozkładu 

teoretycznego  (oparty na regule 3   

 

 

 

 

Zadania statystyki 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

Zadania statystyki 

a)  Poznad  rozkłady  podstawowych  statystyk.  (Do  tego  celu 
wykorzystamy 

aparat 

funkcji 

charakterystycznych, 

który 

wprowadziliśmy  na wykładach z rachunku prawdopodobieostwa) 

b)  Wykorzystujac  rozkłady  odpowiednich  statystyk  podad  sposoby 
estymacji  (przybliżania,  szacowania)  wartości  nieznanego  parametru 
rozkładu, bądz też całego rozkładu,  (tzw. problem estymacji). 

c)  Wykorzystujac  rozkłady  odpowiednich  statystyk  podad  sposoby 
testowania hipotez o nieznanym parametrze.  

d)  W  punktach  b)  i  c)    przy  wykorzystywaniu  asymptotycznych 
rozkładów  statystyk    korzysta  sie  tzw.  twierdzeo  granicznych,  które 
znamy z rachunku prawdopodobieostwa.  

                                          

 Prawa Wielkich Liczb (PWL) 

 Prawa te  można interpretowad w następujący sposób:   jeżeli  rozmiar próbki 
może się dowolnie zwiększad,  to średnia arytmetyczna z próby losowej 

 

        

 

 

  

 

     

 

       

 

   zbiega – w pewnym sensie – do wartości            

oczekiwanej rozkładu, z którego pochodzi próba. 

Przypominamy. 

Twierdzenie 2.1. (Słabe PWL ). Jeżeli S

=  

 

     

 

       

 

  gdzie 

 

 

   

 

       

 

 są niezależnymi zm. los. o jednakowym rozkładzie ze 

skooczoną wartością oczekiwaną  , to dla każdego       

   

   

    

 

 

 

              

 
 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

Zbieżność prawie na pewno i zbieżność według 

prawdopodobieństwa  

   

   

  Niech zm.los.  Y

n

, n = 1,2,…   będą określone na (

,

F, P) i niech 

  R. 

 
Definicja. Ciąg zm. losowych {Y

n

 } zbiega do liczby g  

 
a) z prawdopodobieństwem 1 (prawie na pewno), co zapisujemy,

g

Y

.

n

.

p

n

 , jeśli 

  

1

})

g

)

(

Y

:

({

P

n

;

 

 
b ) według prawdopodobieństwa (stochastycznie, według miary), co 
zapisujemy   

g

Y

p

n

, jeśli 

 

0

})

|

g

)

(

Y

|

:

({

P

lim

n

n

 dla każdego 

0

.  

Innymi słowy 

   

   

        

 

                 

 

dla każdego

0

Pokazywaliśmy, że ze zbieżności p. n. wynika zbieżność 
stochastyczna. Implikacja w drugą stronę nie jest prawdziwa.  (por. 
ćwiczenia).   

Twierdzenie 2.3. (MPWL Kołmogorowa). Jeżeli X

1

,X

2

,…, X

n

 ,…  

są niezależnymi zm. los. o jednakowym rozkładzie z wartością 

oczekiwaną m, to dla każdego             

 

   

   

     

   

 

 

 

    

 

 

        ) = 1 

 
    Wnioski z Twierdzenia Kołmogorowa o MPWL

 

   

 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

1.MPWL dla pierwszych momentów. Jeżeli X

1

,X

2

,…, X

n

   są 

niezależnymi zm. los. o jednakowym rozkładzie z wartością 
oczekiwaną 
  , to  

 (*)                          

 

 

    

 

 

 

.

n

.

p

 

Innymi słowy : w jezyku prostych prób losowych  (*) oznacza,  że 

przy zwiększaniu liczności prób, średnie arytmetyczne z prób 
zbiegają do średniej  teoretycznej p.n. 
 

2.MPWL  dla  k-tych  momentów.  Jeżeli  X

1

,X

2

,…,  X

n

  jest  próbą 

losową  prostą  z  rozkładu,  w  którym  cecha  X  ma  skończony  k-ty 

moment 

 

 

     

 

   . Wówczas 

k

 =  

n

1

i

k

i

X

n

1

 

   

      

 

          

Dowód.  Wystarczy  zauważyć,  że   

 

 

                  są  niezależne  o 

jednakowym rozkładzie i skorzystać z 1

 

3. MPWL dla zm. los. zerojedynkowych.  Z  Twierdzenia o MPWL   

wynika,  że  dla  ciągu  niezależnych    zm.  los.  zerojedynkowych 

X

1

,X

2

,…,X

n

  z  prawdopodobieństwem  sukcesu  p,  prawdziwa  jest 

następująca własność:  

    

 

 

  

 

    

 

 

  =   

 

 

 

 

  p  prawie na pewno (p.n.)  

Innymi słowy : w przypadku prostych prób losowych częstości  
sukcesów w próbach  zbiegają p.n.  do teoretycznego 
prawdopodobieostwa sukcesu. 

4.  Definicja  częstościowa  prawdopodobieostwa  jest  uzasadniona.  

Jeśli  przy  niezależnym  powtarzaniu    doświadczenia  otrzymujemy 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

 

wyniki   

 

,…,  

 

,  to  częstośd  pojawiania  się    zdarzenia  A  wynosi 

 

 

  

 

  

 

         

 

  

 

  . Na mocy (MPWL) otrzymujemy 

 

 

  

 

  

 

         

 

  

 

     E( 

 

         p.n. 

 

                                        Rozkład empiryczny 

 

Niech ciąg zm. los. X

1

,X

2

,…,X

oznacza próbę losową prostą  

   Niech   

n

1

i

)

x

)

(

X

(

def

n

i

1

n

1

)

,

x

(

F

ˆ

 dla ustalonego x

 R. 

 

Zauważmy, że P(

)

x

X

(

i

1

=1

=

 P(

)

x

(

F

)

x

X

i

 

F

 

oznacza dystrybuantę rozkładu teoretycznego.

 

Ciąg 

,...

2

,

1

i

},

1

{

)

x

i

X

(

jest ciągiem zmiennych los. niezależnych 

ponieważ  

 

             były niezależne. 

    

Wniosek . Dystrybuanta empiryczna  przy ustalonym x jest średnią 

arytmetyczną   niezależnych zmiennych  losowych o jednakowym 
rozkładzie z prawdopodobieostwem sukcesu  w pojedynczej próbie    
p =

  

).

x

(

F

 

Zatem  z MPWL dla schematu Bernoulliego mamy 

 

  

n

przy

.

n

.

p

)

x

(

F

n

1

1

1

)

x

(

F

ˆ

x

n

X

x

2

X

x

1

X

n

 .  

 Mamy więc następujące twierdzenie. 

 
Twierdzenie 2.2  (O zbieżności dystrybuant empirycznych) 
Jeżeli 
ciąg X

1

, X

2

, ...,X

 jest prostą próbą losową pochodzącą z rozkładu o 

dystrybuancie 

F

, to dla każdego x

R

   

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

10 

 

)

x

(

F

)

x

(

F

ˆ

n

.

p

n

 przy n

Uwaga. Prawdziwy jest mocniejszy wynik (podstawowy w statystyce). 
Wyraża go następujące twierdzenie.  

 
Twierdzenie 2.3 Gliwienki – Cantellego. ( por. R.Zielioski’’ Siedem 
wykładów...,PWN, 1990).  
Jeżeli ciąg X

1

, X

2

, ...,X

 jest prostą próbą 

losową z rozkładu o dystrybuancie 

F

, to  

 
                

n

przy

0

|

)

x

(

F

)

x

(

F

ˆ

|

sup

n

.

p

n

x

      

Wniosek. Jeżeli próba może byd dowolnie liczna to dystrybuantę z 
rozkładu, z którego pochodzi, można przybliżad z dowolną 
dokładnością. 

 

 

Rozkład normalny (przypominamy) 

 

a)  Funkcja gęstości

2

2

2

)

x

(

exp

2

1

)

x

(

f

 

b) E(X) =

2

)

X

(

Var

,

  

 

c) Rozkład normalny jest indeksowany parametrami 

.

,

 

    Oznaczenie: N(

)

,

  

d) Zdanie: zm. los. X ma rozkład normalny z parametrami

 

,

 

 

      zapisujemy w skrócie: X~ N(

)

,

 

e)  (O liniowym przekształceniu zm. los. normalnej. Por. Rach.Praw. 
Wykład ).  Jeżeli X ma rozkład normalny N(

,

), to dla dowolnych 

liczb a,b (a

0) zmienna Y=aX+b ma rozkład  N(a

+b,|a|

).  

 
 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

11 

 

Centralne Twierdzenie Graniczne (CTG) 

 
Twierdzenie 2.4. (CTG). Jeżeli  

n

2

1

X

,

,

X

,

X

   tworzą próbę losową 

prostą pochodzącą z rozkładu w wartości oczekiwanej E(X

i

) = 

 i 

wariancji  Var (X

i

)

 

2

> 0  oraz 

n

X

X

X

n

1

n

    to dla każdej 

liczby a 
 

                  

)

a

(

)

a

n

)

X

(

(

P

lim

n

n

,                          (**) 

 gdzie 

.

R

a

,

dx

e

2

1

)

a

(

a

2

/

x

2

 

 
 
 
Uwagi do CTG 

 

Zauważmy, że  E(

n

X

)  = 

,       D(

n

X

) = 

n

/

.  

 

Zatem zmienna los.

 

n

)

X

(

n

  jest „standaryzowaną średnią 

arytmetyczną”. Funkcja 

 jest dystrybuantą rozkładu N(0,1).  

(**) oznaczają , że dystrybuanta standaryzowanej średniej 

arytmetycznej zbiega, w każdym punkcie, do dystrybuanty 

standardowego rozkładu normalnego. 

 

Inny zapis tezy CTG:   

)

1

,

0

(

N

n

)

X

(

d

n

.   

 Ten zapis oznacza zbieżnośd nazywaną  zbieżnością według rozkładu.  

 

Definicja  (Zbieżnośd według rozkładu).  Mówimy, że ciąg zm. 

los.{X

n

} zbiega według rozkładu do zm. los. X, jeśli ciąg dystrybuant 

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

12 

 

zmiennych  X

n

 zbiega do dystrybuanty zmiennej X w każdym punkcie 

ciągłości dystrybuanty zmiennej X. 

 

W przypadku CTG  dystrybuanty zmiennych losowych  (w tym 

przypadku dystrybuanty standaryzowanych średnich 

arytmetycznych) zbiegają, w każdym punkcie,  do 

dystrybuanty zm. los. X o rozkładzie N(0,1). Zbieżnośd zachodzi 

w każdym punkcje, ponieważ  dystrybuanta 

 jest funkcją 

ciągłą. 

 

Zauważmy, że przekształcając wzór (*) tezę CTG można zapisad 

w postaci 

)

1

,

0

(

N

n

)

n

S

(

d

n

, gdzie  

.

X

X

X

S

n

2

1

n

 

Oznacza to, że dla dostatecznie dużych n, 

n

2

1

n

X

X

X

S

 

ma rozkład N(n        

 

Jako wniosek z CTG otrzymujemy następujące twierdzenie.   

 
Twierdzenie 2.5 ( Twierdzenie de Moivre’a-Laplace’a). Jeżeli 

n

2

1

X

X

X

 jest liczbą sukcesów w n- próbach Bernoulliego 

z prawdopodobieństwem pojedynczego sukcesu  p, a 

n

X  jest 

średnią arytmetyczna liczby sukcesów,  to dla każdej liczby a 

)

a

(

)

a

)

p

1

(

p

n

)

p

X

(

(

P

lim

n

n

gdzie    

background image

Mat.Stat. Wykład 2. 2013L.                                               Ryszarda Rempała. Materiały dydaktyczne 
 

13 

 

.

R

a

,

dx

e

2

1

)

a

(

a

2

/

x

2

                         

 

 
 
Dowód. 
Zastosowano CTG do niezależnych zmiennych 
zerojedynkowych  o rozkładach:   P(X

i

 = 1) = p, P(X

i

 =0)=1-p.  

   Przypominamy, że E(X

i

) = p, Var (X

i

) = p(1-p).