background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

 

WYKŁAD 6-7 

 

Estymatory c.d. Własności i porównywanie estymatorów 

 
 
 

  Problem oceny estymatora. Funkcja ryzyka 

 
 
 

 

Porównywanie estymatorów 

 
 
 

 

Związek ryzyka z wariancją i obciążeniem 

 
 
 

 

Estymatory nieobciążone 

 
 
 

 

Estymatory nieobciążone o minimalnej wariancji 
(efektywne) 

 
 
 

 

Informacja Fishera i nierówność informacyjna 

 
      

 
 
 
 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

 

                                            ESTYMATORY c.d. 

  Niech –jak wcześniej - 

n

2

1

X

,

,

X

,

X

 będzie ciągiem obserwacji  

określonych na (

,

F

P  ) 

.  W naszych rozważaniach 

ograniczamy się do obserwacji, które tworzą próbę prostą.  

 

  Uwaga. Wygodnie jest  przyjąć 

= R

n

B(R

n

), oraz  

 

   

P

(B)= 

P

 (

B

)

X

,...,

X

,

X

(

n

2

1

;    B

  B(R

n

)     

 
Innymi słowy jako przestrzeń wyjściową wygodnie jest przyjąć 
przestrzeń indukowaną  przez  rodzinę rozkładów wektora 
losowego 
 (

n

2

1

X

,

,

X

,

X

).    

 W przypadku niezależnych zm. los. – to jest nasz przypadek - rozkład 
łączny wektora (

n

2

1

X

,

,

X

,

X

)  jest jednoznacznie wyznaczony 

przez rozkłady brzegowe. W przypadku, gdy X

i

 posiadają gęstości,  to 

rozkład łączny jest iloczynem gęstości poszczególnych zmiennych). 
  
Niech tym razem g: 

R będzie funkcją, której wartości chcemy 

estymować (w szczególnym przypadku może być  g(

) = 

)

 
                           Estymacja punktowa 
  
Jak już wspominaliśmy estymatorem  wartości g(

) jest dowolna 

statystyka, oznaczana przez nas 

(

n

2

1

X

,

,

X

,

X

) , której wartości,  

odpowiadające konkretnym próbom, służą do szacowania nieznanej 
wartości g(

).   

 
Innymi słowy, szacowanie nieznanej wartości g(

)  na  podstawie 

konkretnej realizacji próby losowej x

1

,…,x

polega na: 

 

wyznaczeniu wartości estymatora (tzn. na wyznaczaniu  

(

n

2

1

x

,

,

x

,

x

)),  

   przyjmowaniu tej wartości za oszacowanie parametru g(

).  

  
 
Taki rodzaj postępowania nazywa się estymacją punktową. 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

 
Chcielibyśmy,  aby  moduł różnicy (błąd estymacji)    
|

(

n

2

1

X

,

,

X

,

X

) - g(

)|  dla każdego

 był możliwie mały.  

 
Zauważmy, że błąd  przybliżenia jest zmienną losową ( przybliżamy 
stałą g(

) za pomocą zmiennej losowej 

(

n

2

1

X

,

,

X

,

X

)). Zatem 

dla oceny przybliżenia wygodnie jest posłużyć się średnim kwadratem 
błędu.   
 

Problem oceny estymatora. Funkcja ryzyka 

 
Definicja.
 Funkcja 

(

E

)

(

R

 

(

n

2

1

X

,

,

X

,

X

) - g(

))

2

       

 

nazywa się kwadratową funkcją ryzyka estymatora 

 
Przykład 1. 
Niech 

n

2

1

X

,

,

X

,

X

 będzie próbą prostą pochodzącą z 

rozkładu Poissona (

)

. Przypominamy E(X

k

) = Var(X

k

)= 

0

 

Niech estymatorem parametru 

 będzie  średnia z próby.( Zatem 

 

(

n

2

1

X

,

,

X

,

X

)=

 

 , g(

) =

).

,

0

(

,

 

  
Wyznaczmy funkcję ryzyka dla tego estymatora.  

(

E

)

X

(

E

)

(

R

2

n

2

n

2

1

))

n

X

X

X

(

n

1

=

n

n

n

1

X

Var

n

1

)

X

(

Var

n

1

2

n

1

k

k

2

n

1

k

k

2

,  

).

,

0

(

 

 
Wykorzystaliśmy fakt, że zmienne 

k

X

 są niezależne. 

 

Przykład 2.  Niech 

n

2

1

X

,

,

X

,

X

  będzie próbą prostą pochodzącą 

z rozkładu N(

)

,

, parametr 

-znany.  

Niech estymatorem parametru 

 będzie  średnia z próby. Wyznaczmy 

funkcję ryzyka dla tego estymatora. ( Tym razem 

,

   

(

n

2

1

X

,

,

X

,

X

)=

 

 , g(

) =

).

 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

2

n

)

X

(

E

)

(

R

(

E

2

n

2

1

))

n

X

X

X

(

n

1

)

X

(

Var

n

1

]

n

X

[

E

n

1

n

1

k

k

2

2

n

1

k

k

2

  

n

2

  

Wykorzystaliśmy fakt, że zmienne 

k

X

 są niezależne. Okazało się, że  

)

(

R

=  const. = 

n

2

,    

.

   

 
                         

  Porównywanie estymatorów 

 
Jeżeli chcemy porównywać estymatory  w ustalonym modelu 
statystycznym to naturalnym kryterium wydaje się być kryterium 
ryzyka. 
 
Definicja. 
Niech  

)

X

,...,

X

(

),

X

,...,

X

(

n

1

2

n

1

1

 będą 

estymatorami g(

)

 w ustalonym modelu.  Niech  

(

E

)

(

R

1

 

1

(

n

2

1

X

,

,

X

,

X

) - g(

))

2

 ,  

(

E

)

(

R

2

 

2

(

n

2

1

X

,

,

X

,

X

) - g(

))

2

 

 
Mówimy, że  estymator 

 jest lepszy niż 

2

 jeśli 

 dla każdego 

 

,       

)

(

R

)

(

R

2

1

 

  

  a dla pewnego 

 ,        

)

(

R

)

(

R

2

1

 

 

 
Uwaga. D
efinicja odnosi się do takich estymatorów, dla których 
funkcje ryzyka nie przecinają się. W przeciwnym bowiem przypadku 
estymatory są nieporównywalne. 
 
Dlatego też statystycy porównują estymatory, które spełniają 
dodatkowe warunki.  

 

Obciążenie i estymatory nieobciążone 

 

 

Niech 

(

n

2

1

X

,

,

X

,

X

)  będzie estymatorem g(

).  

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

 Definicja.Wielkość  

)

(

g

))

X

,...,

X

(

(

E

)

(

b

n

1

def

 nazywa się 

obciążeniem estymatora 

.   

 
Definicja. Estymator 

(X) estymujący  g(

) nazywa się 

nieobciążony jeśli  jego obciążenie jest zerowe to znaczy 
                   

)

(

g

))

X

,...,

X

(

(

E

)

(

b

n

1

0. 

Innymi słowy estymator jest nieobciążony  jeśli 
                   

)

(

g

))

X

,...,

X

(

(

E

n

1

 
 
Twierdzenie 6.1.
 (

O Obciążeniu, wariancji i ryzyku)

.  

 Niech X

def

 (

n

2

1

X

,

,

X

,

X

)  gdzie 

n

2

1

X

,

,

X

,

X

 jest  próbą 

losową, 

n

2

1

X

,

,

X

,

X

 

~P

  

Ryzyko estymatora 

(X) estymującego  g(

) jest sumą wariancji 

estymatora i kwadratu obciążenia to znaczy 
 

)

(

b

)

X

(

Var

)

(

R

2

 

2

2

2

2

2

2

2

))

(

b

(

)

X

(

Var

))

(

g

)

X

(

E

(

))

X

(

E

)

X

(

(

E

]

))

(

g

)

X

(

E

(

))

(

g

)

X

(

E

))(

X

(

E

)

X

(

(

2

))

X

(

E

)

X

(

[(

E

)]

(

g

)

X

(

E

)

X

(

E

)

X

(

[

E

))

(

g

)

X

(

(

E

)

(

R

 

 
Dowód.
 Wykorzystaliśmy fakt, że podwojony „iloczyn mieszany”  
 
znika ponieważ 

))

(

g

)

X

(

E

(

 

jest liczbą natomiast 

 

0

)

X

(

E

)

X

(

E

)]

X

(

E

)

X

(

[

E

 cbdo. 

 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

Przykłady estymatorów wariancji 

 
 
Niech 

n

2

1

X

,

,

X

,

X

 

~N(

),

,

 - parametr oznaczający wariancje.  

 
Rozważmy wspomniane już  (por. Wykład 3) estymatory wariancji. 

   

n

1

i

2

i

2

)

X

X

(

1

n

1

S

  wariancja z próby (bez daszka).

 

n

1

i

2

i

2

)

X

X

(

n

1

S

ˆ

----wariancja z próby ( z daszkiem) 

 

a)  Estymator S

2

.  W Wykładzie 3 zajmowaliśmy się 

statystyką 

2

2

S

1

n

.

 Z Twierdzenia 3.2  wiadomo, że  

2

2

S

1

n

 

2

(n-1) 

Przypominamy, że wartość oczekiwana zmiennej, która ma rozkład 

2

(n-1) wynosi n-1 natomiast wariancja 2(n-1), zatem 

E(

2

2

S

1

n

) = 

1

n

)

S

(

E

1

n

2

2

 Stąd 

2

2

)

S

(

E

 
Obliczmy wariancję estymatora S

2

Var (

2

2

S

1

n

) = 

)

1

n

(

2

)

S

(

Var

)

1

n

(

2

4

2

), zatem 

Var (

2

S

)=

1

n

2

4

 

Wracając do naszego modelu, w którym 

 jest dowolne (ale 

ustalone), 

2

=

 

 jest parametrem estymowanym mamy 

 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

)

S

(

E

2

,

oraz 

,

Var

 

(

2

S

)=

1

n

2

 

   dla każdego 

0

 .                                                             

 

Wniosek. Estymator 

ˆ

2

ˆ

2

S

 jest estymatorem 

nieobciążonym o ryzyku    R

1

( )

 

1

n

2

 

b) Rozważmy teraz estymator wariancji   

2

                                                                                                                                                         

Łatwo zauważyć, że n

2

= (n-1) S

2

. Zatem  

n

S

)

1

n

(

S

ˆ

2

2

 co daje 

                                

)

n

1

1

(

)

S

ˆ

(

E

2

,

 

Oznacza to, że estymator 

2

 jest obciążony i jego obciążenie 

wynosi   

b(

2

)=

)

n

1

1

(

)

S

ˆ

(

E

2

,

n

1

 

 

    Obliczmy wariancję estymatora 

2

. Ponieważ 

n

S

)

1

n

(

S

ˆ

2

2

,

Var

 

(

2

)=

2

2

n

)

1

n

(

,

Var

 

(

2

S

)  = 

2

2

n

)

1

n

(

1

n

2

2

=

.

n

)

1

n

(

2

2

2

 

 

Funkcja ryzyka dla estymatora 

2

     R

2

(

)

 

2

2

n

1

2

2

n

)

1

n

(

2

 

 

Porównywanie estymatorów 

2

S

 

i

 

2

 

  
Można wykazać, że estymator 

2

  

 ma mniejszą wartość ryzyka niż 

2

S

.

  

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

   R

)

(

2

2

n

1

2

2

n

)

1

n

(

2

=

)

(

R

1

n

2

n

n

2

n

1

n

2

1

2

2

2

2

2

                                            

 

 

Estymator   

2

S

 

    jest nieobciążony, natomiast    

2

  

 ma ujemne 

obciążenie co oznacza, że systematycznie obniża wartość 

estymowanego parametru  

.

2

                                                                                     

                                   

   

 

Estymator nieobciążony c.d. 

 

 Przypominamy.  Estymator 

)

X

,

,

X

(

n

1

 wartości g(

) nazywa się 

nieobciążony jeśli dla każdego 

  obciążenie jest zerowe, tzn                             

                                  

0

)

(

g

))

X

,...,

X

(

(

E

)

(

b

n

1

def

 

    Z  Twierdzenia 6.1 wynika natychmiast, następujący wniosek 
 
 
Wniosek z Twierdzenia  6.1.
 Dla estymatora nieobciążonego ryzyko 
jest równe wariancji estymatora.       

           
 

Estymator nieobciążony o minimalnej wariancji  

(ENMW)( inna nazwa: efektywny lub najefektywniejszy) 

 

Definicja. Estymator 

)

X

,...,

X

(

g

n

1

jest  ENMW wielkości g(

(innymi słowy estymatorem najefektywniejszym  wartości g(

)) jeśli 

jest   
a) nieobciążony  
b) dla każdego nieobciążonego estymatora 

)

X

,...,

X

(

n

1

mamy 

  

)

X

,...,

X

(

Var

)

X

,...,

X

(

g

Var

n

1

n

1

 

 

  Pytanie : jak mała może być wariancja nieobciążonego 

estymatora, który jest funkcją n-elementowej próby losowej? 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

 

Nierówność Craméra-Rao  podaje ograniczenie dolne na 
wielkość wariancji.  

  Odpowiednie twierdzenie poprzedzimy  definicją tzw. 

informacji Fishera.  

  Informacja Fishera  to funkcja zależna od parametru 

, która 

wyraża informację o parametrze zawartą w zmiennej losowej X 
o gęstości 

)

x

(

f

 (w przypadku zmiennej dyskretnej o zadanej 

funkcji prawdopodobieństwa ).   

 

Informacja Fishera 

 
Definicja.
 a) Niech X będzie zmienną losową o gęstości 

)

x

(

f

 

zależnej od jednowymiarowego parametru 

R

Funkcję   

I

1

(

)=

R

2

2

dx

)

x

(

f

))

x

(

f

ln

d

d

(

))

X

(

f

ln

d

d

(

E

 

nazywamy informacją Fishera zawartą w pojedynczej obserwacji. 

  b) Niech X będzie zmienną losową o rozkładzie dyskretnym: 

,

W

x

),

x

(

p

 

W-przeliczalny podzbiór R. 

I

1

(

) = (

W

x

2

))

x

(

p

))

x

(

p

ln

d

d

(

 

Uwaga. O informacji Fishera mówimy tylko wtedy, gdy nośnik 
gęstości (nośnik, to podzbiór R, na którym gęstość jest dodatnia)   nie  
zależy od parametru 

Przykładem gęstości, która nie spełnia tego 

wymogu, jest gęstość rozkładu jednostajnego. 
   
 
Definicja. 
 Informację zawartą w ciągu obserwacji   

n

1

X

,...,

X

 

określa się wzorem 

I

n

(

)=

2

n

1

))

X

,...,

X

(

f

ln

d

d

(

E

 

 

gdzie tym razem,  

)

x

,...,

x

(

f

n

1

jest łączną gęstością obserwacji.  

  

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

10 

 

Informację Fishera dla ciągu obserwacji zm.los. dyskretnej  
określa się podobnie, zastępując funkcję gęstości funkcją 
prawdopodobieństw. 

 

Wniosek z definicji. Niech 

n

2

1

X

,

,

X

,

X

 będzie n-wymiarową 

próbą losową prostą pochodzącą z rozkładu ciągłego. Zatem 

)

x

(

f

)...

x

(

f

)

x

(

f

)

x

,...,

x

(

f

n

2

1

n

1

                

    (6.1) 

 

oraz 

I

n

(

)=

2

n

1

2

n

1

)])

X

(

f

)

X

(

f

ln[

d

d

(

E

))

X

,...,

X

(

f

ln

d

d

(

E

 

 

 

 

Przykład informacji Fishera 

 Rozważmy rozkład wykładniczy, 

0

x

,

e

)

x

(

f

x

x

ln

)

x

(

f

ln

zatem 

x

1

))

x

(

f

(ln

d

d

Tak więc 

.

1

)

X

(

Var

dx

e

)

1

x

(

dx

e

)

x

1

(

dx

)

x

(

f

))

x

(

f

ln

d

d

(

))

X

(

f

ln

d

d

(

E

)

(

I

2

x

2

0

x

2

0

2

2

1

 

Otrzymaliśmy : I

1

(

)=

.

1

2

 

   

Informacja Fishera 

 

(por. M. Krzyśko, Stat. Mat., 2004, A. Plucińska, E. Pluciński, 

Probabilistyka, 2000). 

 Rozważamy próbę losową 

n

1

X

,...,

X

pochodzącą z rozkładu ciągłego   

o gęstości 

).

x

(

f

 Będziemy zakładać, że spełnione są warunki: 

 

  

i)   nośnik funkcji 

)

x

(

f

( tzn. zbiór {x: 

)

x

(

f

> 0}) nie zależy od  

.

 

ii)   

jest otwartym przedziałem zawartym w R.

   

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

11 

iii)  

)

x

(

f

 jest różniczkowalna ze względu na 

.

 

iv)   Funkcja 

]

))

X

(

f

ln

d

d

[(

E

)

(

I

2

1

 spełnia nierówności 

       0 < I

1

(

) < 

 

   

v)  

dx

)

x

(

f

dx

)

x

(

f

R

R

                                                                  

 

 

 

Twierdzenie 6.2. O nierówności Craméra-Rao. Jeżeli 

n

1

X

,...,

X

 

jest próbą losową prostą pochodzącą z rozkładu prawdopodobieństwa  

f , 

R

dla którego spełniony jest warunki (i)-(v),  to 

   
a)  I

n

(

)=

)

(

nI

1

 

                               

b) wariancja dowolnego nieobciążonego estymatora 

)

X

,...,

X

(

ˆ

n

1

 

parametru 

 spełnia następującą nierówność nazywaną 

nierównością Rao-Cramera lub nierównością informacyjną:  

2

1

2

n

1

n

1

)

X

(

f

ln

nE

1

)

X

,...,

X

(

f

ln

E

1

)

X

,...,

X

(

ˆ

Var

                  

 
Dowód pomijamy. 

 

Wnioski.  
(i) Biorąc pod uwagę tezy a) i b)- w przypadku próby losowej prostej -
nierówność informacyjną można zapisać:   

Var

)

(

nI

1

)

(

I

1

)

X

,...,

X

(

ˆ

1

n

n

1

.

 

 
(ii) Jeśli w nierówności informacyjnej  występuje równość to 
estymator 

)

X

,...,

X

(

ˆ

n

1

 

jest estymatorem  najefektywniejszym  

(ENMW) w klasie estymatorów nieobciążonych spełniających 
warunki (i)-(v).     
 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

12 

Przykład. Niech  X

1

,...,X

będzie próbą prostą pochodzącą z N(

,

)

.

.

R

 

Wiadomo, że 

E

(

)

X

, Va

n

)

X

r

2

 Pokażemy, że  

)

X

,...,

X

(

ˆ

n

1

X

 

jest estymatorem najefektywniejszym wartości 

oczekiwanej 
 

)

x

2

1

exp(

2

1

)

x

(

f

2

 

 

ln

2

2

x

2

1

2

ln

x

2

1

2

1

ln

)

x

(

f

 

 
 

)

x

(

f

ln

2

)

x

(

 

 

I

1

(

) = 

E

2

4

2

2

2

1

1

X

E

X





 

 
Zatem 
 

X

Var

n

1

n

1

)

(

nI

1

X

Var

2

2

1

  cbdo. 

 
Uwaga. W 
literaturze estymator nieobciążony,  dla którego 
nierówność informacyjna  jest równością, nazywa się estymatorem  
efektywnym w sensie Craméra-Rao.
                                    
 
                             
 

background image

Mat. Statystyka. Wykłady  6-7.2013L                            R. Rempała. Materiały dydaktyczne  

 

13 

Miara efektywności estymatora 

 

Niech 

)

X

,...,

X

(

ˆ

n

1

1

 i 

)

X

,...,

X

(

ˆ

n

1

2

 

będą dwoma estymatorami tego 

samego parametru 

 

i niech 

 

)

X

,...,

X

(

ˆ

n

1

1

 będzie estymatorem   

najefektywniejszym (ENMW). 
  Definicja. 
Wielkość   

                         

)

ˆ

(

Var

)

ˆ

(

Var

)

ˆ

(

eff

2

1

2

  

przyjmuje się za miarę efektywności estymatora 

2

ˆ

 Zauważmy, że  
  

0 < 

1

)

ˆ

(

Var

)

ˆ

(

Var

)

ˆ

(

eff

2

1

2

 

Oczywistym jest fakt, że równość  

1

)

ˆ

(

eff

2

 

oznacza, iż  

2

ˆ

 jest najefektywniejszy. 

Jeżeli estymatory stają się bliskie najefektywniejszym dopiero w 
dużych próbach, to znaczy  
                              

1

)

ˆ

(

eff

lim

2

n

nazywa się je asymptotycznie najefektywniejszymi.