Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
1
WYKŁAD 6-7
Estymatory c.d. Własności i porównywanie estymatorów
Problem oceny estymatora. Funkcja ryzyka
Porównywanie estymatorów
Związek ryzyka z wariancją i obciążeniem
Estymatory nieobciążone
Estymatory nieobciążone o minimalnej wariancji
(efektywne)
Informacja Fishera i nierówność informacyjna
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
2
ESTYMATORY c.d.
Niech –jak wcześniej -
n
2
1
X
,
,
X
,
X
będzie ciągiem obserwacji
określonych na (
,
F,
P )
. W naszych rozważaniach
ograniczamy się do obserwacji, które tworzą próbę prostą.
Uwaga. Wygodnie jest przyjąć
= R
n
, F = B(R
n
), oraz
P
(B)=
P
(
B
)
X
,...,
X
,
X
(
n
2
1
; B
B(R
n
)
Innymi słowy jako przestrzeń wyjściową wygodnie jest przyjąć
przestrzeń indukowaną przez rodzinę rozkładów wektora
losowego (
n
2
1
X
,
,
X
,
X
).
W przypadku niezależnych zm. los. – to jest nasz przypadek - rozkład
łączny wektora (
n
2
1
X
,
,
X
,
X
) jest jednoznacznie wyznaczony
przez rozkłady brzegowe. W przypadku, gdy X
i
posiadają gęstości, to
rozkład łączny jest iloczynem gęstości poszczególnych zmiennych).
Niech tym razem g:
R będzie funkcją, której wartości chcemy
estymować (w szczególnym przypadku może być g(
) =
)
.
Estymacja punktowa
Jak już wspominaliśmy estymatorem wartości g(
) jest dowolna
statystyka, oznaczana przez nas
gˆ
(
n
2
1
X
,
,
X
,
X
) , której wartości,
odpowiadające konkretnym próbom, służą do szacowania nieznanej
wartości g(
).
Innymi słowy, szacowanie nieznanej wartości g(
) na podstawie
konkretnej realizacji próby losowej x
1
,…,x
n
polega na:
wyznaczeniu wartości estymatora (tzn. na wyznaczaniu
gˆ
(
n
2
1
x
,
,
x
,
x
)),
przyjmowaniu tej wartości za oszacowanie parametru g(
).
Taki rodzaj postępowania nazywa się estymacją punktową.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
3
Chcielibyśmy, aby moduł różnicy (błąd estymacji)
|
gˆ
(
n
2
1
X
,
,
X
,
X
) - g(
)| dla każdego
był możliwie mały.
Zauważmy, że błąd przybliżenia jest zmienną losową ( przybliżamy
stałą g(
) za pomocą zmiennej losowej
gˆ
(
n
2
1
X
,
,
X
,
X
)). Zatem
dla oceny przybliżenia wygodnie jest posłużyć się średnim kwadratem
błędu.
Problem oceny estymatora. Funkcja ryzyka
Definicja. Funkcja
(
E
)
(
R
gˆ
(
n
2
1
X
,
,
X
,
X
) - g(
))
2
nazywa się kwadratową funkcją ryzyka estymatora
gˆ
.
Przykład 1. Niech
n
2
1
X
,
,
X
,
X
będzie próbą prostą pochodzącą z
rozkładu Poissona (
)
. Przypominamy E(X
k
) = Var(X
k
)=
,
0
Niech estymatorem parametru
będzie średnia z próby.( Zatem
gˆ
(
n
2
1
X
,
,
X
,
X
)=
, g(
) =
).
,
0
(
,
Wyznaczmy funkcję ryzyka dla tego estymatora.
(
E
)
X
(
E
)
(
R
2
n
2
n
2
1
))
n
X
X
X
(
n
1
=
n
n
n
1
X
Var
n
1
)
X
(
Var
n
1
2
n
1
k
k
2
n
1
k
k
2
,
).
,
0
(
Wykorzystaliśmy fakt, że zmienne
k
X
są niezależne.
Przykład 2. Niech
n
2
1
X
,
,
X
,
X
będzie próbą prostą pochodzącą
z rozkładu N(
)
,
, parametr
-znany.
Niech estymatorem parametru
będzie średnia z próby. Wyznaczmy
funkcję ryzyka dla tego estymatora. ( Tym razem
,
gˆ
(
n
2
1
X
,
,
X
,
X
)=
, g(
) =
).
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
4
2
n
)
X
(
E
)
(
R
(
E
2
n
2
1
))
n
X
X
X
(
n
1
=
)
X
(
Var
n
1
]
n
X
[
E
n
1
n
1
k
k
2
2
n
1
k
k
2
n
2
Wykorzystaliśmy fakt, że zmienne
k
X
są niezależne. Okazało się, że
)
(
R
= const. =
n
2
,
.
Porównywanie estymatorów
Jeżeli chcemy porównywać estymatory w ustalonym modelu
statystycznym to naturalnym kryterium wydaje się być kryterium
ryzyka.
Definicja. Niech
)
X
,...,
X
(
gˆ
),
X
,...,
X
(
gˆ
n
1
2
n
1
1
będą
estymatorami g(
)
w ustalonym modelu. Niech
(
E
)
(
R
1
gˆ
1
(
n
2
1
X
,
,
X
,
X
) - g(
))
2
,
(
E
)
(
R
2
gˆ
2
(
n
2
1
X
,
,
X
,
X
) - g(
))
2
Mówimy, że estymator
gˆ
1
jest lepszy niż
gˆ
2
jeśli
dla każdego
,
)
(
R
)
(
R
2
1
a dla pewnego
,
)
(
R
)
(
R
2
1
Uwaga. Definicja odnosi się do takich estymatorów, dla których
funkcje ryzyka nie przecinają się. W przeciwnym bowiem przypadku
estymatory są nieporównywalne.
Dlatego też statystycy porównują estymatory, które spełniają
dodatkowe warunki.
Obciążenie i estymatory nieobciążone
Niech
gˆ
(
n
2
1
X
,
,
X
,
X
) będzie estymatorem g(
).
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
5
Definicja.Wielkość
)
(
g
))
X
,...,
X
(
gˆ
(
E
)
(
b
n
1
def
nazywa się
obciążeniem estymatora
gˆ
.
Definicja. Estymator
gˆ
(X) estymujący g(
) nazywa się
nieobciążony jeśli jego obciążenie jest zerowe to znaczy
)
(
g
))
X
,...,
X
(
gˆ
(
E
)
(
b
n
1
= 0.
Innymi słowy estymator jest nieobciążony jeśli
)
(
g
))
X
,...,
X
(
gˆ
(
E
n
1
.
Twierdzenie 6.1. (
O Obciążeniu, wariancji i ryzyku)
.
Niech X
def
(
n
2
1
X
,
,
X
,
X
) gdzie
n
2
1
X
,
,
X
,
X
jest próbą
losową,
n
2
1
X
,
,
X
,
X
~P
.
Ryzyko estymatora
gˆ
(X) estymującego g(
) jest sumą wariancji
estymatora i kwadratu obciążenia to znaczy
)
(
b
)
X
(
gˆ
Var
)
(
R
2
2
2
2
2
2
2
2
))
(
b
(
)
X
(
gˆ
Var
))
(
g
)
X
(
gˆ
E
(
))
X
(
gˆ
E
)
X
(
gˆ
(
E
]
))
(
g
)
X
(
gˆ
E
(
))
(
g
)
X
(
gˆ
E
))(
X
(
gˆ
E
)
X
(
gˆ
(
2
))
X
(
gˆ
E
)
X
(
gˆ
[(
E
)]
(
g
)
X
(
gˆ
E
)
X
(
gˆ
E
)
X
(
gˆ
[
E
))
(
g
)
X
(
gˆ
(
E
)
(
R
Dowód. Wykorzystaliśmy fakt, że podwojony „iloczyn mieszany”
znika ponieważ
))
(
g
)
X
(
gˆ
E
(
jest liczbą natomiast
0
)
X
(
gˆ
E
)
X
(
gˆ
E
)]
X
(
gˆ
E
)
X
(
gˆ
[
E
cbdo.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
6
Przykłady estymatorów wariancji
Niech
n
2
1
X
,
,
X
,
X
~N(
),
,
- parametr oznaczający wariancje.
Rozważmy wspomniane już (por. Wykład 3) estymatory wariancji.
n
1
i
2
i
2
)
X
X
(
1
n
1
S
- wariancja z próby (bez daszka).
n
1
i
2
i
2
)
X
X
(
n
1
S
ˆ
----wariancja z próby ( z daszkiem)
a) Estymator S
2
. W Wykładzie 3 zajmowaliśmy się
statystyką
2
2
S
1
n
.
Z Twierdzenia 3.2 wiadomo, że
2
2
S
1
n
~
2
(n-1)
Przypominamy, że wartość oczekiwana zmiennej, która ma rozkład
2
(n-1) wynosi n-1 natomiast wariancja 2(n-1), zatem
E(
2
2
S
1
n
) =
1
n
)
S
(
E
1
n
2
2
.
Stąd
2
2
)
S
(
E
.
Obliczmy wariancję estymatora S
2
.
Var (
2
2
S
1
n
) =
)
1
n
(
2
)
S
(
Var
)
1
n
(
2
4
2
), zatem
Var (
2
S
)=
1
n
2
4
.
Wracając do naszego modelu, w którym
jest dowolne (ale
ustalone),
2
=
jest parametrem estymowanym mamy
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
7
)
S
(
E
2
,
oraz
,
Var
(
2
S
)=
1
n
2
dla każdego
0
.
Wniosek. Estymator
ˆ
2
ˆ
=
2
S
jest estymatorem
nieobciążonym o ryzyku R
1
( )
=
1
n
2
.
b) Rozważmy teraz estymator wariancji
2
Sˆ
Łatwo zauważyć, że n
2
Sˆ
= (n-1) S
2
. Zatem
n
S
)
1
n
(
S
ˆ
2
2
co daje
)
n
1
1
(
)
S
ˆ
(
E
2
,
Oznacza to, że estymator
2
Sˆ
jest obciążony i jego obciążenie
wynosi
b(
2
Sˆ
)=
)
n
1
1
(
)
S
ˆ
(
E
2
,
n
1
Obliczmy wariancję estymatora
2
Sˆ
. Ponieważ
n
S
)
1
n
(
S
ˆ
2
2
,
,
Var
(
2
Sˆ
)=
2
2
n
)
1
n
(
,
Var
(
2
S
) =
2
2
n
)
1
n
(
1
n
2
2
=
.
n
)
1
n
(
2
2
2
Funkcja ryzyka dla estymatora
2
Sˆ
: R
2
(
)
=
2
2
n
1
+
2
2
n
)
1
n
(
2
Porównywanie estymatorów
2
S
i
2
Sˆ
Można wykazać, że estymator
2
Sˆ
ma mniejszą wartość ryzyka niż
2
S
.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
8
R
2
)
(
=
2
2
n
1
+
2
2
n
)
1
n
(
2
=
)
(
R
1
n
2
n
n
2
n
1
n
2
1
2
2
2
2
2
Estymator
2
S
jest nieobciążony, natomiast
2
Sˆ
ma ujemne
obciążenie co oznacza, że systematycznie obniża wartość
estymowanego parametru
.
2
Estymator nieobciążony c.d.
Przypominamy. Estymator
)
X
,
,
X
(
gˆ
n
1
wartości g(
) nazywa się
nieobciążony jeśli dla każdego
obciążenie jest zerowe, tzn
0
)
(
g
))
X
,...,
X
(
gˆ
(
E
)
(
b
n
1
def
Z Twierdzenia 6.1 wynika natychmiast, następujący wniosek
Wniosek z Twierdzenia 6.1. Dla estymatora nieobciążonego ryzyko
jest równe wariancji estymatora.
Estymator nieobciążony o minimalnej wariancji
(ENMW)( inna nazwa: efektywny lub najefektywniejszy)
Definicja. Estymator
)
X
,...,
X
(
g
n
1
jest ENMW wielkości g(
)
(innymi słowy estymatorem najefektywniejszym wartości g(
)) jeśli
jest
a) nieobciążony
b) dla każdego nieobciążonego estymatora
)
X
,...,
X
(
gˆ
n
1
mamy
)
X
,...,
X
(
gˆ
Var
)
X
,...,
X
(
g
Var
n
1
n
1
Pytanie : jak mała może być wariancja nieobciążonego
estymatora, który jest funkcją n-elementowej próby losowej?
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
9
Nierówność Craméra-Rao podaje ograniczenie dolne na
wielkość wariancji.
Odpowiednie twierdzenie poprzedzimy definicją tzw.
informacji Fishera.
Informacja Fishera to funkcja zależna od parametru
, która
wyraża informację o parametrze zawartą w zmiennej losowej X
o gęstości
)
x
(
f
(w przypadku zmiennej dyskretnej o zadanej
funkcji prawdopodobieństwa ).
Informacja Fishera
Definicja. a) Niech X będzie zmienną losową o gęstości
)
x
(
f
zależnej od jednowymiarowego parametru
R
. Funkcję
I
1
(
)=
R
2
2
dx
)
x
(
f
))
x
(
f
ln
d
d
(
))
X
(
f
ln
d
d
(
E
nazywamy informacją Fishera zawartą w pojedynczej obserwacji.
b) Niech X będzie zmienną losową o rozkładzie dyskretnym:
,
W
x
),
x
(
p
W-przeliczalny podzbiór R.
I
1
(
) = (
W
x
2
))
x
(
p
))
x
(
p
ln
d
d
(
Uwaga. O informacji Fishera mówimy tylko wtedy, gdy nośnik
gęstości (nośnik, to podzbiór R, na którym gęstość jest dodatnia) nie
zależy od parametru
.
Przykładem gęstości, która nie spełnia tego
wymogu, jest gęstość rozkładu jednostajnego.
Definicja. Informację zawartą w ciągu obserwacji
n
1
X
,...,
X
określa się wzorem
I
n
(
)=
2
n
1
))
X
,...,
X
(
f
ln
d
d
(
E
gdzie tym razem,
)
x
,...,
x
(
f
n
1
jest łączną gęstością obserwacji.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
10
Informację Fishera dla ciągu obserwacji zm.los. dyskretnej
określa się podobnie, zastępując funkcję gęstości funkcją
prawdopodobieństw.
Wniosek z definicji. Niech
n
2
1
X
,
,
X
,
X
będzie n-wymiarową
próbą losową prostą pochodzącą z rozkładu ciągłego. Zatem
)
x
(
f
)...
x
(
f
)
x
(
f
)
x
,...,
x
(
f
n
2
1
n
1
(6.1)
oraz
I
n
(
)=
2
n
1
2
n
1
)])
X
(
f
)
X
(
f
ln[
d
d
(
E
))
X
,...,
X
(
f
ln
d
d
(
E
Przykład informacji Fishera
Rozważmy rozkład wykładniczy,
0
x
,
e
)
x
(
f
x
.
x
ln
)
x
(
f
ln
,
zatem
x
1
))
x
(
f
(ln
d
d
.
Tak więc
.
1
)
X
(
Var
dx
e
)
1
x
(
dx
e
)
x
1
(
dx
)
x
(
f
))
x
(
f
ln
d
d
(
))
X
(
f
ln
d
d
(
E
)
(
I
2
x
2
0
x
2
0
2
2
1
Otrzymaliśmy : I
1
(
)=
.
1
2
Informacja Fishera
(por. M. Krzyśko, Stat. Mat., 2004, A. Plucińska, E. Pluciński,
Probabilistyka, 2000).
Rozważamy próbę losową
n
1
X
,...,
X
pochodzącą z rozkładu ciągłego
o gęstości
).
x
(
f
Będziemy zakładać, że spełnione są warunki:
i) nośnik funkcji
)
x
(
f
( tzn. zbiór {x:
)
x
(
f
> 0}) nie zależy od
.
ii)
jest otwartym przedziałem zawartym w R.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
11
iii)
)
x
(
f
jest różniczkowalna ze względu na
.
iv) Funkcja
]
))
X
(
f
ln
d
d
[(
E
)
(
I
2
1
spełnia nierówności
0 < I
1
(
) <
v)
dx
)
x
(
f
dx
)
x
(
f
R
R
Twierdzenie 6.2. O nierówności Craméra-Rao. Jeżeli
n
1
X
,...,
X
jest próbą losową prostą pochodzącą z rozkładu prawdopodobieństwa
f ,
R
,
dla którego spełniony jest warunki (i)-(v), to
a) I
n
(
)=
)
(
nI
1
b) wariancja dowolnego nieobciążonego estymatora
)
X
,...,
X
(
ˆ
n
1
parametru
spełnia następującą nierówność nazywaną
nierównością Rao-Cramera lub nierównością informacyjną:
2
1
2
n
1
n
1
)
X
(
f
ln
nE
1
)
X
,...,
X
(
f
ln
E
1
)
X
,...,
X
(
ˆ
Var
Dowód pomijamy.
Wnioski.
(i) Biorąc pod uwagę tezy a) i b)- w przypadku próby losowej prostej -
nierówność informacyjną można zapisać:
Var
)
(
nI
1
)
(
I
1
)
X
,...,
X
(
ˆ
1
n
n
1
.
(ii) Jeśli w nierówności informacyjnej występuje równość to
estymator
)
X
,...,
X
(
ˆ
n
1
jest estymatorem najefektywniejszym
(ENMW) w klasie estymatorów nieobciążonych spełniających
warunki (i)-(v).
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
12
Przykład. Niech X
1
,...,X
n
będzie próbą prostą pochodzącą z N(
,
)
.
.
R
Wiadomo, że
E
(
)
X
, Va
n
)
X
r
2
.
Pokażemy, że
)
X
,...,
X
(
ˆ
n
1
=
X
jest estymatorem najefektywniejszym wartości
oczekiwanej
)
x
2
1
exp(
2
1
)
x
(
f
2
ln
2
2
x
2
1
2
ln
x
2
1
2
1
ln
)
x
(
f
)
x
(
f
ln
2
)
x
(
I
1
(
) =
E
2
4
2
2
2
1
1
X
E
X
Zatem
X
Var
n
1
n
1
)
(
nI
1
X
Var
2
2
1
cbdo.
Uwaga. W literaturze estymator nieobciążony, dla którego
nierówność informacyjna jest równością, nazywa się estymatorem
efektywnym w sensie Craméra-Rao.
Mat. Statystyka. Wykłady 6-7.2013L R. Rempała. Materiały dydaktyczne
13
Miara efektywności estymatora
Niech
)
X
,...,
X
(
ˆ
n
1
1
i
)
X
,...,
X
(
ˆ
n
1
2
będą dwoma estymatorami tego
samego parametru
i niech
)
X
,...,
X
(
ˆ
n
1
1
będzie estymatorem
najefektywniejszym (ENMW).
Definicja. Wielkość
)
ˆ
(
Var
)
ˆ
(
Var
)
ˆ
(
eff
2
1
2
przyjmuje się za miarę efektywności estymatora
2
ˆ
.
Zauważmy, że
0 <
1
)
ˆ
(
Var
)
ˆ
(
Var
)
ˆ
(
eff
2
1
2
Oczywistym jest fakt, że równość
1
)
ˆ
(
eff
2
oznacza, iż
2
ˆ
jest najefektywniejszy.
Jeżeli estymatory stają się bliskie najefektywniejszym dopiero w
dużych próbach, to znaczy
1
)
ˆ
(
eff
lim
2
n
,
nazywa się je asymptotycznie najefektywniejszymi.