
Wykład 5
Elementy teorii estymacji
5.1.
Podstawowe pojęcia
Proces uogólniania zaobserwowanych w próbie losowej wyników na całą zbiorowość statystyczną nazywamy wnioskowaniem statystycznym. Metody wnioskowania statystycznego obejmują estymację parametrów zbiorowości generalnej oraz weryfikację hipotez statystycznych.
Wnioskowanie statystyczne jako oparte na częściowej informacji dostarcza jedynie wniosków wiarygodnych. Dowolne dwie n-elenentowe próby z populacji są na ogół róŜne. Wygodnie jest zatem traktować ciąg liczbowy x1, x2, …, xn jako realizację ciągu X1, X2, …, Xn, gdzie Xi, i=1, 2, …, n, jest zmienną losową, której zbiorem moŜliwych wartości są wartości i-tego spośród n wylosowanych elementów. Ciąg zmiennych losowych X1, X2, …, Xn nazywa się n-elementową próbą losową, natomiast jeśli zmienne X1, X2, …, Xn są niezaleŜne i kaŜda z nich ma rozkład taki jak rozkład badanej cechy populacji, to próbę nazywamy próbą prostą.
Jednym z rodzajów wnioskowania jest estymacja. Estymacja (szacowanie, ocenianie) jest procesem wnioskowania o numerycznych wartościach nieznanych wielkości charakteryzujących populację generalną na podstawie danych próbkowych.
Estymatorem parametru Q nazywa się statystykę
ˆ
(84)
Q = f ( X , X ,..., X )
n
1
2
n
słuŜącą do oszacowania nieznanej wartości parametru zbiorowości generalnej Q .
WyróŜnia się dwa rodzaje estymacji:
estymację punktową, czyli metodę szacunku za pomocą której jako wartość parametru zbiorowości generalnej przyjmuje się konkretną wartość estymatora wyznaczonego na podstawie n-elementowej próby
estymację przedziałową, za pomocą której wyznacza się przedział liczbowy, który z ustalonym prawdopodobieństwem zawiera nieznana wartość szacowanego parametru zbiorowości generalnej. Prawdopodobieństwo to nosi nazwę współczynnika (poziomu) ufności i oznaczane jest jako 1-α, a znaleziony przedział nazywany jest przedziałem ufności.
Interpretacja poziomu ufności jest następująca: przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufności, średnio w (1-α)⋅100%
przypadków otrzymujemy przedziały pokrywające nieznaną wartość Q .
5.2.
Estymacja punktowa
Wartość liczbową qêstymatora Q
ˆ policzoną na podstawie realizacji (x
n
n
1, x2, …, xn) próby prostej
(X1, X2, …, Xn) nazywamy oceną parametru Q.
dr Mirosława Szewczyk
1
Statystyka

WyraŜenie Q
ˆ − Q nazywa się bł
ˆ
ędem szacunku, a jego miarą jest zwykle
2
E( Q − Q) .
n
n
Wielkość błędu szacunku zaleŜy od doboru próby i od wyboru moŜliwie najlepszego estymatora.
O wykorzystaniu estymatora dla dokonania oszacowania decydują jego własności, spośród których szczególnie poŜądane są:
• nieobciąŜoność
• zgodność
• efektywność.
Estymatorem
zgodnym
nazywamy
estymator
stochastycznie
zbieŜny
do
parametru
estymowanego, tzn. taki, który dla kaŜdego ε>0 spełnia równość:
lim
→∞
{Qˆ
P
− Q < ε =
n
n
} 1
(85)
Estymator nieobciąŜony to taki estymator, którego wartość oczekiwana jest równa estymowanemu parametrowi, tzn. E Q
ˆ
(
) = Q . Jeśli równość ta nie zachodzi, to estymator nazywa
n
się obciąŜonym. ObciąŜeniem estymatora nazywamy wyraŜenie b Q
ˆ
(
) = E Qˆ
(
) − Q . Estymator,
n
n
dla którego
nazywamy estymatorem asymptotycznie nieobciąŜonym.
ˆ
lim b( Q )
n
= 0
n→∞
Estymator
nieobciąŜony
o najmniejszej
wariancji
nazywamy
estymatorem najefektywniejszym. Efektywnością estymatora Q
ˆ nazywamy wyraŜenie
n
2
D ( *
Q )
ˆ
e( Q )
n
=
(86)
n
2
ˆ
D ( Q )
n
gdzie
*
Q oznacza estymator najefektywniejszy. Estymator, dla którego
ˆ
lim e( Q )
nazywamy
n
= 1
n
n→∞
estymatorem asymptotycznie najefektywniejszym.
Estymator Q
ˆ jest dostateczny, jeŜeli zawiera wszystkie informacje o parametrze Q , które n
występują w próbie.
Korzystanie z estymatora posiadającego własności zgodności, nieobciąŜoności i będącego najbardziej efektywnym pozwala najlepiej oszacować nieznany parametr Q , poniewaŜ z duŜym prawdopodobieństwem moŜna przyjąć, Ŝe wyznaczona ocena estymatora jest bliska rzeczywistej.
Podstawowymi parametrami, które szacowane są dla populacji generalnej są: wartość oczekiwana (średnia), wariancja, odchylenie standardowe, frakcja.
NieobciąŜonym, zgodnym i efektywnym estymatorem wartości oczekiwanej (średniej) m w populacji jest średnia w próbie
n
1
X =
∑ xi
n i=1
(87)
Estymatorem zgodnym, ale obci
2
ąŜonym wariancji σ w populacji jest wariancja w próbie
n
1
S 2 =
∑( X X 2)
i −
(88)
n i=1
dr Mirosława Szewczyk
2
Statystyka

NieobciąŜonym i zgodnym estymatorem wariancji σ2 w populacji jest wyraŜenie
n
1
S 21 =
∑( X X 2)
i −
(89)
n −1 i=1
W badaniach statystycznych często pojawia się problem oszacowania prawdopodobieństwa wystąpienia danego wariantu cechy (zwanego sukcesem) lub oszacowania, jaki procent zbiorowości generalnej posiada wyróŜnioną cechę (ewentualnie wariant cechy). Jest to szczególnie waŜne w przypadkach, gdy cecha opisująca zbiorowość jest cechą niemierzalną i podstawową charakterystyką populacji jest frakcja (procent) wyróŜnionych elementów, zwana teŜ wskaźnikiem struktury w populacji. Zadanie sprowadza się do estymacji parametru p w rozkładzie dwumianowym
n k n− k
(90)
P( X = k) =
p q
k
W przypadku, gdy szacujemy p na podstawie n-elementowej próby prostej, estymatorem zgodnym, nieobciąŜonym i efektywnym jest częstość względna
k
pˆ =
(91)
n
gdzie k – liczba elementów wyróŜnionych, zaobserwowanych w n-elementowej próbie.
5.3.
Estymacja przedziałowa
Przypomnijmy, Ŝe interpretacja poziomu ufności jest następująca: przy wielokrotnym pobieraniu prób n-elementowych i wyznaczaniu na ich podstawie granic przedziałów ufności, otrzymujemy średnio w (1-α)⋅100% przypadków przedziały pokrywające nieznaną wartość Q (porównaj rysunek.
Rys. 18. Interpretacja (1-α )⋅ 100% realizacji przedziałów ufnoś ci dla parametru Q .
Q
Źródło: Opracowanie własne.
Wzrostowi deklarowanego poziomu ufności odpowiada wzrost przedziału ufności, co prowadzi do znanego paradoksu statystycznego, Ŝe im chcemy być bardziej ufni, tym jesteśmy mniej precyzyjni i odwrotnie. Wzrostowi ufności odpowiada wzrost długości przedziałów, a zatem spadek precyzji oszacowania parametru Q . Dlatego teŜ nie naleŜy ustalać przesadnie wysokich prawdopodobieństw 1-α, bowiem moŜe odpowiadać im zbyt niska precyzja oszacowań parametrów. Deklarowany poziom ufności zawiera się zazwyczaj w granicach od 0,90 do 0,99.
dr Mirosława Szewczyk
3
Statystyka

1)
Przedziały ufności dla wartości przeciętnej m
Średnia wartość badanej cechy jest najczęściej stosowanym parametrem populacji generalnej.
Estymatorem wartości przeciętnej jest średnia arytmetyczna z próby. Jest ona zmienną losową, ma swój rozkład i spełnia wszystkie własności dobrego estymatora. Konkretna wartość liczbowa średniej arytmetycznej jest punktową oceną wartości oczekiwanej. Dlatego teŜ, wykorzystując rozkład średniej i deklarując poziom ufności 1-α, konstruujemy przedział ufności dla wartości przeciętnej. W zaleŜności od przyjętych załoŜeń, otrzymuje się konkretne przedziały ufności w oparciu o rozkład normalny lub rozkład t-Studenta.
a)
Populacja generalna ma rozkład N(m, σ); σ – znane
Przedział ufności wyznaczamy na podstawie wzoru:
σ
σ
X − uα
< m < X + uα
(92)
n
n
gdzie uα – wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
α
Φ(u )
α = 1 − 2
(93)
Uwaga!
W zaleŜności od typu tablic zawierających dystrybuantę rozkładu normalnego moŜe zajść potrzeba skorzystania z innej zaleŜności. Na przykład dla tablic zamieszczonych w S. tasiewicz, Z. Rusnak, U. Siedlecka, Statystyka. Elementy teorii i zadania, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, Wrocław 1997, wartość uα odczytuje się z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
1 − α
Φ( u )
α
=
(94)
2
b)
Populacja generalna ma rozkład N(m, σ); σ – nie jest znane, próba – mała Przedział ufności wyznaczamy na podstawie wzoru:
X −
S
S
tα n−
< m < X + t
,
1
α , n 1
−
(95)
n −1
n −1
gdzie tα,n-1 – wartość odczytana z tablic rozkładu t-Studenta dla poziomu istotności α oraz n-1 stopni swobody, tak aby spełniony był warunek
(96)
(
P | t >
| tα, n− )
1
=α
dr Mirosława Szewczyk
4
Statystyka

Uwaga!
W zaleŜności od typu tablic moŜe zajść potrzeba skorzystania z innej zaleŜności. JeŜeli korzystamy z tablic zbudowanych wyłącznie dla obszaru dwustronnego, chcąc ustalić wartość krytyczną dla obszaru jednostronnego, bierzemy podwojoną wartość poziomu istotności 2α.
c)
Rozkład dowolny, σ – nie jest znana, próba – duŜa
Przedział ufności wyznaczamy na podstawie wzoru:
S
S
(97)
X − u
< m < X + u
α
α
n
n
gdzie uα – wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
α
Φ(u )
α = 1 − 2
(98)
2)
Przedziały ufności dla wariancji i odchylenia standardowego
W badaniach statystycznych ze względu na cechę mierzalną do najczęściej szacowanych parametrów populacji obok średniej naleŜy wariancja (lub odchylenie standardowe) badanej cechy.
W zaleŜności od przyjętych załoŜeń, otrzymuje się konkretne przedziały ufności w oparciu o rozkład normalny lub rozkład χ2.
a)
Populacja generalna ma rozkład N(m, σ); próba – mała
Przedział ufności wyznaczamy na podstawie wzoru:
2
2
nS
nS
2
< σ <
2
2
(99)
χ
χ
1
2
n
n
(100)
S < σ <
S
2
2
χ
χ
1
2
gdzie:
2
2
χ , χ
–
wartości odczytane z tablic rozkładu chi-kwadrat dla n-1 stopni swobody w ten 1
2
sposób, aby spełniały równości:
α
P( 2
2
χ ≥ χ ) =
1
(101)
2
α
P( 2
2
χ ≥ χ ) = 1−
2
(102)
2
b) Populacja generalna ma rozkład N(m, σ); próba – duŜa
Przedział ufności wyznaczamy na podstawie wzoru:
2
2
S
S
2
< σ <
u
u
α
2
α
2
(103)
1
( +
)
1
( −
)
2 n
2 n
dr Mirosława Szewczyk
5
Statystyka

S
S
< σ <
u
u
1
α
+
1
α
−
(104)
2n
2n
gdzie uα – wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
α
Φ(u )
α = 1 − 2
(105)
3) Przedziały ufności dla wskaźnika struktury (prawdopodobieństwa sukcesu, procentu, odsetka, frakcji)
Nie zawsze badanie statystyczne jest prowadzone ze względu na cechę mierzalną. Czasami badana cecha ma charakter jakościowy. Wtedy, zamiast wartości liczbowej badanej cechy, z badania próbnego uzyskujemy jedynie informację o tym, czy dany element populacji generalnej ma badaną, wyróŜnioną cechę jakościową, czy teŜ jej nie ma. Elementy moŜemy podzielić wówczas na dwie klasy:
posiadające daną cechę (tj. elementy wyróŜnione)
nie posiadające danej cechy (tj. elementy niewyróŜnione).
Podstawowym parametrem szacowanym w przypadku badań statystycznych ze względu na cechę niemierzalną jest frakcja elementów wyróŜnionych w populacji, zwana takŜe wskaźnikiem struktury w populacji. Wskaźnik struktury (frakcję) oznacza się zwykle literą p.
Podstawą konstrukcji przedziału ufności dla prawdopodobieństwa sukcesu p jest częstość występowania tego sukcesu, czyli k/n, gdzie k – liczba wystąpień sukcesu w n-elementowej próbie.
Przedział ufności wyznaczamy tylko na podstawie duŜej próby (przyjmuje się nawet n≥100) ze wzoru:
k
k
k
k
1
( − )
1
( − )
k
k
n
n
n
n
(106)
− uα
< p < + uα
n
n
n
n
gdzie uα – wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był spełniony warunek
α
(107)
Φ(u )
α = 1 − 2
4) Wyznaczanie minimalnej liczebności próby
Wyznaczenie niezbędnej liczebności próby naleŜy do podstawowych problemów badawczych.
Chodzi bowiem o wyznaczenie takiej liczebności próby, która pozwala oszacować podstawowe parametry populacji generalnej z zakładaną dokładnością.
MoŜna wskazać następujące sposoby określania liczebności próby:
badacz wybiera próbę na podstawie własnych osądów
liczebność próby jest określona poprzez minimalne liczby potrzebnych w tablicy kontyngencji obserwacji (porównaj testowanie hipotez nieparametrycznych – test niezaleŜności χ2)
liczebność próby zostaje ograniczona w związku z kosztami (ograniczenia budŜetowe) dr Mirosława Szewczyk
6
Statystyka

ustalenie liczebności próby na podstawie określonego z góry poziomu precyzji (konstruowanie przedziałów ufności).
Praktyczna uŜyteczność wyznaczonych przedziałów ufności zaleŜy od popełnianego maksymalnego błędu szacunku. Z kolei długość przedziału zaleŜy od współczynnika ufności 1-α
oraz liczebności próby n. W calu zapewnienia odpowiedniej dokładności estymacji przy zadanym poziomie ufności istnieje konieczność obliczania niezbędnej liczebności próby dla konstruowanych przedziałów ufności.
Niech cecha X na rozkład normalny N(m, σ). Minimalną liczebność próby, niezbędną do oszacowania wartości m na poziomie ufności 1-α, z maksymalnym błędem szacunku nie przekraczającym d , x
przy zało
2
Ŝeniu, Ŝe σ jest znane, obliczamy ze wzoru:
2
2
uα ⋅σ
(108)
n =
2
d x
gdzie
uα – wartość odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby był
spełniony warunek
α
Φ(u )
α = 1 − 2
(109)
Je
2
Ŝeli σ nie jest znane, to na podstawie wstępnej próby liczącej n0 elementów, przedstawionych w postaci szeregu szczegółowego wyznacza się:
n
1
S 21 =
∑( X X 2)
i −
(110)
n
1
0 −
i=1
Z tablic rozkładu t-Studenta odczytujemy tα,n0-1 dla n0-1 stopni swobody, tak aby spełniony był warunek (
P | t >
| tα, n− )
1
=α
(111)
Wówczas:
2
2
tα
⋅ S
, n
1
1
0
(112)
n =
−
2
d x
Uwagi!
JeŜeli n nie jest liczbą całkowitą, to wynik naleŜy zaokrąglić w górę.
JeŜeli obliczona liczebność próby jest ze względów praktycznych za duŜa, to mniejszą liczebność otrzymamy zwiększając maksymalny błąd szacunku, a więc zmniejszając dokładność oszacowania.
dr Mirosława Szewczyk
7
Statystyka

5.4.
Zagadnienia i pytania kontrolne
Pytania kontrolne:
1. Co to jest wnioskowanie statystyczne? Jakie metody obejmuje?
2. Co oznacza pojęcie „estymacja”?
3. Jakie są rodzaje estymacji?
4. Jakie własności estymatora uznawane są za poŜądane?
5. Co to jest estymator zgodny?
6. Co to jest estymator nieobciąŜony?
7. Co to jest estymator efektywny?
8. Co to jest estymator dostateczny?
9. Podaj przykład estymatora zgodnego.
10. Podaj przykład estymatora efektywnego.
11. Podaj przykład estymatora nieobciąŜonego.
12. Podaj przykład estymatora obciąŜonego.
13. Uzupełnij zdanie: „Do najczęściej szacowanych parametrów populacji naleŜą:…”.
Problemy do dyskusji:
1. Od czego zaleŜy praktyczna uŜyteczność wyznaczonych przedziałów ufności?
2. Dlatego teŜ nie naleŜy ustalać przesadnie wysokich poziomów ufności 1-α?
dr Mirosława Szewczyk
8
Statystyka