background image

Wykład 3

Wprowadzenie do wnioskowania 

statystycznego: estymacja i estymatory

Statystyka: kurs podstawowy

Semestr Letni 2007/2008

dr Krzysztof Tymicki

Instytut Statystyki i Demografii

Szkoła Główna Handlowa

background image

Podstawy estymacji: pojęcie estymacji i estymatora

Chcemy 

wnioskować na 

podstawie próby o 

charakterystykach 

populacyjnych

Estymatorem będzie statystyka z próby która posłuŜy nam do estymacji (czyli 

wnioskowania) nieznanych charakterystykach populacyjnych. 

nie znamy charakterystyk 

np.: średniej ani częstości

Populacja

Próba losowa

znamy statystyki z próby 

np.: średnią albo częstość

Estymacja jest zbiorem metod szacowania wartości pewnych nieznanych parametrów 

cechy statystycznej (bądź jej postaci funkcyjnej) na podstawie próby losowej.

background image

Estymacja

Parametryczna

Nieparametryczna

Dotyczy rozkładu 

zmiennej

punktowa

przedziałowa

Podstawy estymacji: Rodzaje estymacji i estymatorów

Zajmiemy się estymacją punktową oraz przedziałową

średniej oraz częstości

background image

Θ – szacowany parametr populacyjny
T

n

– estymator

t

n

– ocena parametru Θ za pomocą estymatora T

n

PoniewaŜ szacunku  dokonujemy  na  podstawie  próby  losowej  istnieje 

moŜliwość popełnienia  błędu.  Jest  to  róŜnica  między  estymatorem  a 

wartością parametru:

d

n

T

=

Θ

Konkretna wartość jaką przyjmuje estymator (a więc wartość statystyki z 

próby) dla danej próby losowej nazywamy oceną parametru (t

n

).

Taka ocena parametru jest więc punktowym oszacowaniem nieznanego 

parametru populacyjnego.

Podstawy estymacji: podstawowe oznaczenia

background image

Nieznany parametr 

Θ

Wybieramy estymator 

T

n

realizacją

w próbie losowej jest

t

n

Ocena  (

t

n

)  parametru 

Θ

za  pomocą estymatora 

T

n

pochodzi  z  próby  losowej:  stąd 

estymator jest zmienną losową

→ patrz: rozk

ł

ady statystyk z próby

d

n

T

=

Θ

MoŜemy 

popełnić błąd

Na podstawie oceny  -

t

n

-

dokonujemy estymacji punktowej lub przedziałowej

Podstawy estymacji: pojęcie i podstawowe 

własności estymatorów

nie znamy charakterystyk 

np.: średniej ani częstości

Populacja

Próba losowa

znamy statystyki z próby 

np.: średnią albo częstość

background image

Biorąc pod uwagę te kryteria najlepszymi punktowymi estymatorami 

średniej i częstości populacyjnej będą średnia i częstość z próby.

ObciąŜenie estymatora:

estymator jest nieobciąŜony jeśli zachodzi

:

jeśli

to estymator jest obciąŜony (obciąŜenie 

b

)

Asymptotyczna  nieobciąŜoność:  jeśli  liczebność próby  dąŜy  do  nieskończoności  obciąŜenie 

estymatora dąŜy do zera

Efektywność estymatora:

Z  dwóch  estymatorów  efektywniejszy  jest  ten  którego  wariancja  jest 

mniejsza. Mniejsze prawdopodobieństwo uzyskania w próbie losowej wartości bardzo odbiegających 

od parametru 

Θ

Zgodność estymatora:

estymator jest zgodny jeśli zachodzi:

Oznacza to, Ŝe jeśli rośnie liczebność próby, rośnie teŜ prawdopodobieństwo, Ŝe oszacowanie przy 

pomocy  estymatora  będzie  przyjmować wartości  coraz  bliŜsze  wartości  szacowanego  parametru. 

Inaczej: zwiększając liczebność próby, zmniejszamy ryzyko popełnienia błędu. 

(

)

1

lim

=

<

Θ

ε

n

n

T

P

Podstawy estymacji: Własności estymatorów

θ

=

)

(

n

T

E

b

T

E

n

=

θ

)

(

0

)

(

lim

=

n

n

T

b

background image

Jakość estymatora punktowego moŜemy ocenić za 

pomocą:



Odchylenia standardowego estymatora (średni błąd 

szacunku)→

D(T

n

)



Błąd względny estymatora

n

n

n

T

T

D

T

V

)

(

)

(

^

^

=

Estymacja punktowa

Najlepszymi  punktowymi  estymatorami  średniej  -

m

i  frakcji  (częstości)  -

p

populacji będą próby będą statystyki:

Ocena błędu względnego:

V(T

n

)<7,5% wysoka precyzja

7,5%<V(T

n

)<15% dostateczna precyzja

V(T

n

)>15% odrzucenie estymacji punktowej za pomoca

parametru z próby Tn

Znane odchylenie 

standardowe w populacji

Nie znane odchylenie 

standardowe w populacji

Odchylenie 

standardowe

Wartość oczekiwana

n

T

D

n

σ

=

)

(

n

x

S

T

D

n

)

(

)

(

=

x

T

n

=

Śr

ed

ni

pr

ób

y

Odchylenie 

standardowe

Wartość oczekiwana

Fr

ak

cj

pr

ób

y

n

w)

-

w(1

D(w)

=

 

w

T

n

=

background image

Przykład: estymacja punktowa średniej

Wiadomo,  Ŝe  w  przedsiębiorstwie  X  średni  czas  losowo  wybranych  100  rozmów 

międzymiastowych  wynosił 10  min.  i  charakteryzował się zmiennością 40%,  naleŜy  ocenić

punktowo średni czas trwania tej rozmowy.

 

4

,

0

100

4

)

(

)

(

4

)

(

10

)

(

4

,

0

)

(

10

=

=

=

=

=

=

=

=

n

x

S

T

D

x

S

x

S

x

V

x

t

n

n

ocena punktowa średniego czasu rozmów

→ średni błąd szacunku

 

04

,

0

10

4

,

0

)

(

)

(

ˆ

=

=

=

n

n

n

T

T

D

T

V

→ błąd względny estymatora (poniewaŜ V(Tn)<7,5% 

wysoka precyzja oszacowania punktowego)

background image

Przykład: estymacja punktowa frakcji

Z przygotowanej do sprzedaŜy partii skrzynek z jabłkami w pewnej hurtowni wybrano losowo 

200 skrzynek jabłek i 146 z nich zakwalifikowano jako I gatunek. Oszacować punktowo frakcję

jabłek I gatunku w całej partii.

 

03

,

0

200

)

735

,

0

1

(

735

,

0

)

1

(

)

(

735

,

0

200

147

1

=

=

=

=

=

=

=

n

w

w

T

D

n

n

w

t

n

gat

n

→ ocena punktowa frakcji jabłek pierwszego gatunku

→ średni błąd szacunku

 

04

,

0

735

,

0

03

,

0

)

(

)

(

ˆ

=

=

=

n

n

n

T

T

D

T

V

→ błąd względny estymatora (poniewaŜ V(Tn)<7,5% 

wysoka precyzja oszacowania punktowego)

background image

Zagadnienie estymacji przedziałowej średniej i 

częstości



Punktowa  ocena  parametru  za  pomocą estymatora  moŜe  być obciąŜona  błędem  lub 

całkowicie nietrafna: wynika to z losowości próby oraz z faktu Ŝe w przypadku cech ciągłych 

prawdopodobieństwo,  Ŝe  estymator  przyjmie  wartość szacowanego  parametru  jest  równe 

zero.



Dlatego teŜ stosujemy tzw. 

estymację przedziałową

konstrukcja przedziału liczbowego 

(tzw.  przedziału  ufności)

,  który  z  załoŜonym  prawdopodobieństwem  pokrywa  wartość

szacowanego parametru.



Częstość oszacowań prawidłowych zwana jest 

współczynnikiem ufności

i oznaczana jako 

1-α

. Podkreśla to, Ŝe zaleŜy nam na jak największej liczbie oszacowań prawidłowych i na 

małej liczbie oszacowań nieprawidłowych (

α

). Zazwyczaj 

α

to mała liczba np.: 0,05 lub 0,01.



W  przypadku  estymacji  punktowej  otrzymujemy  jedną liczbę a  w  przypadku  estymacji 

przedziałowej otrzymujemy przedział liczbowy. 



Dzięki  estymacji  przedziałowej  moŜemy  ocenić jak  często  uznanie  za  wartość parametru 

konkretnej liczby z proponowanego przedziału jest oszacowaniem prawidłowym. 

background image



Zaczynamy od oceny punktowej parametru czyli Tn



Znając błąd standardowy estymatora             oraz zakładając Ŝe jego rozkład jest normalny 

oraz Ŝe jest on nieobciąŜony, to wówczas 68% wartość jakie moŜe on przyjmować naleŜy do 

przedziału:

Jak konstruujemy przedział ufności? (1)



Czyli z prawdopodobieństwem 0,68 otrzymujemy takie oceny parametru które naleŜą do 

tego przedziału. Przedział ten będzie miał krańce o wartościach:

PoniewaŜ punktowa ocena parametru jak i jego błąd standardowy pochodzą z realizacji próby 

losowej  za  kaŜdym  razem  moŜemy  otrzymać inną wartość krańca  przedziału  jednak  zawsze 

przedziały te będą zawierały oszacowany parametr 

Θ

)

(

ˆ

n

T

D

>

+

Θ

Θ

<

)

(

ˆ

 

;

 

)

(

ˆ

n

n

T

D

T

D

>

+

<

)

(

ˆ

  

;

  

)

(

ˆ

n

n

n

n

T

D

t

T

D

t

background image

f(t

n

)

t

n

D(T

n

)-

Θ

E(T

n

)=

Θ

D(T

n

)+

Θ

Dysponując  jedynie  tymi  przedziałami  nie  moŜemy  jednoznacznie  wskazać gdzie  znajduje  się

szacowany parametr. MoŜemy jedynie powiedzieć, Ŝe szacowany parametr będzie zawierał się w 

przedziale z określonym prawdopodobieństwem

(

)

68

,

0

)

(

ˆ

)

(

ˆ

=

+

<

Θ

<

n

n

n

n

T

D

t

T

D

t

P

Jak konstruujemy przedział ufności? (2)

MoŜna powiedzieć Ŝe 68 na 100 skonstruowanych przedziałów będzie zawierało szacowany 

parametr. Jednocześnie częstość błędnych oszacowań wynosi 0,32.
Chcielibyśmy mieć więcej oszacowań prawidłowych. MoŜemy to zrobić zwiększając rozpiętość

przedziału do dwukrotnego lub trzykrotnego błędu średniego. Ogólnie moŜemy zwiększyć tę

rozpiętość do 

u

α

-krotnego błędu średniego

background image

(

)

α

α

=

1

U

P

Gdy                

P=0,68

1

U

Gdy                

P=0,95

2

U

Gdy                

P=0,99

3

U

>

+

<

)

(

  

;

  

)

(

^

n

^

n

n

n

T

D

t

T

D

t

>

+

<

)

(

2

  

;

  

)

(

2

^

n

^

n

n

n

T

D

t

T

D

t

>

+

<

)

(

3

  

;

  

)

(

3

^

n

^

n

n

n

T

D

t

T

D

t

Jak konstruujemy przedział ufności? (3)

Wtedy: rośnie częstość oszacowań prawidłowych oznaczana przez 

1-α

natomiast zacznie maleć

częstość oszacowań nieprawidłowych oznaczona jako 

α

.

Jeśli  estymator  ma  rozkład  normalny  to  związek  poziomu  ufności  ze  zmienną losową

U

opisującą krotność odchylenia  standardowego  estymatora  jaką naleŜy  brać pod  uwagę

konstruując przedział jest następujący:

background image

α

α

α

=

+

<

Θ

<

1

)

(

  

  

  

)

(

n

n

n

n

T

D

u

t

T

D

u

t

P



Ogólnie konstrukcję przedziału ufności moŜemy zapisać następująco:



Krańce przedziału są losowe gdyŜ zmienia się wartość oceny punktowej parametru. Jednak 

zawsze, z prawdopodobieństwem 

1-α

, pokryje on szukaną wartość parametru.



Przy ustalonej liczebności próby, przyjęte prawdopodobieństwo 

1-α

rozstrzyga o tym jaka 

będzie rozpiętość przedziału. 



Im  większa  częstość poprawnych  oszacowań tym  większa  wymagana  krotność błędu 

standardowego i szerszy przedział. 



ZaleŜność między precyzją a pewnością oszacowania 

wysoka wiarygodność ufność nie 

sprzyja precyzji oszacowania.

Jak konstruujemy przedział ufności? (4)

background image

Estymacja przedziałowa średniej i frakcji

background image

Przykład: estymacja przedziałowa średniej

Wiadomo,  Ŝe  w  przedsiębiorstwie  X  średni  czas  losowo  wybranych  100  rozmów 

międzymiastowych  wynosił 10  min.  i  charakteryzował się zmiennością 40%,  naleŜy  ocenić

przedziałowo średni czas trwania tej rozmowy. Przyjąć 1-

α

= 0,95. 

 

4

,

0

100

4

)

(

)

(

10

)

(

;

)

(

=

=

=

=

=

+

n

x

S

T

D

x

t

n

x

S

u

x

n

x

S

u

x

n

n

α

α

→ ocena punktowa średniego czasu rozmów

→ zasada konstrukcji przedziału ufności dla 

średniej

→ błąd standardowy estymatora

u

α

spełnia  warunek 

P(-u

α

<U<u

α

)=1-α → 1-α=0,95

poziom  ufności (częstość poprawnych 

oszacowań przedziałowych  – 95  na  100  skonstruowanych  przedziałów  pokryje  nieznany 

parametr populacyjny 

→ szukamy wartości u

α

F(u

α

)=1-α/2

F(u

α

)=0,975 

u

α

=1,96

784

,

10

 

;

 

216

,

9

784

,

0

10

 

;

 

784

,

0

10

4

,

0

96

,

1

10

 

;

 

4

,

0

96

,

1

10

)

(

 

;

 

)

(

+

+

+

n

x

S

u

x

n

x

S

u

x

α

α

→ przedział ufności dla średniej

background image

Przykład: estymacja przedziałowa frakcji

Z przygotowanej do sprzedaŜy partii skrzynek z jabłkami w pewnej hurtowni wybrano losowo 

200 skrzynek jabłek i 146 z nich zakwalifikowano jako I gatunek. Wyznaczyć przedział ufności 

dla frakcji jabłek I gatunku. Przyjąć 1 -

α

= 0,90.

 

03

,

0

200

)

73

,

0

1

(

73

,

0

)

1

(

)

(

73

,

0

200

146

)

1

(

;

)

1

(

=

=

=

=

=

=

+

n

w

w

T

D

w

t

n

w

w

u

w

n

w

w

u

w

n

n

α

α

→ ocena punktowa frakcji jabłek Iszego 

gatunku

→ zasada konstrukcji przedziału ufności 

dla frakcji

→ błąd standardowy estymatora

u

α

spełnia  warunek 

P(-u

α

<U<u

α

)=1-α → 1-α=0,90

poziom  ufności (częstość poprawnych 

oszacowań przedziałowych  – 90  na  100  skonstruowanych  przedziałów  pokryje  nieznany 

parametr populacyjny 

→ szukamy wartości u

α

F(u

α

)=1-α/2

F(u

α

)=0,95 

u

α

=1,65

78

,

0

 

;

 

68

,

0

05

,

0

,73

0

 

;

 

05

,

0

73

,

0

03

,

0

65

,

1

10

 

;

 

03

,

0

65

,

1

73

,

0

)

1

(

 

;

 

)

1

(

+

+

+

n

w

w

u

w

n

w

w

u

w

α

α

→ przedział ufności dla frakcji

background image

Przykład: poparcie dla partii politycznych

04

,

0

48

,

0

019

,

0

)

(

)

(

019

,

0

704

)

48

,

0

1

(

48

,

0

)

(

48

,

0

=

=

=

=

=

=

=

n

n

n

n

n

T

T

D

T

V

T

D

w

t

Oszacowanie przedziałowe i 

punktowe dla PO

52

,

0

 

;

 

44

,

0

04

,

0

,48

0

 

;

 

04

,

0

48

,

0

019

,

0

96

,

1

,48

0

 

;

 

019

,

0

96

,

1

48

,

0

)

1

(

 

;

 

)

1

(

+

+

+

n

w

w

u

w

n

w

w

u

w

α

α

Zakładamy poziom ufności

1-α=0,95

F(u

α

)=0,975 

u

α

=1,96

Gdyby wybory odbyły się w lutym PO zdobyła by 

między 44% a 52% z prawdopodobieństwem 0,95

background image

Dokładność estymacji: zagadnienie minimalnej 

liczebności próby

)

(

n

T

D

u

d

=

α

Problem precyzji oszacowania sprowadza się do wyboru między długością przedziału 

a częstością trafnych oszacowań: 

szerszy przedział

większa częstości trafnych oszacowań → mała precyzja

wąski przedział → niŜsza częstość trafnych oszacowań → większa precyzja

Szerokość przedziału  moŜemy  modyfikować przez  zmiany  w  wartości 

prawdopodobieństwa 1-α

to rozwiązanie nas nie interesuje!

MoŜemy takŜe „manipulować” wielkością próby w celu osiągnięcia załoŜonej precyzji 

oszacowania.  Precyzja  jest  mierzona  jest  za  pomocą tzw. 

błędu  maksymalnego

czyli połowy długości przedziału. Błąd ten oznaczany jest jako 

d:

background image

Gdy  nie  ma  przewidywań co  do 

wartości 

p

za 

p* 

przyjmujemy 0,5

2

2

4

1

=

d

u

n

α

Stąd moŜemy postawić pytanie: Jaka powinna być minimalna liczba obserwacji w próbie 

niezbędna do przeprowadzenia wnioskowania o wymaganej precyzji i ustalonej ufności 

1-α

?

Dla szacowania średniej

Dla szacowania częstości

Gdy  przewidujemy 

p

na     

podstawie 

p*

2

2

)

1

(

=

d

p

p

u

n

α

Dokładność estymacji: zagadnienie minimalnej 

liczebności próby (2)

2

2

2

1

)

(

=

d

X

S

u

n

α

gdzie:  d

*

-planowany

błąd maksymalny

background image

Przykład: zagadnienie minimalnej liczebności próby 

dla frakcji

Jak liczna powinna być próba by oszacować odsetek pracowników, awansujących trzykrotnie 

w  karierze  zawodowej  z  maksymalnym  błędem  2%  ?  Jeśli  badanie  pilotaŜowe  wskazuje  iŜ

spodziewana wielkość kształtuje się w granicach 15%?
d

*

=0,02

p

*

=0,15

1-α=0,95

1224

0004

,

0

1275

,

0

84

,

3

02

,

0

)

15

,

0

1

(

15

,

0

96

,

1

)

1

(

2

2

2

2

=

=

=

=

d

p

p

u

n

α

NaleŜy dolosować: 2394-704=1690 elementów

O ile naleŜało by zwiększyć próbę by dwukrotnie zwiększyć precyzję oszacowania poparcia dla 

PO wg. badania CBOS z lutego 2008?

d

*

=0,02

p

*

=0,48

1-α=0,95

2394

0004

,

0

2496

,

0

84

,

3

02

,

0

)

48

,

0

1

(

48

,

0

96

,

1

)

1

(

2

2

2

2

=

=

=

=

d

p

p

u

n

α

NaleŜy wylosować próbę składającą się z 1224 elementów

background image

Przykład: zagadnienie minimalnej liczebności próby 

dla średniej

Na podstawie losowej próby 400 konsumentów odwiedzających pewien sklep AGD otrzymano 

następujący przedział ufności dla średnich wydatków: <460; 500> zł, oszacowany z ufnością

0,98. Jak liczna powinna być próba, aby całkowita rozpiętość przedziału nie przekroczyła 30 zł?

d

*

=15

1-α=0,98→F(u

α

)=1-α/2 → F(u

α

)=1-0,02/2=0,99  → u

α

=2,33

d=u

α

*D(T

n

)

2

2

2

1

)

(

=

d

X

S

u

n

α

7

,

171

)

(

20

)

(

33

,

2

20

400

)

(

33

,

2

20

=

=

=

x

S

x

S

x

S

708

15

8

,

159196

15

1

7

,

171

33

,

2

2

2

2

2

=

=

=

n

Próba powinna liczyć 708 elementów