background image

Metody statystyczne w naukach biologicznych

2006-03-12

Wykład: Teoria estymacji.

Estymacja   to   postępowanie   statystyczne   zmierzające   do   oszacowania   parametrów   populacji 
generalnej (

µ

,

σ

) na podstawie statystyk uzyskanych z populacji próbnej. 

Estymator (T

n

)- statystyka z próby służąca do oszacowania parametru (

θ

). Może nim być średnia 

arytmetyczna, odchylenie standardowe, mediana, współczynniki zmienności. Estymator, podobnie 
jak   sama   zmienna   losowa,   posiada   własny   rozkład.   Nie   zawsze   jednak   wymienione   wcześniej 
statystyki będą uznawane za najlepsze estymatory. Powinny spełniać one określone własności. 

Ocenę estymatora można przeprowadzić na podstawie jego błędu (d). Załóżmy, że różnica między 
wartością estymatora oraz parametru jest równa d, tj,:T

n

-

θ

=d. W związku z powyższym miarą błędu 

estymatora będzie wartość oczekiwana kwadratu różnicy pomiędzy estymatorem a szacowanym 
parametrem, czyli 

=E(T

n

-

θ

)

2

. W sytuacji, gdy wartość oczekiwana estymatora równa jest wartości 

parametru populacji generalnej (

θ

), to  

  możemy potraktować jako wariancję estymatora, tzn.  

=D

2

(T

n

), tym samym D(T

n

) należy traktować jako błąd standardowy estymatora.

Cechy dobrego estymatora to:

1.

Nieobciążoność.  Estymator nazywamy nieobciążonym, gdy jego wartość oczekiwana jest 
równa parametrowi populacji generalnej, czyli E(T

n

)= 

θ

.

2.

Efektywność. Estymator efektywny, to taki, którego wariancja jest najmniejsza.

3.

ZgodnośćEstymator nazywamy zgodnym, jeżeli wraz ze wzrostem liczebności próby jego 
wartość zbliża się do szacowanego parametru.

Metody estymacji parametrycznej (szacowane są wartości parametrów rozkładu cechy):

Estymacja punktowa  – polega na uznaniu estymatora z próby losowej, jako wartości parametru. 
Powyższemu stwierdzeniu towarzyszy dodatkowo podanie błędu oszacowania.

Średni błąd średniej arytmetycznej:

n

S

S

x

x

=

Jeżeli względny błąd estymatora D(T

n

) nie przekracza 7,5%, to można uznać, iż wynik estymacji jest wysoce 

precyzyjny.   Jeśli   przyjmuje   wartości   z   przedziału   7,5%-15%,   to   dopuszczalny,   a   powyżej-   nie   jest   do 
przyjęcia.

Estymacja   przedziałowa  –   polega   na   wyznaczeniu   przedziału   liczbowego,   który   z   określonym 
prawdopodobieństwem   zawiera   szacowany   parametr.   Końce   przedziału   zależą   od   wartości 
estymatora.

Przedział ufności  - losowy przedział, który z określonym prawdopodobieństwem określa wartość 
parametru. To inaczej przedział liczbowy, w którym znajduje się prawdziwa, lecz nieznana wartość 
parametru 

θ

Przedział (g1,g2) jest przedziałem ufności parametru 

θ

, określonym na poziomie ufności 1-

α

, jeżeli 

prawdopodobieństwo, że 

θ

 leży w tym przedziale jest równe 1-

α

Poziom ufności -1-

α

 jest prawdopodobieństwem, że 

θ

 leży w przedziale (g1,g2). Przedział (g1,g2), 

którym g1 i g2 przyjmują skończone wartości nazywa się dwustronnym przedziałem ufności.

Autor: Dariusz Piwczyński

1

background image

Metody statystyczne w naukach biologicznych

2006-03-12

Jeżeli 

α

 =0,05, to 1-

α

 =0,95 oznacza to, że średnio na każde 100 przedziałów ustalonych na 100 

prób losowych, w 95 przypadkach prawdziwa wartość parametru  

θ

  znajduje się wewnątrz 

przedziału, natomiast w 5 przypadkach znajduje się poza przedziałem.

Im   niższy   przyjmiemy   poziom   ufności,   tym   mniejsze   będzie   prawdopodobieństwo   błędnego 
określenia przedziału, jednak jednocześnie wydłużony będzie przedział ufności.

Rozkład t-Studenta
(pseudonim angielskiego statystyka William Gosset 1876-1937)

Stosowany głównie do testowania małych próbek. Rozkład ten zależy od 

ν

 (liczba stopni swobody), 

nie zależy natomiast od odchylenia standardowego. 

Próba duża n

100 (Łomnicki); n

50 [n

30] (Żuk)

Liczba

  

  stopni swobody

  

  (degrees of freedom) (N-1).  Jeżeli znana jest średnia z N pomiarów, to 

pomiar ostatni zdeterminowany jest przez wartość średniej. Jest to nieco inny sposób opisania 
wielkości próby. Liczba stopni swobody służy do otrzymania nieobciążonego estymatora. Należy 
go zatem (wariancję, odchylenie standardowe) podzielić nie przez N, lecz przez N-1.

Krzywa gęstości rozkładu t-Studenta zbliżona kształtem do krzywej rozkładu normalnego N(0,1). 
Jest to krzywa symetryczna (z osią symetrii t=0) i tylko bardziej spłaszczona. Dla dużej liczby 
stopni swobody (N>120) rozkład t jest praktycznie nierozróżnialny od standaryzowanego rozkładu 
normalnego. 

Autor: Dariusz Piwczyński

2

background image

Metody statystyczne w naukach biologicznych

2006-03-12

Załóżmy, że jeżeli z populacji o jakimkolwiek rozkładzie ze średnią 

µ

 i odchyleniem standardowym 

σ

  pobieramy   próby   o   dużej   liczebności   N,   to   rozkład   średnich   z   tych   prób   będzie   rozkładem 

normalnym o średniej 

µ

 i odchyleniu 

σ

/

N.

Z powyższą sytuacją raczej się zbyt często nie spotykamy, ponieważ nie znamy zwykle odchylenia 
standardowego populacji, średniej dla całej populacji, próby są małe.

Jeżeli z populacji o rozkładzie normalnym pobieramy próby N - elementowe, to dla każdej próby 
możemy obliczyć statystykę t. 

Błąd standardowy (SE; S

x

) opisuje on odchylenie średnich z prób N - elementowych od średniej dla 

całej   populacji,   a   nie   odchylenie   poszczególnych   pomiarów   od   średniej.   Jest   to   teoretycznie 
wyliczone odchylenie standardowe średnich z pomiarów dla wielu prób. 

S

x

 – statystyka obliczona na podstawie prób.

σ

x

 – jeśli jest parametrem

Obszar   krytyczny   –   zbiór   tych   wartości   funkcji   testowej,   dla   których   hipotezę   H

0

  odrzucamy. 

Wyróżniamy obszary krytyczne jednostronne i dwustronne.

Obszar krytyczny złożony z dwu rozłącznych podzbiorów przestrzeni próby, wyznaczany jest 
najczęściej symetrycznie w rozkładzie statystyki. Test dwustronny używa się z reguły, gdy hipoteza 
alternatywna jest w postaci nierówności.

Wartości krytyczne są to takie wartości t

α

, że prawdopodobieństwo, iż zmienna losowa t przyjmie 

wartość większą od t

α

  lub mniejszą od -t

α

, wynosi  

α

. Wartości krytyczne – punkty oddzielające 

obszar krytyczny od obszaru (zbioru) tych wartości, dla których nie ma podstaw do odrzucenia 
hipotezy H

0.

Prawdopodobieństwo, iż zmienna losowa przyjmie wartość z przedziału (-t

α

,-t

α

) jest równe

1-

α

.

Przedział ufności dla średniej arytmetycznej: 
Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym, ale nie znamy  

σ

  i próbie 

małej, tj. poniżej 30 elementów.

)

1

*

(

)

1

(

+

<

Θ

<

n

S

t

x

n

S

t

x

x

x

α

α

t - odczytujemy z tabeli testu t-Studenta dla liczby stopni swobody równej n-1 i odpowiedniego 
poziomu ufności.

Autor: Dariusz Piwczyński

3

S

n

x

S

x

t

x

×

=

=

)

(

µ

µ

background image

Metody statystyczne w naukach biologicznych

2006-03-12

Przedział ufności dla średniej arytmetycznej: 

Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym, znane 

σ

.

)

*

(

)

(

n

u

x

n

u

x

σ

σ

α

α

+

<

Θ

<

u

α

 - dystrybuanta rozkładu normalnego

Przedział ufności dla średniej arytmetycznej: 
Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym lub innym, 

σ

 jest nieznane, 

próba duża > 30.

)

*

(

)

(

n

S

u

x

n

S

u

x

x

x

α

α

+

<

Θ

<

u

α

 - dystrybuanta rozkładu normalnego

SAS

Title 'Obliczamy przedział ufności 95%';

proc means clm alpha=0.05 data=stat.krowy;
     var mlkg;

run;

                                    Analysis Variable : mlkg

                                     Dolna 95%                Górna 95%

                         Gr. ufn. dla ¶redniej    Gr. ufn. dla ¶redniej
                         ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

4509.8

5267.44

Oszacowany przedział ufności przy poziomie istotności 

α

=0.05, pozwala stwierdzić, iż średnia wydajność 

mleka (parametr) w populacji generalnej zawiera się w przedziale liczbowym [4509.08;5267.44].

Autor: Dariusz Piwczyński

4


Document Outline