ANOVA, ANOVA, Jednokierunkowa analiza wariancji


Jednokierunkowa analiza wariancji

Pierwsze spojrzenie

Meteorolog postawi sobie pytanie, czy temperatura powietrza zależy od ukształtowania powierzchni? Ekonomista może dociekać czy istnieje istotny związek pomiędzy wysokością zarobków a wykształceniem? Studenci mogą chcieć zbadać czy liczba punktów uzyskane na egzaminie różnią się istotnie między poszczególnymi grupami. Czytając uważnie powyższe pytania i zawarte w nich problemy badawcze powstaje dylemat, jak uzyskać odpowiedź na te zagadnienia, która będzie wiarygodna? Jakie dane zebrać, jak je uporządkować i jakim narzędziem się posłużyć, aby analiza nie okazała się bezowocna?

Przywołajmy raz jeszcze pierwsze pytanie i niech to będzie nasz problem badawczy.

Problem badawczy

Czy temperatura zależy od ukształtowania powierzchni?

Analiza problemu ujawnia dwie wielkości czyli zmienne: temperaturę oraz ukształtowanie powierzchni. Pierwsza ze zmiennych jest wyrażona za pomocą stopni Celsjusza lub Fahrenheit'a. Możemy zatem powiedzieć, iż jeśli zmienna jest wyrażona liczbą, np. jest to temperatura to mamy do czynienia ze zmienną ilościową. Druga zmienna jest wyrażona za pomocą opisu, gdzie opisem jest rodzaj ukształtowania powierzchni, np. nizinny, pagórkowaty, wyżynny, górzysty. Wówczas mamy do czynienia ze zmienną jakościową.

Ponadto, gdy uważnie przeczytamy pytanie zauważymy, iż jedna ze zmiennych zależy od drugiej. To ważny fakt, który prowadzi do rozróżnienia zmiennej zależnej oraz zmiennej niezależnej.

W modelu jednokierunkowej analizy wariancji zmienna zależna oraz zmienna niezależna mają specyficzną nazwę, odpowiednio: replikacja oraz czynnik. W naszej analizie zależności temperatury od ukształtowania powierzchni: czynnik ma 4 poziomy - rodzaje ukształtowania powierzchni, natomiast, replikacje to temperatury przy odpowiednim poziomie czynnika.

Dane

Chcąc przeprowadzić badanie modelem jednokierunkowej analizy wariancji potrzeba zebrać odpowiednie dane. W przypadku naszego problemu badawczego należy zebrać dane dotyczące temperatury oraz ukształtowania powierzchni. Takie dane prezentuje poniższa tablica.

Tablica 1. Dane empiryczne.

Ukształtowanie powierzchni

nizinne

pagórkowate

wyżynne

górzyste

9

8

9

3

11

12

8

5

8

11

6

8

7

8

11

9

6

7

10

7

10

8

10

6

6

9

8

10

Źródło: Onet.pl

FAKT 1

W modelu jednokierunkowej analizy wariancji występują dwie zmienne:

FAKT 2

W modelu jednokierunkowej analizy wariancji:

Kilka istotnych faktów

Prowadząc badanie metodą jednokierunkowej analizy wariancji trzeba wiedzieć, iż mamy do czynienia z narzędziem ekonometrycznym, modelem, który wymaga spełnienia pewnych wymagań formalnych. Ich niespełnienie może prowadzić do błędnych wniosków wynikających z modelu, a w konsekwencji do podjęcia błędnych decyzji. Ponadto, poznanie istoty modelu znacznie ułatwia pracę badawczą i zwiększa efektywność naszej pracy, a co za tym idzie oszczędzamy czas. Prześledźmy istotne fakty związane z modelem jednokierunkowej analizy wariancji.

  1. Model jednokierunkowej analizy wariancji to test statystyczny.

  2. Testujemy wartości średnie za pomocą testu F.

  3. Średnie są obliczane z wartości znajdujących się w każdym z poziomów czynnika, tj. występuje tyle średnich, ile poziomów czynnika.

  4. W modelu analizy wariacji stawiamy dwie hipotezy:

Hipoteza zerowa

W oparciu o analizowany przykład:

0x01 graphic

Interpretacja hipotezy zerowej jest następująca:

lub alternatywnie

- różnice pomiędzy średnimi nieistotne statystycznie

Hipoteza alternatywna:

W oparciu o analizowany przykład:

0x01 graphic

0x01 graphic

Interpretacja hipotezy alternatywnej jest następująca:

lub alternatywnie

- różnice pomiędzy średnimi są istotne statystycznie

  1. Postawienie hipotez statystycznych oznacza przyjęcie poziomu istotności testu statystycznego, w celu weryfikacji hipotezy zerowej. Jest to prawdopodobieństwo z jakim możemy się mylić odrzucając hipotezę zerową. Ta `pomyłka' jest nazywana błędem pierwszego rodzaju i oznacza przez 0x01 graphic
    . Jest oczywistym, iż chcemy się `mylić' niewiele i dlatego z reguły przyjmuje się poziom istotności testu na poziomie 0,05.

  1. Zasadniczo jednokierunkowa analiza wariancji opiera się na badaniu dwóch rodzajów zróżnicowania. Pierwszy rodzaj to zróżnicowanie międzygrupowe, drugi rodzaj to zróżnicowanie wewnątrzgrupowe. Badanie zróżnicowania międzygrupowego jest przeprowadzane za pomocą formuły:

0x01 graphic

o liczbie stopni swobody r - 1.

Badanie zróżnicowania wewnątrzgrupowego jest przeprowadzane za pomocą formuły:

0x01 graphic

o liczbie stopni swobody n - r.

Powyższe dwie formuły pozwalają na wyprowadzenie wzoru na zróżnicowanie całkowite:

0x01 graphic

lub

0x01 graphic

o liczbie stopni swobody n - 1.

gdzie: 0x01 graphic
- k-ta replikacja przy i-tym poziomie czynnika

0x01 graphic
- średnia z replikacji przy i-tym poziomie czynnika

0x01 graphic
- średnia ze wszystkich replikacji

0x01 graphic
- liczba replikacji przy i-tym poziomie czynnika

0x01 graphic
- liczba poziomów czynnika

0x01 graphic
- liczba replikacji (obserwacji) ogółem

Weryfikacja hipotezy zerowej odbywa się z zastosowaniem testu F o formule:

0x01 graphic

gdzie: MSB oraz MSE to średnie kwadraty odchyleń odpowiednio dla zróżnicowania międzygrupowego oraz zróżnicowania wewnątrzgrupowego wyrażone:

0x01 graphic
0x01 graphic

gdzie: 0x01 graphic
- liczba poziomów czynnika,

0x01 graphic
- liczba replikacji (obserwacji) ogółem

Obliczenie wartości testu F z próby oraz wyznaczenie wartości krytycznej testu Fα dla przyjętego poziomu istotności 0x01 graphic
oraz stopni swobody r-1 i n-r pozwala na podjęcie jednej z dwóch następujących decyzji, co do hipotezy zerowej:

Podejmowanie decyzji odnośnie powyższych hipotez statystycznych może mieć miejsce również z wykorzystaniem próbkowego poziomu istotności, tj. wartości-p (p-value).

Przeprowadzając analizę z wykorzystaniem Excel'a odnajdujemy wartość-p i zamieniamy ją na format procentowy.

Decyzje są następujące:

- Jeśli wartość-p jest mniejsza niż 5 procent (poziom istotności, czyli Alfa) odrzucamy 0x01 graphic
na korzyść 0x01 graphic
, co oznacza, iż różnice pomiędzy średnimi są istotne statystycznie.

- Jeśli wartość-p jest większa niż 5 procent (poziom istotności, czyli Alfa) wtedy nie ma podstaw do odrzucenia 0x01 graphic
, co oznacza, iż różnice pomiędzy średnimi nieistotne statystycznie.

  1. Dla wiarygodności modelu niezbędne jest spełnienie założenia zwanego homoskedastycznością. Założenie to oznacza równość, stałość wariancji we wszystkich wyznaczonych przez badacza grupach. Grup jest zawsze tyle ile poziomów czynnika. W omawianym przykładzie są 4 grupy, gdyż zostały przyjęte 4 poziomy czynnika: nizinny, pagórkowaty, wyżynny, górski.

  1. Sprawdzanie założenia homoskedastyczności oznacza postawienie dwóch hipotez badawczych:

Hipoteza zerowa

W oparciu o analizowany przykład:

0x01 graphic

Interpretacja hipotezy alternatywnej jest następująca:

Hipoteza alternatywna:

W oparciu o analizowany przykład:

0x01 graphic

0x01 graphic

Interpretacja hipotezy alternatywnej jest następująca:

- różnice pomiędzy wariancjami w grupach są istotne statystycznie

  1. Badanie homoskedastyczności jest przeprowadzane za pomocą dwoma sposobami:

Reguła Hartley'a

Reguła Hartley'a jest zwana również regułą `kciuka'. Jest to prosta i szybka, aczkolwiek mało wiarygodna metoda zbadania założenia homoskedastyczności modelu jednokierunkowej analizy wariancji. Oparta jest na następującym wzorze:

0x01 graphic

gdzie: 0x01 graphic
- maksymalna wariancja pośród i-tych poziomów czynnika

0x01 graphic
- minimalna wariancja pośród i-tych poziomów czynnika

Obliczenie wartości H z powyższego wzoru pozwala na dalsze wnioskowanie co do spełnienia, bądź też odrzucenia założenia. Porównujemy tę wartość z liczbą 9 i postępujemy następująco:

Test Bartlett'a

Test Bartlett'a jest to wiarygodna metoda zbadania założenia homoskedastyczności modelu jednokierunkowej analizy wariancji. Oparta jest na następującej statystyce:

0x01 graphic

przy czym:

0x01 graphic

gdzie: 0x01 graphic
- liczba poziomów czynnika,

0x01 graphic
- liczba replikacji (obserwacji) ogółem

0x01 graphic
- liczba replikacji przy i-tym poziomie czynnika

0x01 graphic
- wariancja przy i-tym poziomie czynnika (w każdej z grup)

Statystyka 0x01 graphic
ma rozkład 0x01 graphic
o liczbie stopni swobody r - 1.

Obliczenie wartości 0x01 graphic
i porównanie jej z wartością krytyczną rozkładu 0x01 graphic
daje podstawy do wnioskowania o spełnieniu założenia homoskedastyczności przez model jednokierunkowej analizy wariancji. Rozpatrzmy dwie następujące sytuacje:

Test Bartletta może być przeprowadzony z wykorzystaniem makra ANOVA.xls.

Interpretacja wyników uzyskanych z makra jest następująca:

Jeśli wartość-p będzie mniejsza niż 5 procent, wówczas odrzucamy 0x01 graphic
i model nie spełnia założenia homoskedastyczności.

Jeśli wartość-p będzie większa niż 5 procent; wówczas nie ma podstaw do odrzucenia 0x01 graphic
i model spełnia założenia homoskedastyczności.

  1. W przypadku, gdy model nie spełnia założenia homoskedastyczności, tj. nie istnieje stałość wariancji w grupach konieczna jest transformacja danych empirycznych. Oczywistym jest, iż przekształcenie to dotyczy zmiennej zależnej tj. replikacji, gdyż ma ona charakter ilościowy. Dopuszczalne są dwa rodzaje transformacji: logarytmiczna oraz potęgowa.

Logarytmiczna transformacja polega na wyznaczeniu dla każdej z replikacji jej logarytmu, naturalnego bądź dziesiętnego.

Odnosząc się do naszego przykładu replikacje po transformacji logarytmem naturalnym będą miały postać:

Tablica 3. Dane po zlogarytmowaniu.

Ukształtowanie powierzchni

Nizinne

Pagórkowate

Wyżynne

Górzyste

2,197

2,079

2,197

1,099

2,398

2,485

2,079

1,609

2,079

2,398

1,792

2,079

1,946

2,079

2,398

2,197

1,792

1,946

2,303

1,946

2,303

2,079

2,303

1,792

1,792

2,197

2,079

2,303

Źródło: Obliczenia własne na podstawie Tablicy 1.

Transformacja potęgowa polega na podniesieniu każdej z replikacji do dowolnej potęgi o wykładniku z przedziału (0,1)

Odnosząc się do naszego przykładu replikacje po transformacji potęgowej będą miały postać:

Tablica 4. Dane po transformacji potęgowej o wykładniku 0,2

Ukształtowanie powierzchni

Nizinne

Pagórkowate

Wyżynne

Górzyste

1,55

1,515

1,551

1,245

1,615

1,643

1,515

1,379

1,515

1,615

1,430

1,515

1,475

1,515

1,615

1,551

1,430

1,475

1,584

1,475

1,584

1,515

1,584

1,430

1,430

1,551

1,515

1,584

Źródło: Obliczenia własne na podstawie Tablicy 1.

Po zabiegu transformacji wartości replikacji przy analizowanych 4 poziomach czynnika uległy spłaszczeniu. Po drugie, obserwujemy, iż wartościzbliżone do siebie. Taka sytuacja jest pożądana, gdyż wartości wariancji w badanych grupach ulegną zmniejszeniu.

Do `nowych replikacji' tj. replikacji po transformacji należy ponownie zastosować model jednokierunkowej analizy wariancji oraz ponownie zweryfikować założenie modelu, tj. homoskedastyczność.

Porównania wielokrotne

W przypadku, gdy w modelu jednokierunkowej analizy wariancji została odrzucona hipotez zerowa o równości wszystkich średnich powstaje pytanie która lub które ze średnich wpłynęły na taką decyzję. Aby to wykazać wykorzystujemy metodę nazywaną porównaniami wielokrotnymi, gdzie pytamy o istotność różnic pomiędzy poszczególnymi parami średnich. Ponadto technika porównań wielokrotnych daje możliwość wskazania skrajnych wartości średnich.

Badanie różnic między parami średnich można zapisać jako weryfikację hipotezy:

0x01 graphic

0x01 graphic

Zastosujemy procedurę: najmniejszej istotnej różnicy (czyli LSD) o formule:

0x01 graphic

gdzie: 0x01 graphic

0x01 graphic

natomiast do weryfikacji czy różnica między parami średnich jest statystycznie istotna wykorzystamy procedurę:

0x01 graphic

i jeśli teraz dla dwóch średnich zachodzi powyższa relacja powiemy, iż różnica między tymi średnimi jest statystycznie istotna.

LSD można przeprowadzić używając do tego makra ANOVA.xls.

Jak odczytać wyniki?

ISTOTNOŚĆ RÓŻNIC

1

2

3

4

 

 

1

 

 

 

 

 

 

2

1

3

1

0

4

1

0

0

 

 

 

 

Cyfry oznaczone na kolor czerwony oznaczają średnie w grupach, które są z sobą porównywane. Jeśli na przecięciu danych grup, np. grupy 1 oraz 2 będzie „jedynka” różnice jakie występują pomiędzy średnimi są statystycznie istotne i nie wolno połączyć tych grup razem. Jeśli na przecięciu danych grup, np. grupy 2 oraz 3 będzie „zero” różnice jakie występują pomiędzy średnimi nie są statystycznie istotne i można połączyć te grupy razem.

Wobec tego, na mocy powyższego opisu można utworzyć z 4 grup (1,2,3,4) dwie grupy, tj. {1} oraz {2,3,4}.



Wyszukiwarka

Podobne podstrony:
wyklad 8 Analiza wariancji ANOVA PL
ANOVA jednoczynnikowa analiza w Nieznany (2)
analiza wariancji gl jednokierunkowa
Opis analizowanych wariantów inwestycji
Jednoczynnikowa analiza wariancji
Analiza wariancji wprowadzenie
Analiza wariancji
Hierarchiczna analiza wariancji zadania Word2003, Elementy matematyki wyższej
Analiza wariancji, Jednoczynnikowy model analizy wariancji
8 1 analiza wariancji odp
ANALIZA 3 WARIANTÓW ZAMIENNEGO WYKONANIA OKIEN
10 Analiza wariancji
analiza wariancji
analiza wariancji metodologia wyk4
6 jednoczynnikowa analiza wariancji

więcej podobnych podstron