Analiza wariancji wprowadzenie


Analiza wariancji. Wprowadzenie

  Inne

ABC raportu statystycznego

Analiza log-liniowa

Analiza dyskryminacyjna

Analiza kanoniczna

Podstawy statystyki dla prowadzących badania naukowe
Odcinek 13: Analiza wariancji. Wprowadzenie

mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)
Data ut
worzenia: 12.11.2000
Ostatnia modyfikacja: 30.04.2007
Opublikowano w
Medycyna Praktyczna 1999/11

W poprzednich odcinkach omawialiśmy testy dla hipotezy, że dwie populacje o rozkładach normalnych mają jednakowe wartości średnie. Co jednak zrobić, gdy porównywanych grup jest więcej?

Na przykład u losowo wybranych pacjentów mierzymy czas krzepnięcia czterema różnymi metodami.

Chcemy porównać wartości średnie czasu krzepnięcia dla każdej metody. Wydawałoby się, że wystarczy przeprowadzić test t-Studenta dla każdej pary średnich. Nie możemy tak jednak postąpić. Przy poziomie istotności 0,05 prawdopodobieństwo, że się nie pomylimy, wynosi dla jednego porównania 0,95, a dla dwóch porównań - 0,952, czyli 0,9025. Dla 4 średnich mamy 6 porównań, prawdopodobieństwo to wynosi więc 0,956, czyli 0,7351. Prawdopodobieństwo, że się pomylimy co najmniej raz, wynosi teraz 1 - 0,7351 = 0,2649, a na tak duży błąd pierwszego rodzaju zgodzić się nie możemy. Do analizy takich problemów wykorzystujemy zespół metod statystycznych zwanych analizą wariancji.

Analizę wariancji, często określaną skrótem ANOVA (Analysis of Variance), zawdzięczamy angielskiemu biologowi Ronaldowi A. Fisherowi, który opracował ją w 1925 roku dla rozwiązywania problemów w badaniach doświadczalnych w rolnictwie. Testy analizy wariancji są do dziś podstawowym narzędziem tzw. statystyki eksperymentalnej, służącym do oceny wpływów pewnych kontrolowanych czynników na wynik doświadczenia. Analizę wariancji można uznać za podstawową metodę statystyczną; inne są jedynie jej modyfikacjami.

Celem analizy wariancji jest zazwyczaj testowanie istotności różnic pomiędzy średnimi. W przypadku porównywania dwóch średnich ANOVA daje takie same wyniki, jak test t-Studenta dla prób niezależnych lub test t-Studenta dla prób zależnych. Nazwa analizy wzięła się stąd, że ocena istotności różnic między średnimi odbywa się przez porównanie (tj. analizę) wariancji. Najprostsza i zarazem najbardziej popularna jest jednoczynnikowa analiza wariancji, czyli analiza wpływu tylko jednego czynnika na wyniki przeprowadzanego badania. Jednoczynnikowa analiza wariancji weryfikuje więc hipotezę, że średnie w grupach są jednakowe:

H0: m1 = m2 = ... = mk
wobec hipotezy alternatywnej:
H
1: co najmniej dwie średnie różnią się między sobą

Dokonujemy tego poprzez podział całkowitej zmienności (czyli sumy kwadratów odchyleń wszystkich pomiarów od średniej) na różne źródła związane z efektami występującymi w badaniu (p. następne odcinki). Schematycznie przedstawiono to na rysunku. Mamy wówczas możliwość porównania zmienności pomiędzy grupami (określonymi przez poziomy czynnika) ze zmiennościami wewnątrzgrupowymi. Zakładając brak różnic średnich między grupami (tj. hipotezę zerową w analizie wariancji), oczekujemy, że wariancja oszacowana w oparciu o zmienność między grupami powinna być w przybliżeniu równa wariancji oszacowanej w oparciu o zmienność wewnątrzgrupową. Jeżeli tak nie jest, możemy się spodziewać, że wartości średniej istotnie się różnią. Stwierdzamy wówczas, że dany czynnik wpływa na zmienną (nazywaną zmienną objaśnianą lub zależną).

Otaczająca nas rzeczywistość jest jednak bardziej złożona i wielowymiarowa. Sytuacje, w których pojedyncza zmienna pozwala wyjaśnić dane zjawisko, należą do rzadkości. W eksperymentach medycznych zwykle bierze się pod uwagę wiele czynników, zwanych grupującymi. Na przykład: badając efekty 3 leków u chorych na depresję, rozważamy dodatkowy czynnik grupujący płeć. Dane do takiego dwuczynnikowego (rodzaj leku i płeć) eksperymentu możemy zapisać w postaci tabeli o 2 wierszach (odpowiadających płci męskiej i żeńskiej) i 3 kolumnach (odpowiadających 3 badanym lekom). Różnice między średnimi z wierszy są związane z płcią pacjentów, natomiast różnice między średnimi z kolumn wynikają z zastosowania różnych leków. W takim eksperymencie całkowitą zmienność (sumę kwadratów odchyleń) możemy rozdzielić na co najmniej 3 składniki:

Zauważmy, że istnieje jeszcze jedno dodatkowe źródło zmienności - interakcja, czyli oddziaływanie łączne. Mówi nam ona, w jakim stopniu wpływ jednego czynnika zależy od poziomu drugiego. Jeżeli wpływ ten się nie zmienia, to nie ma żadnej interakcji; w przeciwnym wypadku (tzn. gdy wpływ jednego czynnika zależy od poziomu drugiego) zachodzi interakcja między dwoma czynnikami. Przyjmijmy, że jeden lek daje lepsze wyniki niż pozostałe badane leki, zarówno u kobiet, jak i u mężczyzn (czyli niezależnie od płci) - oznacza to, że interakcji nie ma. Jeżeli jednak jeden lek daje lepsze wyniki u kobiet, a inny u mężczyzn, to mówimy o wystąpieniu interakcji między tymi dwoma czynnikami (rodzajem leku i płcią). Możliwość wykrywania istotnych interakcji i w związku z tym testowania bardziej złożonych hipotez na temat otaczającej nas rzeczywistości czyni z analizy wariancji bardzo uniwersalne narzędzie. Posługując się testem t-Studenta, nie otrzymalibyśmy identycznych wyników.

Często się zdarza, że chcemy przeprowadzić wielokrotnie ten sam test (np. oznaczenie stężenia jakiejś substancji we krwi) u tych samych osób po upływie określonego czasu lub w różnych warunkach. Interesuje nas zbadanie różnic występujących u tych samych osób. Na przykład porównujemy stężenie leukotrienu C4 przed rozpoczęciem leczenia (pierwszy pomiar - poziom 1. tzw. czynnika powtarzanych pomiarów, czyli czasu), po tygodniu leczenia (poziom 2. czynnika powtarzanych pomiarów) i po 2 tygodniach (poziom 3. czynnika powtarzanych pomiarów); czynnik powtarzanych pomiarów (czas) ma więc 3 poziomy. Do analizy takiego zbioru danych wykorzystujemy analizę wariancji z powtarzanymi pomiarami. Tabela 1. przedstawia schemat takiego eksperymentu oraz właściwy układ danych dla tych 3 pomiarów.

Tabela 1.

 

Pomiar wstepny

Pomiar po 1 tygodniu

Pomiar po 2 tygodniach

przypadek 1.

5,9

5,7

5,5

przypadek 2.

6,2

6,0

5,6

przypadek 3.

6,3

5,9

5,8

...

...

...

...

przypadek n

6,4

5,8

5,9

Efekty związane z powtarzanymi pomiarami testuje się dokładnie w taki sam sposób, jak w przypadku międzygrupowej analizy wariancji. Jeśli czynnik powtarzanych pomiarów ma więcej niż 2 poziomy, wówczas mamy do dyspozycji 2 sposoby oceny istotności efektów związanych z tym czynnikiem. Tradycyjnym sposobem jest przeprowadzenie testu jednowymiarowego. Jednakże w ostatnich latach do analizy takich układów coraz powszechniej stosuje się wielowymiarową analizę wariancji, której zaletą jest między innymi to, że wymaga spełnienia mniej restrykcyjnych założeń.

Rozważmy teraz eksperyment, w którym ocenia się 2 leki: X i Y, stosowane w leczeniu nowotworu. Leczenie prowadzi 3 lekarzy. Mamy więc 6 n-osobowych grup chorych (2 środki x 3 lekarzy). W takim eksperymencie każdy z lekarzy niejako "krzyżuje się" z każdym z dwóch leków. Taki schemat eksperymentu umożliwia badanie interakcji między lekarzami a lekami. Względy praktyczne (np. koszty leczenia) powodują czasami, że eksperyment ten zostanie przeprowadzony nieco inaczej. Zamiast 3 lekarzy możemy mieć 6, tzn. 3 leczących lekiem X i 3 leczących lekiem Y. W eksperymencie uczestniczy również 6 grup n-osobowych, lecz w innych schemacie (p. tab. 2).

Tabela 2.

 

Lek X

Lek Y

lekarze

1

2

3

4

5

6

chorzy

n

n

n

n

n

n

W takiej sytuacji lekarze stanowią czynnik "zagnieżdżony" w lekach. Analiza wariancji zastosowana do eksperymentu tego typu nosi nazwę analizy wariancji hierarchicznej. W naszym przykładzie całkowitą sumę kwadratów możemy podzielić na sumę kwadratów związaną z lekiem, sumę kwadratów związaną z lekarzami (czynnik zagnieżdżony) oraz sumę kwadratów wewnątrzgrupową. Nie możemy badać interakcji czynników, ponieważ lekarze nie są "skrzyżowani" z lekami, lecz w nich "zagnieżdżeni". Przyjmujemy więc założenie, że interakcja taka nie występuje lub możemy ją zaniedbać. Przy większej liczbie czynników eksperymenty tego typu mogą być bardzo skomplikowane. Tabela 3. przedstawia schemat takiego eksperymentu dla 3 czynników: leki, kliniki, lekarze.

Tabela 3.

 

Lek X

Lek Y

kliniki

Klinika I

Klinika II

Klinika III

Klinika IV

lekarze

1

2

3

4

5

6

7

8

9

10

11

12

chorzy

n

n

n

n

n

n

n

n

n

n

n

n

Na analizowaną zmienną (zwaną zależną) teoretycznie może mieć wpływ bardzo duża liczba dodatkowych zmiennych. Niektórych zmiennych nie da się podczas eksperymentu kontrolować, a z oddziaływania innych nie zdajemy sobie sprawy. Podstawowym, ale zarazem najprostszym sposobem radzenia sobie z tą dodatkową zmiennością jest dobór losowy. Jest to zresztą jedno z podstawowych założeń analizy wariancji. Zdarzają się jednak sytuacje, w których musimy korzystać z gotowych grup lub znane są nam mierzalne zmienne zakłócające. Te dodatkowe zmienne, których nie możemy przyjąć jako czynniki grupujące, nazywane są zmiennymi towarzyszącymi. W takich sytuacjach powinniśmy się posłużyć analizą kowariancji. Na przykład chcemy porównać 3 metody nauczania fizjologii. Każdą metodę stosujemy w innej grupie osób. Po pewnym czasie nauczania we wszystkich trzech grupach przeprowadzamy test osiągnięć w nauce i obliczamy średnie wyniki.

Załóżmy, że dysponujemy także wynikami testu inteligencji wszystkich osób badanych. Trzy badane grupy mogą się różnić pod względem poziomu inteligencji, która koreluje z osiągnięciami w nauce. Tym samym nie wiemy, w jakim stopniu różnice w osiągnięciach w nauce wynikają z różnych metod nauczania, a w jakim z różnic w poziomie inteligencji osób w poszczególnych grupach. Z pomocą przychodzi nam analiza kowariancji, opracowana również przez R.A. Fishera w 1932 roku. Wyodrębnia ona najpierw wpływ zmiennej towarzyszącej (wyniki testu) za pomocą metody regresji liniowej. Następnie stosuje analizę wariancji wobec pozostałej zmienności, czyli tej części osiągnięć w nauce, która nie została wyjaśniona przez poziom inteligencji. Oceniamy tym samym istotność bądź nieistotność różnicy między średnimi reszt, nazywanymi średnimi skorygowanymi. Średnie te pokazują, jaka część zmienności pozostaje w średnich osiągnięciach w nauce po oddzieleniu tej części zmienności, za którą odpowiedzialny jest poziom inteligencji. Analiza kowariancji łączy więc w sobie dwie metody - analizę regresji i analizę wariancji.

Jeżeli analiza wariancji nie pokaże istotności różnic między rozpatrywanymi średnimi, nie przeprowadza się już dalszych testów. Natomiast kiedy hipoteza zerowa zostanie odrzucona w analizie wariancji, to powstaje pytanie, które z porównywanych populacji są odpowiedzialne za odrzucenie hipotezy zerowej. Chcemy wiedzieć, które z n-średnich różnią się między sobą, a które są jednakowe. Musimy wtedy przeprowadzić dokładniejsze badania różnic między średnimi z poszczególnych grup. Wykorzystujemy do tego celu specjalne testy post hoc, zwane też testami wielokrotnych porównań, oraz analizę kontrastów. Ta ostatnia umożliwia testowanie statystycznej istotności prognozowanych szczegółowych różnic w określanych fragmentach naszego złożonego eksperymentu. Wracając do pierwszego przykładu z badaniem czasu krzepnięcia: jeżeli doświadczenie wskazuje nam drugą metodę jako najlepszą, to analiza kontrastów umożliwi (bez przeprowadzenia całej analizy wariancji) porównanie tej metody z innymi. Metody te zostaną dokładniej omówione w kolejnych odcinkach.

Analiza wariancji - testy po fakcie

  Inne

ABC raportu statystycznego

Analiza log-liniowa

Analiza dyskryminacyjna

Analiza kanoniczna

Podstawy statystyki dla prowadzących badania naukowe
Odcinek 16: Analiza wariancji - testy po fakcie

mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)
Data utworzenia: 09.02.2001
Ostatnia modyfikacja: 30.04.2007
Opublikowano w
Medycyna Praktyczna 2000/04

Jeżeli analiza wariancji nie wykaże istotności różnic między rozpatrywanymi grupami, nie przeprowadza się już dalszych testów. Natomiast kiedy hipoteza zerowa zostanie odrzucona w analizie wariancji, to powstaje pytanie, które z porównywanych populacji są odpowiedzialne za odrzucenie hipotezy zerowej. Chcemy wiedzieć, które z n średnich różnią się między sobą, a które są równe.

Musimy wtedy koniecznie przeprowadzić dokładniejsze badania różnic między średnimi z poszczególnych grup. Wykorzystujemy do tego celu specjalne testy post-hoc (po fakcie), zwane też testami wielokrotnych porównań. Nazwa tych testów wynika stąd, że stosujemy je dopiero po fakcie stwierdzenia (za pomocą analizy wariancji) braku równości między średnimi. Testy te bywają też nazywane testami grupowań jednorodnych, gdyż po ich zastosowaniu możemy otrzymać grupy średnich. Średnie należące do tej samej grupy nie różnią się istotnie, podczas gdy średnie należące do różnych grup będą się istotnie różnić.

Testów post-hoc jest cała gama. Można wyróżnić trzy grupy:

Wszystkie opisane wyżej metody polegają na sprawdzeniu, czy zachodzi nierówność:

0x01 graphic

gdzie:

Nierówność ta umożliwia utworzenie przedziału ufności
0x01 graphic
dla różnicy
0x01 graphic

Jeżeli tak skonstruowany przedział obejmuje wartość 0, to średnie 0x01 graphic
0x01 graphic
nie różnią się istotnie.

Zostawmy jednak na uboczu wzory matematyczne. Dalsze, dokładniejsze omówienie powyższych testów nastąpi w oparciu o pakiet STATISTICA. W pakiecie tym okno z pełną listą testów post-hoc zostaje wyświetlone po kliknięciu przycisku:

0x01 graphic

w oknie wyników modułu ANOVA/MANOVA. Po wybraniu zmiennych zależnych, dla których chcemy przeprowadzić test, otwiera się okno jak na rysunku 1.

0x01 graphic

Rys. 1. Okno wyboru testów
post-hoc

W oknie tym mamy pełny wybór najbardziej znanych testów post-hoc oraz możliwość wyboru sposobu prezentowania wyników. Wybranie opcji [1] (patrz rys. 1) powoduje wyświetlenie arkusza wyników w postaci wartości p wskazujących poziomy istotności dla kolejnych par średnich.

Kiedy ustawimy opcję [2], wtedy program wyświetla arkusz wyników z zaznaczonymi jednorodnymi grupami średnich. Otrzymujemy również wartości średnich uporządkowane od największej do najmniejszej.

Omówimy kolejno wszystkie testy, wskazując ich zalety i wady.

Test NIR (najmniejszych istotnych różnic - ang. least significant differences [LSD]) to najstarszy test, zaproponowany w 1949 roku przez R.A. Fishera. Polega on na wyznaczeniu tzw. najmniejszych istotnych różnic.

Najczęściej stosuje się go do średnich uporządkowanych niemalejąco; porównywanie rozpoczyna się od średnich najbardziej oddalonych. W rezultacie w zbiorze wszystkich średnich wyróżniamy podzbiory wewnętrznie jednorodne. Podzbiory te niekoniecznie muszą być rozłączne. Możliwa też jest sytuacja, że nie został wydzielony żaden podzbiór różniący się od pozostałych, mimo że test F analizy wariancji wykazał istotne zróżnicowanie.

Odrzucenie hipotezy zerowej H0 : m1 = m2 =... = mk może bowiem wynikać z istotności pewnych porównań, które niekoniecznie muszą być porównaniem par (np. m1 z [m1 + m2 + m3 ]/3).

Ta procedura umożliwia również wyznaczenie przedziałów ufności. Test NIR jest najmniej odporny na zwiększenie wartości  spowodowane wielokrotnymi porównaniami. Poziom istotności  przy weryfikacji hipotezy mi = mj; i różne od j odnosi się bowiem do pojedynczego porównania, a nie do wszystkich wyników.

Jest to poważna trudność, gdyż jesteśmy przyzwyczajeni wiązać różne warunki w całość, a nie interpretować je oddzielnie. Wraz ze wzrostem liczby średnich wzrasta bardzo szybko poziom istotności dla całego doświadczenia. Test ten stosujemy więc najczęściej jako sprawdzian innych testów.

W arkuszu wyników wyświetlane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Test Scheffégo to najbardziej konserwatywny test. Oznacza to, że używając go w porównywalnych grupach, rzadziej będziemy odrzucać hipotezę o równości średnich niż posługując się innymi testami.

Test ten ma szerokie zastosowanie, gdyż uwzględnia nie tylko porównania par cech, ale wszystkie możliwe kontrasty (p. następny odcinek). Ważne jest też to, że w teście Scheffégo mamy zagwarantowany łączny poziom istotności dla wszystkich testowanych par, czego nie gwarantował test NIR.

Metoda Scheffégo jest też najbardziej zachowawcza, ponieważ błąd typu pierwszego jest najmniejszy (tzn. prawdopodobieństwo odrzucenia hipotezy, która okaże się prawdziwa, jest najmniejsze). Jednak dla porównań par średnich bardziej zalecany jest test Tukeya oraz test Newmana i Keulsa.

W arkuszu wyników wyświetlane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Test Newmana i Keulsa należy do grupy testów opartych na tzw. studentyzowanym rozstępie. Bada każdą hipotezę o równości średnich w pewnej grupie. Za jego pomocą możemy więc tworzyć grupy jednorodne. Test ten ze względu na niejednoczesne testowanie hipotez o równości średnich nie może służyć do tworzenia przedziałów ufności. Idea obliczeń jest następująca:

W arkuszu wyników wyświetlana jest tablica wartości p, a następnie okno zawierające wartości krytyczne rozstępów pomiędzy posortowanymi średnimi dla zadanego poziomu istotności. Wielkość tego poziomu istotności (domyślnie 0,05) możemy regulować w okienku obok przycisku uruchamiającego obliczanie tego testu.

Test Duncana to drugi test oparty na "studentyzowanym" rozstępie. Podobnie jak poprzedni, test Duncana ze względu na niejednoczesne testowanie hipotez o równości średnich nie może służyć do tworzenia przedziałów ufności.

Przy teście Duncana poziom istotności dla porównań wszystkich średnich jest równy 1 - (1 - )n-1 i wzrasta do 1, gdy n rośnie do nieskończoności. Zatem dla dużej liczby średnich prawdopodobieństwo błędu może być duże (np. dla a = 0,05 i n = 10 wartość ta wynosi 0,401). Można więc przy dużej liczbie średnich podjąć błędną decyzję. Test ten stosujemy więc najczęściej jako sprawdzian innych testów.

W arkuszu wyników wyświetlane są wartości p, a następnie okno zawierające wartości krytyczne rozstępów pomiędzy posortowanymi średnimi dla zadanego poziomu istotności. Wielkość poziomu istotności (domyślnie 0,05) możemy regulować w okienku obok przycisku uruchamiającego obliczenia.

Test Tukeya występuje w dwóch wariantach: dla równej liczebności próbek i dla nierównej liczebności (test Spjotvolla i Stoline'a). Test Tukeya jest również oparty na "studentyzowanym" rozkładzie. Metoda Tukeya jest bardziej konserwatywna niż test NIR, ale mniej niż test Scheffégo. Oznacza to, że używając go, rzadziej będziemy odrzucać pojedyncze porównania niż w metodzie NIR.

Test ten jest najbardziej polecany do porównań par średnich. Za jego pomocą możemy tworzyć grupy jednorodne. Błąd pierwszego rodzaju jest tutaj mniejszy niż przy innych testach (NIR, Duncana, Newmana i Keulsa). Ważne jest też to, że w teście Scheffégo mamy zagwarantowany łączny poziom istotności dla wszystkich testowanych par.

W arkuszu wyników podane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Uszeregowanie ww. testów od najbardziej do najmniej konserwatywnego przedstawia się następująco: test Scheffégo, test Tukeya, test Newmana i Keulsa, test Duncana, test NIR.

Rozważania teoretyczne zilustrujemy konkretnym przykładem.

Wykorzystując wyniki analizy wariancji dla danych z przykładu w odcinku 14. (gdzie odrzuciliśmy hipotezę zerową), przeprowadzimy dokładniejsze badania różnic między średnimi z poszczególnych grup za pomocą testów po fakcie. Otrzymamy wówczas następujący arkusz wyników (rys. 2).

0x01 graphic

Rys. 2. Arkusz wyników analizy wariancji dla danych z przykładu

Możemy więc odrzucić hipotezę o równości średnich nawet na poziomie równym 0,017. Wywołujemy (przyciskiem Zestawienie średnich) okno z wartościami średnich w poszczególnych podgrupach. Przyjmuje ono postać jak na rysunku 3.

0x01 graphic

Rys. 3.

Sprawdźmy, co przyczyniło się do obalenia hipotezy zerowej o równości wszystkich średnich, wykorzystując testy po fakcie. Wybieramy test Tukeya i otrzymujemy arkusz wyników widoczny na rysunku 4.

0x01 graphic

Rys. 4. Arkusz wyników testu Tukeya dla naszych danych

Analizując wyniki, zauważamy, że procedura Tukeya utworzyła dwie grupy jednorodne - pierwszą (metoda 1, metoda 2, metoda 3) i drugą (metoda 2, metoda 3, metoda 4), przez co potwierdziła nasze przypuszczenia wysnute ze średnich w odcinku 14. Pierwsza i czwarta średnia okazały się istotnie różne. O odrzuceniu hipotezy zerowej zadecydowała więc znaczna różnica pomiędzy średnimi metody pierwszej i czwartej.

Potwierdza to również wykres średnich na rysunku 5.

0x01 graphic

Rys. 5. Interpretacja graficzna wyników analizy wariancji

Gdy nie potrafimy sami pogrupować średnich, możemy wówczas wybrać opcję [2] (patrz rys. 1), jako sposób wyświetlania wyników. Wówczas program sam pogrupuje średnie w jednorodne grupy i wyświetli arkusz wyników w postaci jak na rysunku 6. Każda kolumna to jedna grupa jednorodna, a xxxx zaznaczono elementy należące do niej.

0x01 graphic

Rys. 6. Arkusz wyników testu Tukeya w postaci grup jednorodnych


Analiza wariancji - testy po fakcie

  Inne

Podstawy statystyki dla prowadzących badania naukowe
Odcinek 16: Analiza wariancji - testy po fakcie

mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)
Data utworzenia: 09.02.2001
Ostatnia modyfikacja: 30.04.2007
Opublikowano w
Medycyna Praktyczna 2000/04

Jeżeli analiza wariancji nie wykaże istotności różnic między rozpatrywanymi grupami, nie przeprowadza się już dalszych testów. Natomiast kiedy hipoteza zerowa zostanie odrzucona w analizie wariancji, to powstaje pytanie, które z porównywanych populacji są odpowiedzialne za odrzucenie hipotezy zerowej. Chcemy wiedzieć, które z n średnich różnią się między sobą, a które są równe.

Musimy wtedy koniecznie przeprowadzić dokładniejsze badania różnic między średnimi z poszczególnych grup. Wykorzystujemy do tego celu specjalne testy post-hoc (po fakcie), zwane też testami wielokrotnych porównań. Nazwa tych testów wynika stąd, że stosujemy je dopiero po fakcie stwierdzenia (za pomocą analizy wariancji) braku równości między średnimi. Testy te bywają też nazywane testami grupowań jednorodnych, gdyż po ich zastosowaniu możemy otrzymać grupy średnich. Średnie należące do tej samej grupy nie różnią się istotnie, podczas gdy średnie należące do różnych grup będą się istotnie różnić.

Testów post-hoc jest cała gama. Można wyróżnić trzy grupy:

  • analiza kontrastów i związane z nią testy (test Scheffégo)

  • testy oparte na tzw. studentyzowanym rozstępie, umożliwiające grupowanie średnich (test Tukeya, test Duncana, test Newmana i Keulsa)

  • wnioskowanie na podstawie przedziałów ufności (test Scheffégo, test Benferroniego, test Dunneta).

Wszystkie opisane wyżej metody polegają na sprawdzeniu, czy zachodzi nierówność:

0x01 graphic

gdzie:

  • K to odpowiednia wartość związana ze statystyką wykorzystywaną w danej metodzie (np. rozkład F dla testu Scheffégo)

  • ni, nj to odpowiednie liczebności i-tej i j-tej grupy

  • ŚK reszt jest średnim kwadratem błędu występującego w analizie wariancji

  • Xi oraz Xj to porównywane średnie i-tej i j-tej grupy.

Nierówność ta umożliwia utworzenie przedziału ufności
0x01 graphic
dla różnicy
0x01 graphic

Jeżeli tak skonstruowany przedział obejmuje wartość 0, to średnie 0x01 graphic
0x01 graphic
nie różnią się istotnie.

Zostawmy jednak na uboczu wzory matematyczne. Dalsze, dokładniejsze omówienie powyższych testów nastąpi w oparciu o pakiet STATISTICA. W pakiecie tym okno z pełną listą testów post-hoc zostaje wyświetlone po kliknięciu przycisku:

0x01 graphic

w oknie wyników modułu ANOVA/MANOVA. Po wybraniu zmiennych zależnych, dla których chcemy przeprowadzić test, otwiera się okno jak na rysunku 1.

0x01 graphic

Rys. 1. Okno wyboru testów
post-hoc

W oknie tym mamy pełny wybór najbardziej znanych testów post-hoc oraz możliwość wyboru sposobu prezentowania wyników. Wybranie opcji [1] (patrz rys. 1) powoduje wyświetlenie arkusza wyników w postaci wartości p wskazujących poziomy istotności dla kolejnych par średnich.

Kiedy ustawimy opcję [2], wtedy program wyświetla arkusz wyników z zaznaczonymi jednorodnymi grupami średnich. Otrzymujemy również wartości średnich uporządkowane od największej do najmniejszej.

Omówimy kolejno wszystkie testy, wskazując ich zalety i wady.

Test NIR (najmniejszych istotnych różnic - ang. least significant differences [LSD]) to najstarszy test, zaproponowany w 1949 roku przez R.A. Fishera. Polega on na wyznaczeniu tzw. najmniejszych istotnych różnic.

Najczęściej stosuje się go do średnich uporządkowanych niemalejąco; porównywanie rozpoczyna się od średnich najbardziej oddalonych. W rezultacie w zbiorze wszystkich średnich wyróżniamy podzbiory wewnętrznie jednorodne. Podzbiory te niekoniecznie muszą być rozłączne. Możliwa też jest sytuacja, że nie został wydzielony żaden podzbiór różniący się od pozostałych, mimo że test F analizy wariancji wykazał istotne zróżnicowanie.

Odrzucenie hipotezy zerowej H0 : m1 = m2 =... = mk może bowiem wynikać z istotności pewnych porównań, które niekoniecznie muszą być porównaniem par (np. m1 z [m1 + m2 + m3 ]/3).

Ta procedura umożliwia również wyznaczenie przedziałów ufności. Test NIR jest najmniej odporny na zwiększenie wartości spowodowane wielokrotnymi porównaniami. Poziom istotności przy weryfikacji hipotezy mi = mj; i różne od j odnosi się bowiem do pojedynczego porównania, a nie do wszystkich wyników.

Jest to poważna trudność, gdyż jesteśmy przyzwyczajeni wiązać różne warunki w całość, a nie interpretować je oddzielnie. Wraz ze wzrostem liczby średnich wzrasta bardzo szybko poziom istotności dla całego doświadczenia. Test ten stosujemy więc najczęściej jako sprawdzian innych testów.

W arkuszu wyników wyświetlane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Test Scheffégo to najbardziej konserwatywny test. Oznacza to, że używając go w porównywalnych grupach, rzadziej będziemy odrzucać hipotezę o równości średnich niż posługując się innymi testami.

Test ten ma szerokie zastosowanie, gdyż uwzględnia nie tylko porównania par cech, ale wszystkie możliwe kontrasty (p. następny odcinek). Ważne jest też to, że w teście Scheffégo mamy zagwarantowany łączny poziom istotności dla wszystkich testowanych par, czego nie gwarantował test NIR.

Metoda Scheffégo jest też najbardziej zachowawcza, ponieważ błąd typu pierwszego jest najmniejszy (tzn. prawdopodobieństwo odrzucenia hipotezy, która okaże się prawdziwa, jest najmniejsze). Jednak dla porównań par średnich bardziej zalecany jest test Tukeya oraz test Newmana i Keulsa.

W arkuszu wyników wyświetlane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Test Newmana i Keulsa należy do grupy testów opartych na tzw. studentyzowanym rozstępie. Bada każdą hipotezę o równości średnich w pewnej grupie. Za jego pomocą możemy więc tworzyć grupy jednorodne. Test ten ze względu na niejednoczesne testowanie hipotez o równości średnich nie może służyć do tworzenia przedziałów ufności. Idea obliczeń jest następująca:

  • sortujemy średnie w porządku niemalejącym;

  • dla każdej pary średnich testujemy różnicę rozstępów przy ustalonych liczebnościach.

W arkuszu wyników wyświetlana jest tablica wartości p, a następnie okno zawierające wartości krytyczne rozstępów pomiędzy posortowanymi średnimi dla zadanego poziomu istotności. Wielkość tego poziomu istotności (domyślnie 0,05) możemy regulować w okienku obok przycisku uruchamiającego obliczanie tego testu.

Test Duncana to drugi test oparty na "studentyzowanym" rozstępie. Podobnie jak poprzedni, test Duncana ze względu na niejednoczesne testowanie hipotez o równości średnich nie może służyć do tworzenia przedziałów ufności.

Przy teście Duncana poziom istotności dla porównań wszystkich średnich jest równy 1 - (1 - )n-1 i wzrasta do 1, gdy n rośnie do nieskończoności. Zatem dla dużej liczby średnich prawdopodobieństwo błędu może być duże (np. dla a = 0,05 i n = 10 wartość ta wynosi 0,401). Można więc przy dużej liczbie średnich podjąć błędną decyzję. Test ten stosujemy więc najczęściej jako sprawdzian innych testów.

W arkuszu wyników wyświetlane są wartości p, a następnie okno zawierające wartości krytyczne rozstępów pomiędzy posortowanymi średnimi dla zadanego poziomu istotności. Wielkość poziomu istotności (domyślnie 0,05) możemy regulować w okienku obok przycisku uruchamiającego obliczenia.

Test Tukeya występuje w dwóch wariantach: dla równej liczebności próbek i dla nierównej liczebności (test Spjotvolla i Stoline'a). Test Tukeya jest również oparty na "studentyzowanym" rozkładzie. Metoda Tukeya jest bardziej konserwatywna niż test NIR, ale mniej niż test Scheffégo. Oznacza to, że używając go, rzadziej będziemy odrzucać pojedyncze porównania niż w metodzie NIR.

Test ten jest najbardziej polecany do porównań par średnich. Za jego pomocą możemy tworzyć grupy jednorodne. Błąd pierwszego rodzaju jest tutaj mniejszy niż przy innych testach (NIR, Duncana, Newmana i Keulsa). Ważne jest też to, że w teście Scheffégo mamy zagwarantowany łączny poziom istotności dla wszystkich testowanych par.

W arkuszu wyników podane są wartości p wskazujące poziomy istotności dla kolejnych par średnich.

Uszeregowanie ww. testów od najbardziej do najmniej konserwatywnego przedstawia się następująco: test Scheffégo, test Tukeya, test Newmana i Keulsa, test Duncana, test NIR.

Rozważania teoretyczne zilustrujemy konkretnym przykładem.

Wykorzystując wyniki analizy wariancji dla danych z przykładu w odcinku 14. (gdzie odrzuciliśmy hipotezę zerową), przeprowadzimy dokładniejsze badania różnic między średnimi z poszczególnych grup za pomocą testów po fakcie. Otrzymamy wówczas następujący arkusz wyników (rys. 2).

0x01 graphic

Rys. 2. Arkusz wyników analizy wariancji dla danych z przykładu

Możemy więc odrzucić hipotezę o równości średnich nawet na poziomie równym 0,017. Wywołujemy (przyciskiem Zestawienie średnich) okno z wartościami średnich w poszczególnych podgrupach. Przyjmuje ono postać jak na rysunku 3.

0x01 graphic

Rys. 3.

Sprawdźmy, co przyczyniło się do obalenia hipotezy zerowej o równości wszystkich średnich, wykorzystując testy po fakcie. Wybieramy test Tukeya i otrzymujemy arkusz wyników widoczny na rysunku 4.

0x01 graphic

Rys. 4. Arkusz wyników testu Tukeya dla naszych danych

Analizując wyniki, zauważamy, że procedura Tukeya utworzyła dwie grupy jednorodne - pierwszą (metoda 1, metoda 2, metoda 3) i drugą (metoda 2, metoda 3, metoda 4), przez co potwierdziła nasze przypuszczenia wysnute ze średnich w odcinku 14. Pierwsza i czwarta średnia okazały się istotnie różne. O odrzuceniu hipotezy zerowej zadecydowała więc znaczna różnica pomiędzy średnimi metody pierwszej i czwartej.

Potwierdza to również wykres średnich na rysunku 5.

0x01 graphic

Rys. 5. Interpretacja graficzna wyników analizy wariancji

Gdy nie potrafimy sami pogrupować średnich, możemy wówczas wybrać opcję [2] (patrz rys. 1), jako sposób wyświetlania wyników. Wówczas program sam pogrupuje średnie w jednorodne grupy i wyświetli arkusz wyników w postaci jak na rysunku 6. Każda kolumna to jedna grupa jednorodna, a xxxx zaznaczono elementy należące do niej.

0x01 graphic

Rys. 6. Arkusz wyników testu Tukeya w postaci grup jednorodnych

15



Wyszukiwarka

Podobne podstrony:
Opis analizowanych wariantów inwestycji
Jednoczynnikowa analiza wariancji
Analiza wariancji
Hierarchiczna analiza wariancji zadania Word2003, Elementy matematyki wyższej
Analiza wariancji, Jednoczynnikowy model analizy wariancji
analiza wplywu wprowadzenia euro na polski system bankowy
8 1 analiza wariancji odp
ANALIZA 3 WARIANTÓW ZAMIENNEGO WYKONANIA OKIEN
Analiza ekonomiczna wprowadzenie
10 Analiza wariancji
analiza wariancji
analiza wariancji metodologia wyk4
6 jednoczynnikowa analiza wariancji
Analiza wariancji
zaj 10i11 analiza wariancji
Dwuczynnikowa Analiza Wariancji
Opis zadań analiza wariancji, TŻ, SEMI, SEM II, statystyka

więcej podobnych podstron