Testy istotności różnic dla prób niezależnych

TEST T

Test t dla prób zależnych pozwala na wykorzystanie pewnego specyficznego typu układu eksperymentalnego, w którym ważne źródło zmienności wewnątrzgrupowej (lub tzw. błędu) może zostać łatwo zidentyfikowane i wykluczone z analizy. W szczególności, jeśli dwie grupy obserwacji (które mają zostać porównane) zostały oparte na tej samej grupie obiektów zmierzonych dwukrotnie (np. przed i po zabiegu), to wówczas znaczna część zmienności wewnątrzgrupowej w obydwu grupach wyników może zostać przypisana początkowej indywidualnej różnicy pomiędzy obiektami. Zauważmy, że w pewnym sensie fakt ten jest podobny do sytuacji, kiedy obydwie grupy są całkowicie niezależne (zob. test t dla prób niezależnych) i indywidualne różnice również wnoszą wkład do składnika błędu. W tym ostatnim przypadku nie możemy jednak zidentyfikować (lub, inaczej mówiąc, wyeliminować) wariancji pochodzącej od indywidualnych różnic poszczególnych obiektów. Jeśli jednak ta sama próba została zmierzona dwukrotnie, to wariancję tę łatwo jest zidentyfikować i wyeliminować. Można w szczególności, zamiast analizować oddzielnie każdy z pomiarów, brać do analizy różnice pomiędzy wynikami (przed i po) dla każdego z obiektów pomiarowych. Przez procedurę odejmowania wyniku przed zabiegiem od wyniku po zabiegu i analizowaniu "czystych" różnic dokonujemy wyeliminowania tej części wariancji w naszym zbiorze danych, która pochodzi od różnic w wartościach bezwzględnych poszczególnych obiektów pomiarowych. Dokładnie tak przebiega procedura w opcji test t dla prób zależnych i w porównaniu z testem t dla prób niezależnych daje ona zawsze lepsze wyniki (w tym sensie, że jest bardziej czuła).

Test t jest powszechnie stosowaną metodą oceny różnic między średnimi w dwóch grupach. Mogą to być próby niezależne (np. sprawdzenie różnicy ciśnienia krwi w grupie pacjentów poddanych działaniu jakiegoś leku w stosunku do grupy otrzymujących placebo) lub zależne (np. sprawdzenie różnicy ciśnienia krwi u pacjentów "przed" i "po" podaniu leku, zob. poniżej). Teoretycznie test t może być stosowany także w przypadku bardzo małych prób (np. o liczności 10, zaś niektórzy badacze twierdzą, że nawet w mniej licznych); jedynym arunkiem jest normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami (zob. także Podstawowe pojęcia statystyki).

Test dla prób zależnych. Test t dla prób zależnych pozwala na analizę doświadczeń, w których źródło zmienności wewnątrzgrupowej (lub tzw. błędu) może zostać łatwo zidentyfikowane i wykluczone z analizy. W szczególności, jeśli dwie grupy obserwacji (które mają zostać porównane) zostały oparte na tej samej grupie obiektów zmierzonych dwukrotnie (np. przed i po zabiegu), to wówczas znaczna część zmienności wewnątrzgrupowej w obydwu grupach wyników może zostać przypisana początkowej indywidualnej różnicy pomiędzy obiektami (w ten sposób pomniejszy się błąd). Powoduje to zwiększenie czułości układu.

Założenia teoretyczne występujące w przypadku testu t dla prób niezależnych mają również zastosowanie w teście dla prób zależnych; to znaczy różnice pomiędzy parami pomiarów powinny mieć rozkład normalny. Jeśli założenie to jest zdecydowanie niespełnione, wówczas należy zastosować jeden z alternatywnych testów nieparametrycznych (zob. moduł Statystyki nieparametryczne i rozkłady).

Z technicznego punktu widzenia test t dla prób zależnych można zastosować do dowolnych dwóch zmiennych ze zbioru danych przy czym wybór zmiennych jest identyczny, jak w wypadku obliczania korelacji (zob. Korelacje). Jednak stosowanie tego testu będzie miało niewiele sensu jeśli wartości tych dwóch zmiennych nie są porównywalne w sensie logicznym i metodologicznym. Jeżeli na przykład porównywalibyśmy przeciętne wartości LBC (liczba białych ciałek) w próbie pacjentów przed i po określonym zabiegu, lecz wyniki podawalibyśmy w innych jednostkach (lub też pomiary dokonywane byłyby z zastosowaniem innej metodyki), to moglibyśmy otrzymać bardzo istotne różnice w wartościach testu t spowodowane tym artefaktem (to znaczy używaniem różnych jednostek miar). Poniżej podajemy przykład zbioru danych (arkusz danych), które można analizować przy użyciu testu t dla prób zależnych.

Testy istotności różnic dla prób niezależnych

Inne

•

ABC raportu statystycznego

•

Analiza log-liniowa

•

Analiza dyskryminacyjna

•

Analiza kanoniczna

Podstawy statystyki dla prowadzących badania naukowe
Odcinek 9: Testy istotnoci różnic dla prób niezależnych

mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)
Data utworzenia: 16.07.2000
Ostatnia modyfikacja: 30.04.2007
Opublikowano w Medycyna Praktyczna 1999/06

W badaniach medycznych najczęściej spotykanym problemem statystycznym jest porównanie dwóch populacji pod względem jednej cechy lub dwóch cech. Metody takich porównań można podzielić na dwie grupy:

porównywanie pewnych parametrów populacji (średnie, odchylenia standardowe) - wówczas stosuje się najczęściej testy parametryczne;
porównanie pewnych cech, które nie są parametrami (np. kształt rozkładu) - w takich przypadkach zwykle stosuje się testy nieparametryczne.

Wprawdzie parametr jest bardziej poszukiwaną i ważniejszą charakterystyką, zarówno populacji, jak i pojedynczego człowieka, jednakże jego brak nie zmusza do rezygnacji z badań statystycznych.

W medycynie i biologii bardzo często przeprowadza się badania porównujące wartości dwóch lub kilku średnich. Dlatego kilka najbliższych odcinków cyklu zostanie poświęconych temu zagadnieniu.

Zacznę od testów różnic między średnimi z dwóch prób. Testy te weryfikują hipotezę zerową o równości średnich w dwóch grupach.

Przypuśćmy, że podajemy dwa leki nasenne dwóm różnym grupom (18 osobom tworzącym grupę A i 24 w grupie B). Tabela 1 przedstawia czas trwania snu (w minutach) poszczególnych osób po podaniu leku.

SEN_A	438	154	374	250	145	299	404	412	313	215	216	304	234
	302	234	302	123	298	107	115
SEN_B	416	454	400	315	373	370	203	372	249	275	339	439	262
	372	262	372	249	275	352	320	392	263	379	309	505	310

Szukamy odpowiedzi na pytanie, który z tych leków jest skuteczniejszy. Do rozwiązania takich problemów wykorzystujemy testy dla różnic między średnimi z dwóch prób dla zmiennych niepowiązanych; najczęściej są to testy t-Studenta dla zmiennych niepowiązanych. Można je też wykorzystać do oceny określonej różnicy między grupą pacjentów zażywających badany lek a grupą pacjentów otrzymujących placebo; rozpatrujemy wówczas dwie grupy: kontrolną i eksperymentalną.

Przypuśćmy teraz, że w pewnej grupie osób badamy ciśnienie tętnicze przed podaniem leku i po. Pytamy, czy lek ten powoduje istotny spadek ciśnienia. Tym razem mamy dwie serie pomiarów dotyczących tej samej próby (tzn. w tej samej grupie, przed podaniem leku i po) i chcemy zweryfikować hipotezę o średniej wielkości różnic między uzyskanymi wynikami. Pierwsza seria danych to wyniki pomiaru badanej cechy (ciśnienia) w jednym punkcie czasowym (przed zażyciem leku), druga - wyniki pomiaru tej samej cechy u tych samych osób w drugim punkcie czasowym (po zażyciu leku). Do problemów tego typu stosujemy testy t-Studenta dla zmiennych powiązanych.

Zacznę od podania podstawowych założeń testów t-Studenta:

1. Zasada randomizacji

Jeśli chcemy uogólnić wnioski wynikające z badania, to musimy zagwarantować reprezentatywność próby dla populacji. Jest to możliwe jedynie poprzez dobór losowy próby (pierwsza zasada randomizacji). Nierespektowanie tej zasady sprawia, że wyciągnięte wnioski obowiązują jedynie w stosunku do pacjentów z danego szpitala, osób należących do określonej grupy wiekowej lub danej płci itd.

Badania oceniające skuteczność nowego leku lub zabiegu leczniczego powinny być przeprowadzane w co najmniej dwóch równoważnych grupach osób w celu sprawdzenia nowego leku w porównaniu ze stosowanym dotychczas (lub z placebo). Decyzja o tym, który lek otrzyma dana osoba, ma być podjęta w sposób losowy (druga zasada randomizacji). Nierespektowanie drugiej zasady randomizacji powoduje, że na różnice między średnimi wartościami zmiennej duży wpływ może mieć czynnik selekcji i w efekcie mogą zostać wyciągnięte błędne wnioski.

2. Założenie o normalności rozkładu zmiennej

Istnieją specjalne testy statystyczne pozwalające ocenić, czy dany rozkład empiryczny jest normalny - zostały one omówione w poprzednim odcinku.

3. Założenie jednorodności wariancji

Do sprawdzenia tego założenia służy test F, test Levene'a lub test Bartletta. W przypadku gdy testy te nie wykazały jednorodności wariancji, należy się posłużyć testem Cohrana i Coxa.

Oprócz powyższych założeń musimy też respektować rodzaj porównania. Testy istotności różnic dzieli się na dwa podzbiory:

testy dla grup niezależnych (czyli dla zmiennych niepowiązanych)
Testy te porównują średnie badanej zmiennej dla dwóch grup o równych lub różnych liczebnościach (zwykle są to grupy kontrolna i eksperymentalna).
testy dla grup zależnych (czyli dla zmiennych powiązanych)
Testy te stosuje się dla porównania średnich danej zmiennej w tej samej grupie, ale badanej dwukrotnie w czasie (np. czas trwania snu przed podaniem leku i po jego zastosowaniu).

W zależności od rozpatrywanego problemu należy więc wybrać odpowiedni test. W tym odcinku omówię testy dla zmiennych niepowiązanych. Rysunek 1. przedstawia algorytm doboru takiego testu.

Jak widać, oprócz wspomnianych wyżej założeń o wyborze testu decyduje też liczebność grupy. W literaturze statystycznej spotyka się wartość 30 jako liczebność graniczną. Wiele testów ma też swoje własne ograniczenia dotyczące minimalnej liczebności porównywanych grup, a niektóre - kilka wariantów dla różnych liczebności grup.

Do dalszych rozważań załóżmy, że obserwowane zmienne mają w dwóch zbiorowościach rozkład normalny; jak postąpić w przeciwnym przypadku - o tym w następnym odcinku.

Obecnie, gdy mamy do dyspozycji komputer, nikt nie przeprowadza weryfikacji hipotez "na piechotę". Korzystamy z różnych pakietów statystycznych (np. BMDP, SAS, SPSS, STATGRAPHICS, STATISTICA), które również "same" dobierają właściwy test w zależności od liczebności próby. Poniżej przedstawię przykładową analizę za pomocą programu STATISTICA, pomijając matematyczną postać poszczególnych testów, oraz najciekawsze interpretacje graficzne otrzymanych wyników.

W programie STATISTICA do testowania różnic między średnimi z dwóch prób niepowiązanych służy opcja "Testy t dla prób niezależnych" (t-test for independent samples) w module "Podstawowe statystyki i tabele". Test z i test t występują w programie STATISTICA pod wspólną nazwą testy t. Program sam dobiera test odpowiedni dla danej liczebności. Test Cohrana i Coxa to w programie STATISTICA test t z oddzielną oceną wariancji.

Dla naszych przykładowych danych (tab. 1) otrzymamy następujący arkusz wyników (rysunek 2.):

Ponumerowane pola w arkuszu wyników (najważniejsze dla interpretacji) oznaczają odpowiednio:

[1], [2] wartości średnie w grupie pierwszej i drugiej
[3] wartość testu t (przy spełnieniu założeń o jednorodności wariancji)
[4] wyliczony przez komputer poziom istotności (significance level).
[5] wartość testu t dla niejednorodnych wariancji (tzw. test Cochrana i Coxa)
[6] komputerowy poziom prawdopodobieństwa testu t dla niejednorodnych wariancji
[7], [8] liczebności grupy pierwszej i drugiej
[9] odchylenie standardowe w grupie pierwszej
[10] odchylenie standardowe w grupie drugiej
[11] wartość testu F sprawdzającego jednorodność wariancji
[12] wyliczony przez komputer poziom istotności testu F dla jednorodności wariancji
[13] wartość testu Levene'a sprawdzającego jednorodność wariancji
[14] wyliczony przez komputer poziom istotności testu Levene'a dla jednorodności wariancji
[15] wartość testu Browna i Forsythe'a, sprawdzającego jednorodność wariancji
[16] komputerowy poziom prawdopodobieństwa testu Browna i Forsythe'a dla jednorodności wariancji

Uwaga: pola [5] i [6] pojawiają się, gdy w oknie "Opcje" (rys. 3) wybraliśmy test t dla niejednorodnych wariancji, pola [13]-[16] zaś wtedy, gdy wybraliśmy test Levene'a oraz test Browna i Forsythe'a dla jednorodności wariancji.

Rys. 3

Jak się nie pogubić w gąszczu otrzymanych wyników? Na co zwrócić szczególną uwagę?

Zaczynamy od sprawdzenia ostatniego założenia, jakie nam pozostało - założenia o jednorodności wariancji. Hipoteza zerowa, którą chcemy zweryfikować, zakłada jednorodność (równość) wariancji. Istnieją 3 testy weryfikujące tę hipotezę - test F, Levene'a oraz test Browna i Forsythe'a. Ten ostatni cieszy się opinią najlepszego. Wyliczone wartości tych testów program wyświetla w polach oznaczonych numerami [11], [13] i [15]. Poziomy istotności związane z tymi testami znajdziemy odpowiednio w polach o numerach [12], [14] i [16]. Jak widać, dla danych z naszego przykładu p dla wszystkich 3 testów przekracza 0,05. Nie ma więc podstaw do odrzucenia hipotezy zerowej o jednorodności wariancji i można przyjąć, że założenie to jest spełnione. W takiej sytuacji wartości odpowiedniego testu t dla jednorodnych wariancji szukamy w polu [3], a odpowiadającego mu poziomu istotności w polu [4]. Wynika z nich, że należy odrzucić hipotezę zerową o równości średnich czasów trwania snu. Tak więc średni czas trwania snu po zażyciu leku A różni się istotnie od średniego czasu snu po zażyciu leku B. Można wnioskować (na podstawie wartości średnich), że lek B jest skuteczniejszy od leku A przy poziomie istotności wynoszącym 0,05, a nawet mniejszym (p = 0,0062).

W przypadku gdy założenie o jednorodności wariancji wartości testu t nie jest spełnione, szukamy tzw. testu Cochrana i Coxa w polu [5], a odpowiadającego mu poziomu istotności p w polu [6].

Rysunek 4. przedstawia graficzną interpretację otrzymanych wyników w postaci tzw. skrzynek z wąsami.

Rys. 4. Wykres "skrzynka z wąsami" - przykład pierwszy

Ta forma graficzna została omówiona w poprzednim odcinku. Kwadracik środkowy reprezentuje wartość średniej, a wąsy wyznaczają 95% przedział ufności danej średniej. Hipotezę o równości średnich można odrzucić, gdy wąsy skrzynek na siebie nie zachodzą (tak jak na tym rysunku).

Jako drugi przykład rozważmy porównanie średniego poziomu salsolinu dla kobiet i mężczyzn chorych na pewna chorobę. W tabeli 2 mamy wyniki pomiarów dla 32 osób.

Salsolin	139,8	118,8	157,5	96,1	99,5	98,9	119,8	230,4	114,7	92,6	123,3
Płeć	K	K	K	M	K	K	M	M	M	K	K
Salsolin	202,0	136,2	140,9	99,0	100,2	141,5	128,6	191,0	105,0	237,9	203,0
Płeć	M	M	K	K	K	K	K	K	K	M	K
Salsolin	300,5	170,1	161,9	179,8	254,0	355,0	397,0	375,0	378,0	252,0	-
Płeć	M	K	K	M	M	M	M	M	M	K	-
K-kobieta, M-mężczyzna

Wyniki testu t dla tych danych pokazuje rysunek 5.

Jak widać (wyniki podkreślone linią), poziomy istotności wszystkich testów sprawdzających jednorodność wariancji przyjmują wartości mniejsze od 0,05. Musimy zatem odrzucić hipotezę zerową o jednorodności wariancji. Ponieważ nie jest spełnione założenie o jednorodności wariancji, bierzemy pod uwagę wartość testu t dla wariancji niejednorodnych (wyniki podkreślone przerywaną linią). Wynika z nich, że poziom istotności przyjmuje wartość p = 0,0079. Możemy więc wnioskować, że występuje istotna różnica pomiędzy średnim poziomem salsolinu u mężczyzn i kobiet. Graficzną interpretację otrzymanych wyników przedstawia rysunek 6.

Rys. 6. Wykres "skrzynka z wąsami" - przykład drugi

Jako ostatni przykład prezentujemy wyniki testu t porównującego liczbę limfocytów w dwóch grupach chorych. Tym razem p wynosi 0,769 (rysunek 7.), nie mamy więc podstaw do odrzucenia hipotezy zerowej o równości średnich.

Otrzymane różnice mogą być wynikiem losowych błędów. Potwierdzają to skrzynki z wąsami na rysunku 8.

Rys. 8. Wykres "skrzynka z wąsami" - przykład trzeci

Kwadraciki reprezentujące wartość średnią są prawie na tym samym poziomie, a przedział ufności (wyznaczony przez wąsy) dla zmiennej LIMFO_I zawiera się w przedziale ufności zmiennej LIMFO_II.

Na zakończenie kilka słów o interpretacji otrzymanych wyników. Ocena testu statystycznego ma na ogół postać zdania: "Na ustalonym poziomie istotności alfa =... hipotezę zerową H₀ ....... odrzucamy lub nie mamy podstaw do jej odrzucenia". Jednak interpretacja wyników otrzymanych po weryfikacji hipotez jest jednym z najtrudniejszych i najważniejszych kroków w analizie statystycznej. Poprawna interpretacja nie może być niezależna od charakteru danych i sposobu ich otrzymywania. "Suche" liczby to za mało. Najlepiej, gdy interpretacji wyników dokonuje lekarz wraz ze statystykiem. Pamiętajmy też, że test statystyczny nie dowodzi prawdziwości czy fałszywości hipotezy. Wynik testu statystycznego mówi jedynie o prawdopodobieństwie prawdziwości hipotezy, i to tylko w powiązaniu z odpowiednio sformułowaną hipotezą alternatywną. Za pomocą testu można albo odrzucić hipotezę zerową, albo też orzec, że wyniki doświadczenia nie przeczą tej hipotezie. Nieodrzucenie hipotezy zerowej nie jest równoznaczne z jej przyjęciem. Różnicę "nieistotną" najlepiej traktować jako "nieudowodnioną". Być może np. zwiększenie liczebności grupy próbnej pokazałoby, że różnica jest jednak istotna. Wynik "negatywny" powinniśmy więc podawać razem z przedziałem ufności. Ostrożnie należy też traktować wyniki z poziomem istotności bliskim 0,05.

WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH NA POZIOMIE ISTOTNOŚCI 

1. Parametryczne testy istotności oparte na dużych próbach (n ≥ 30)

Zbiór krytyczny

1.1. Średnia