Skale pomiarowe

G. Wieczorkowska & J. Wierzbiński (2005)

2.6. Testowanie hipotez

Wiemy już, że informacja o tym, że liczba pochodzi z rozkładu normalnego o znanej

średniej i o odchyleniu standardowym, pozwala nam na określanie prawdopodobieństw. Znając
średnią oraz odchylenie standardowe tego rozkładu i korzystając z tablic, możemy określić, jaki

procent populacji będzie miał wynik w danym przedziale. Ten procent populacji przekłada się na
odpowiedź na pytanie o prawdopodobieństwo, że wylosowana osoba otrzyma wynik z danego

przedziału.

Odpowiadanie na pytanie, jakie jest prawdopodobieństwo otrzymania danego wyniku,

jest jedną z najczęstszych aktywności osób zajmujących się statystyką. Statystyka niczego nie
wyklucza, ale wylicza prawdopodobieństwa otrzymania określonego wyniku. Przeanalizujmy sposób

wnioskowania zastosowany przez Krystynę.

Gdy wypełniłam test mierzący szybkość czytania, okazało się, że mój wynik to 140 słów na

minutę. Otrzymałam informację, że wyniki w tym teście mają rozkład normalny o średniej 200 słów na
minutę i odchyleniu standardowym 20 [N(200, 20), rys. 2.6 - diagram A1]. Oznacza to, że mój wynik
plasuje mnie na bardzo skrajnej pozycji, ponieważ jeśli wystandaryzuję ten wynik, czyli od 140 odejmę

200, a następnie podzielę przez 20, okaże się, że mój wynik odpowiada z = - 3. W rozkładzie
normalnym 95% przypadków mieści się w granicach dwóch odchyleń standardowych – poniżej i

powyżej średniej. Jeżeli otrzymałam wynik z = - 3, oznacza to, że jestem niesłychanie unikalną osobą,
należę do bardzo małej frakcji osób w populacji. Jak to możliwe? Może tekst był napisany w obcym

języku? Jeżeli jednak był napisany w języku dobrze mi znanym, może wypełniałam go z przerwami –
robiłam w między czasie makijaż albo poszłam się czegoś napić? Jeżeli jednak jestem pewna, że nic

takiego nie miało miejsca, mogę podejrzewać, że informacja mówiąca, że wyniki tego testu pochodzą
z rozkładu normalnego o średniej 200 i odchyleniu standardowym 20, jest nieprawdziwa. Biorąc pod

uwagę liczbę lat, jaką spędziłam w ławach szkolnych, stwierdzenie, że należę do tak „elitarnej” grupy
(tak wolno czytającej w porównaniu z resztą populacji), wydaje się być mało prawdopodobnym. Mam

więc silne podstawy do kwestionowania informacji, że średnia w populacji wynosi 200. Jeżeli
dowiem się, że średnia w populacji wynosi 150 [N(150, 20), rys. 2.6 - diagram A2], uzyskany przeze

mnie wynik (140) oznaczać będzie1/2 odchylenia standardowego poniżej średniej. Nadal nie jest
to wynik, który by mnie satysfakcjonował, ale należę już do dość licznej grupy osób. Tym samym

prawdopodobieństwo otrzymania takiego wyniku wcale nie jest niskie, a co za tym idzie - nie mam
podstaw do kwestionowania założenia, że średnia w populacji to 150.

G. Wieczorkowska & J. Wierzbiński (2005)

Rozkład zmiennej SZYBKOŚĆ CZYTANIA w populacji

N(200, 20)
Diagram A1

N(150, 20)
Diagram A2

200

180

220

150

140

160

180

200

130

110

-1 -0.5 0

0.5

1.5

2.5

-2

Rozkład średnich z prób 16-osobowych

N(200, 5)
Diagram B1

N(150, 5)
Diagram B2

Rys. 2.6. Rozkład zmiennej SZYBKOŚĆ CZYTANIA w populacji (diagramy A1 i A2) i rozkład średnich

z prób 16-osobowych (diagramy B1 i B2)

150

140

160

170

120

-2

-4

200

190

210

220

180

-2

-4

240

260

160

140

240

-3

-1

-2

G. Wieczorkowska & J. Wierzbiński (2005)

Należy zwrócić uwagę na sposób wnioskowania. Krystyna założyła, że otrzymana informacja

o parametrach rozkładu (rozkład normalny o znanej średniej i odchyleniu standardowym) jest
prawdziwa – i, wykorzystując tablice rozkładu normalnego, określiła, jak bardzo prawdopodobne jest

otrzymanie jej wyniku. Dla rozkładu normalnego wyniki, dla których z>1,96 lub z<-1,96 można określić
jako mało prawdopodobne, ponieważ prawdopodobieństwo ich otrzymania jest mniejsze niż 0,05.

Wartość progowa p=0,05, która służy oddzielaniu wyników prawdopodobnych od mało
prawdopodobnych, jest wynikiem umowy społecznej. W niektórych przypadkach próg ten jest

ustalony wyżej, na p=0,01 lub p=0,001. Wynik empiryczny jest rzeczą stałą, czyli nie można go
zmienić bez powtarzania badań, natomiast można zmieniać hipotezy (założenia, dla których

wyliczamy rozkład). W przytoczonym przykładzie Krystyna zmieniła założenia (hipotezy) – pierwsza
hipoteza mówiła, że średnia w populacji wynosi 200 słów na minutę, druga – że 150. Biorąc pod

uwagę swój wynik, uznała, że pierwsza hipoteza jest fałszywa. Nie miała jednak podstaw, aby
odrzucić drugą hipotezę - mówiącą, że średnia w populacji wynosi 150 słów na minutę, ponieważ jej

wynik należał do grupy wyników typowych (-1<z<1). Aby odrzucić założenie, że µ=200, jej wynik
w teście powinien być większy niż 239 lub mniejszy niż 189. Aby odrzucić założenie, że µ=150, jej

wynik w teście powinien być większy niż 160 lub mniejszy niż 110.

N(200, 20)

N(150, 20)

z>1,96

X >239,2

X >189,2

z<-1,96

X <160,8

X <110,8

Powtórzmy: hipotezę odrzucamy, gdy otrzymany przez nas wynik należy do zbioru wyników

mało prawdopodobnych. Należy pamiętać, że to, otrzymanie jakich wyników uznamy jako mało
prawdopodobne, zależy nie tylko od ustalonego progu prawdopodobieństwa (0,05 czy też np. 0,001),

ale także od hipotezy (założenia, na podstawie którego wyliczamy prawdopodobieństwa).

Hipotezy zerowe, które poddajemy testowi, muszą być precyzyjnie sformułowane. Gdyby

hipoteza była sformułowana nieprecyzyjnie, np.: „Średnia w populacji jest większa od 160”, nie
moglibyśmy wyliczyć prawdopodobieństw. W tabeli poniżej mamy kilka przykładów par precyzyjnie

sformułowanych hipotez zerowych i hipotez badawczych, które badacz chciałby potwierdzić.

Hipoteza badawcza (to, czego chcielibyśmy
dowieść)

Hipoteza zerowa, wykorzystywana do
wyliczania prawdopodobieństw

Uczeni przez nas studenci nie pochodzą z populacji o
średniej równej 200.

[μ ≠ 200]

Uczeni przez nas studenci pochodzą
z populacji o średniej równej 200.

[μ = 200]

Kwiatki w jednej doniczce są wyższe od kwiatków w
doniczce drugiej.

Kwiatki w obu doniczkach pochodzą z tej
samej populacji (różnica w wysokości między

kwiatkami jest nieistotna statystycznie).

Kobiety mają wyższy poziom empatii niż mężczyźni.

Kobiety i mężczyźni nie różnią się w poziomie

empatii (pochodzą z populacji o tej samej
średniej).

Naświetlanie kwiatków promieniami A powoduje ich

wzrost.

Średni przyrost wysokości naświetlanych

kwiatków wynosi w określonej populacji zero.

Istnieje dodatnia korelacja między ilością wypijanej
zielonej herbaty a poziomem energii.

Korelacja między ilością wypijanej zielonej
herbaty a poziomem energii wynosi w

populacji zero.

2.7. Testowanie hipotezy dotyczącej średniej w grupie

G. Wieczorkowska & J. Wierzbiński (2005)

Jak pisaliśmy w pierwszym rozdziale, nie mając klonów do badań, w naukach społecznych

posługujemy się zbiorowymi klonami, czyli badamy różnice między grupami. Testowane hipotezy
dotyczą populacji, z których pochodzą te grupy, a nie samych grup.

Jeżeli chcemy sprawdzić szybkość czytania grupy naszych studentów, musimy poprosić ich o

przeprowadzenie testu, któremu poddała się Krystyna, a następnie policzyć średnią w badanej grupie.

Podstawowe pytanie - z czym możemy porównać taką średnią? Liczba 150 może być wynikiem
pojedynczej osoby lub średnim wynikiem 20-osobowej grupy osób. Choć pozornie liczba wygląda tak

samo, to nie można porównywać średnich z grupy wyników z wynikiem pojedynczych osób. Te liczby
pochodzą z różnych rozkładów. Dzięki pracy matematyków wiemy, z jakiego rozkładu pochodzi

średnia arytmetyczna.

Średnią z grupy wyników porównujemy

z rozkładem średnich

ze wszystkich możliwych prób o danej liczebności.

Szczęśliwie dla nas matematycy udowodnili bardzo ważne twierdzenie, które mówi, że

rozkład średnich z dużych prób jest rozkładem normalnym. Ma on średnią równą średniej
w populacji, a jego odchylenie standardowe zależy od odchylenia standardowego zmiennej

i wielkości badanej próby.

Odchylenie standardowe rozkładu średnich jest dla nas bardzo ważną informacją, więc

otrzymało specjalną nazwę - nazywa się je błędem standardowym średniej. Aby go obliczyć,
wystarczy podzielić odchylenie standardowe zmiennej przez pierwiastek kwadratowy z liczebności

próby. W naszym przykładzie odchylenie standardowe zmiennej wynosiło 20, a więc błąd
standardowy średniej dla próby 16-osobowej wyniesie: 20/√16=5 (porównaj diagram A1 i B1 oraz A2

i B2 – rys. 2.6). Gdyby próba była 100-elementowa, błąd standardowy średniej wyniósłby: 20/√100=2.
Jest to zgodne z tym, co podpowiada intuicja - nie można porównywać średniej z próby 100-

elementowej ze średnią z próby 10-elementowej.

Zauważmy, że średnie są skupione wokół średniej swojego rozkładu dużo bardziej niż wyniki

pojedynczych osób. Wynik 140, uzyskany w teście czytania przez pojedynczą osobę [N(150,20)],
oznacza z=-1/2 (rys. 2.6. - diagram A2). Średnia dla 16-osobowej grupy, wynosząca w tym samym

teście M=140 [N(150,5)], oznacza z

=-2 (rys. 2.6. - diagram B2).

Powtórzmy: Rozkład średnich ma tę samą średnią, co rozkład zmiennej w populacji, ale

mniejsze odchylenie standardowe. Znając rozkład średnich, możemy określić, jakie wyniki
musielibyśmy otrzymać w badaniu, aby były mało prawdopodobne - przy założeniu o prawdziwości

hipotezy zerowej. Sposób wnioskowania jest analogiczny jak poprzednio. Zakładamy, że wylosowana
próba pochodzi z populacji o znanej średniej, a następnie patrzymy, czy wynik grupy (średnia) należy

do zbioru wyników mało prawdopodobnych - przy założeniu, że hipoteza zerowa jest prawdziwa, czy
też należy do wyników prawdopodobnych. Jeżeli otrzymujemy wynik, który należy do zbioru wyników

mało prawdopodobnych, mamy podstawy do odrzucenia naszego założenia (hipotezy zerowej).
Postępujemy analogicznie, czyli jak wtedy, gdy uznaliśmy, że wynik w teście czytania Krystyny (równy

trzem odchyleniom standardowym poniżej średniej) podważa założenie, które przyjęliśmy jako
prawdziwe, obliczając jej wynik standaryzowany. Gdy oceniamy średnią grupy, postępujemy tak

samo. Jeżeli otrzymujemy wynik należący do klasy wyników mało prawdopodobnych - przy założeniu

prawdziwości hipotezy zerowej, odrzucamy hipotezę zerową (uznajemy ją za fałszywą).

Warto zauważyć, że hipoteza zerowa (założenie używane do wyliczania prawdopodobieństw)

jest przeciwstawna do hipotezy, którą chcemy potwierdzić. Jeżeli chcemy stwierdzić, że nasi studenci
czytają szybciej niż populacja, zakładamy, że pochodzą z populacji o średniej równej 200 (μ = 200),

Aby zapoznać się ze sposobem wyliczania rozkładu średnich dla małej populacji, należy sięgnąć do literatury

[20].

G. Wieczorkowska & J. Wierzbiński (2005)

przy tym założeniu przeliczamy średnią w grupie studentów na z-ty - i sprawdzamy, czy otrzymana

wartość z

należy do wyników mało prawdopodobnych, czy też nie.

Struktura dowodzenia statystycznego jest podobna do „dowodzenia nie wprost”. Chcemy

wykazać, że studenci pochodzą z populacji μ ≠ 200, więc zakładamy, że prawdziwe jest
przeciwieństwo tego, co chcemy pokazać, czyli μ = 200. Stosując klasyczne wnioskowanie „nie

wprost”, powinniśmy doprowadzić do sprzeczności. W przypadku wnioskowania statystycznego nie
doprowadzamy do sprzeczności, ale wykazujemy, że otrzymany wynik jest mało prawdopodobny, co

pozwala na odrzucenie hipotezy zerowej i staje się „dowodem” – nie wprost – prawdziwości zdania
zapisanego w hipotezie badawczej, które chcieliśmy potwierdzić.

Jeżeli wyliczone prawdopodobieństwa pozwalają na odrzucenie hipotezy zerowej (są

mniejsze od 0,05), mówimy, że otrzymaliśmy wyniki istotne statystycznie. Jeżeli nie mamy podstaw

do odrzucenia hipotezy zerowej, mówimy, że wyniki tego badania są nieistotne statystycznie.

2.8. Testowanie istotności różnicy między dwiema niezależnymi grupami

wyników

Aby porównywać średnie pochodzące z dwóch małych grup, wyliczamy według podanego

wzoru wartość t. Wzór na t wymaga wprowadzenia informacji o charakterystykach dwóch zbadanych

prób (średnich: M

, M

i odchyleniach standardowych: s

, s

Nie wchodząc w szczegóły - ważne dla

nas jest to, że statystyka t ma znany rozkład, dzięki któremu możemy określić prawdopodobieństwo

otrzymywania różnych średnich w badaniach, tak jak robiliśmy to poprzednio. Pokażemy to na
przykładzie porównywania wysokości kwiatków w dwóch doniczkach (rysunki 2.7

i 2.8).

Zauważyliśmy, że kwiatki posadzone w doniczce lewej są niższe (M

=200) niż kwiatki

w doniczce prawej (M

=330). Testowana hipoteza zerowa mówi, że kwiatki w obu doniczkach

pochodzą z populacji o tej samej średniej wysokości. Mierząc wysokości kwiatków w obu doniczkach,

możemy wyliczyć statystykę t. Aby otrzymany wynik, wyliczony na podstawie różnicy średnich

kwiatków
z doniczki lewej i prawej, można było uznać jako nieprawdopodobny (p<0,05), wartość bezwzględna

t musi być większa niż 2,179 (tę wartość odczytujemy z tablic rozkładu statystyki t, analogicznie jak to
robiliśmy w przypadku rozkładu normalnego). Wynik nieprawdopodobny pozwala nam na odrzucenie

hipotezy zerowej mówiącej o braku różnic w wysokości kwiatków w populacji - i nazywany jest
wynikiem istotnym statystycznie. Wyniki, które nie pozwalają na odrzucenie hipotezy zerowej,

określane są jako nieistotne statystycznie.

Na rysunkach poniżej możemy zobaczyć, że wartość t zależy nie tylko od różnicy średnich,

ale i od różnicy wariancji w doniczkach.

Wzór na t różni się w zależności od tego, czy odchylenia standardowe w badanych próbach są równe czy nie, ale różnice

w wielkości t są nieznaczne, dlatego pominiemy je tutaj.

G. Wieczorkowska & J. Wierzbiński (2005)

Rys. 2.7. Porównanie wysokości kwiatków w obu

doniczkach. Wartości statystyk wynoszą:
t

=4,12 t

=3,72 r=-0,22

Rys. 2.8. Porównanie wysokości kwiatków w obu

doniczkach. Wartości statystyk wynoszą:
t

=1,76 t

=3,33 r=0,76

Różnicę średnich (wynoszącą 130) między kwiatkami przedstawionymi na rysunku 2.7

uznamy za istotną statystycznie, bo t

=4,12 >2,179.

Różnicę średnich (wynoszącą 130) między kwiatkami przedstawionymi na rysunku 2.8

uznamy za nieistotną statystycznie, bo t

=1,76 <2,179.

2.9. Testowanie istotności różnicy między dwiema zależnymi grupami wyników

Różnicę między średnimi będziemy liczyć inaczej, jeżeli wyniki w obu grupach pochodzą od

tych samych osób - w takiej sytuacji naprawdę mamy do czynienia z parami wyników. To, że średnia

zamożność społeczeństwa po zmianie systemowej wzrosła, może być wynikiem tego, że prawie
wszyscy wzbogacili się - ale może też być konsekwencją tego, że tylko niektórzy bardzo się

wzbogacili, a reszta zubożała. Jeżeli kwiatki z prawej doniczki przedstawiają te same kwiatki, co
w doniczce lewej - po np. naświetlaniu, to dla każdego kwiatka możemy policzyć jego zmianę

wysokości i zastosować wzór na t dla prób zależnych (t

z).

Abyśmy mogli uznać różnicę między

wysokością kwiatków przed i po naświetlaniu za mało prawdopodobną (gdy hipoteza zerowa zakłada

brak różnic), wartość bezwzględna wyliczonego t

musi być większa niż 2,447.

Na rysunku 2.8 różnica między kwiatkami jest nieistotna statystycznie - jeżeli wiemy, że

kwiatki pochodzą z dwóch niezależnych prób, ale byłaby istotna, gdyby doniczka z prawej
przedstawiała kwiatki z lewej doniczki, np. po intensywnym naświetlaniu. W takim wypadku

moglibyśmy policzyć współczynnik korelacji miedzy wysokością kwiatków przed i po naświetlaniu. Dla
kwiatków na rysunku 2.8 współczynnik korelacji jest dodatni i wynosi 0,76.

Może się jednak okazać, że współczynnik korelacji jest ujemny - jak na rysunku 2.9, gdzie r=-

0,79. Oznacza to, że mimo tego, że po naświetlaniu średnia wzrosła z 200 do 330, to jednak kwiatki

duże przed naświetlaniem teraz zmarniały, gdy tymczasem małe urosły. Na rysunku 2.10 korelacja
między wysokością kwiatków przed i po naświetlaniem jest „zerowa” (r=0,06).

G. Wieczorkowska & J. Wierzbiński (2005)

Rysunek 2.9. Porównanie wysokości kwiatków w
obu doniczkach. Wartości statystyk wynoszą:

=-2,41 t

=-1,9 r=-0,79

Rysunek 2.10. Porównanie wysokości kwiatków
w obu doniczkach. Wartości statystyk wynoszą:

=1,92 t

=-1,98 r=0,06

Podsumowując - ta sama różnica średnich może okazać się istotna lub nieistotna

statystycznie. Zależy to od zróżnicowania w grupach oraz tego, czy porównywane średnie dotyczą

tych samych (dane zależne/ pary wyników) czy różnych (dane niezależne) obiektów. Choć analizy
danych wykonywane są przy użyciu pakietów statystycznych, dla tych Czytelników, którzy lubią

oglądać wzory, zestawiliśmy je dla wykorzystywanych w tym rozdziale statystyk (tabela 2.8). Rozkład
statystyki t Studenta (nazwanej od pseudonimu matematyka, który go opisał) zależy od liczebności

próby, co jest podawane w postaci wartości df

Tab. 2.8. Wzory na obliczanie statystyk wykorzystywanych w tym rozdziale

t

dla prób niezależnych

dla prób zależnych

r-współczynnik korelacji

dla prób o równych
liczebnościach

−

df = 2(n – 1),
gdzie:
n – liczebność każdej z prób
M

, M

średnie w

poszczególnych grupach
s

, s

- odchylenia

standardowe w
poszczególnych grupach

dla każdej osoby tworzymy zmienną
D=│X 1-X 2│, następnie liczymy średnią

i jej odchylenie standardowe

df = n-1
n- liczba par wyników
gdzie:

- średnia różnica

– odchylenie standardowe różnic

– błąd standardowy różnicy

−

gdzie:

n- liczba par wyników

oznacza sumę

iloczynów wyników
standaryzowanych

Te proste przykłady miały unaocznić, że wnioskowanie statystyczne opiera się zawsze na

tych samych zasadach. Na podstawie wyników empirycznych wyliczamy - według podanego wzoru -
jakąś wartość (statystykę), która dzięki pracy matematyków ma znany rozkład. Na podstawie

znajomości rozkładu, zakładając prawdziwość sformułowanej przez badacza hipotezy zerowej,
wyliczamy prawdopodobieństwo otrzymania naszych wyników. Jeżeli to prawdopodobieństwo jest

O interpretacji stopni swobody (df) można przeczytać w literaturze

[20].