background image

Test χ

2

  (test niezależności dwóch zmiennych nominalnych) 

 
Mamy dwie zmienne nominalne: X o w-kategoriach wartości i Y o k-kategoriach wartości.  
Dane z n-elementowej próby mają postać dwudzielnej tablicy frekwencji (o w wierszach i k 
kolumnach). Przy założeniu, że X i Y są niezależne w populacji, prawdopodobieństwo jednoczesnej 
realizacji kategorii ‘i’ zmiennej X oraz kategorii ‘j’ zmiennej Y (dla i = 1,2…w, j = 1,2…,k) 
wynosi:  

P

ij

 = P(X = i, Y = j) = P(X=i)*P(Y=j). 

 
Zatem każdej parze kategorii zmiennej (X, Y), poza frekwencją otrzymaną w badaniu (f

o

) można 

przyporządkować frekwencję oczekiwaną (f

e

) przy założeniu, że hipoteza zerowa jest prawdziwa.  

 
 
ProblemCzy w populacji młodzieży akademickiej istnieje zależność pomiędzy zadowoleniem z 
własnych osiągnięć a  umiejscowieniem poczucia kontroli?   
Mamy dwie zmienne nominalne, każda z ma dwie kategorie: zadowolenie z własnych osiągnięć → 
zadowolony i niezadowolony; umiejscowienie poczucia kontroli → zewnątrzsterowni i 
wewnątrzsterowni. Zależność pomiędzy zmiennymi nominalnymi nazywamy kontyngencją.  
 
H

0

: zadowolenie z osiągnięć i umiejscowienie kontroli są niezależne  

H

1

: ~H

0

 
Zbadaliśmy n = 200 osób, a ich wyniki rozłożyły się w następujący sposób w tabeli o liczbie 
wierszy w = 2 i liczbie kolumn k = 2, czyli w tabeli 2x2, czteropolowej:  
 

 Zadow. 

Niezadow. 

Σ 

Zewnątrz  

       a

(40) 

30 

b

(40) 

50 

 

a+b

 = 80 

Wewnątrz 

c

(60) 

70 

d

(60) 

50 

 

c+d

 = 120 

Σ  

a+c

100 

b+d

100 

n = 200 

 
 
Weryfikacja hipotezy zerowej: porównanie frekwencji oczekiwanych (f

e

) i otrzymanych (f

o

).  

 
Jak wyglądałyby frekwencje w poszczególnych kratkach, gdyby zmienne były niezależne – czyli 
gdyby była prawdziwa hipoteza zerowa.  
 
W tym celu obliczamy frekwencje oczekiwane – f

e

  dla każdej kratki w tabeli: 

 

n

kratki

danej

dla

brzegowych

sum

iloczyn

f

i

e

_

_

_

_

_

=

 

 
A następnie sprawdzamy, na ile frekwencje otrzymane w badaniu  różnią się od  frekwencji 
oczekiwanych przy braku zależności pomiędzy zmiennymi. Dla każdej kratki w tabeli obliczamy 
kwadratowe odległości pomiędzy frekwencjami otrzymanymi (f

o

) i oczekiwanymi (fe), 

zrelatywizowane do wielkości frekwencji oczekiwanej (żeby nie nadważyć dużych kategorii).  
 

background image

=

=

k

i

ei

ei

oi

f

f

f

1

2

2

)

(

χ

 

 
 
Dla naszego przykładu:  
 

34

,

8

67

,

1

67

,

1

5

,

2

5

,

2

60

)

60

50

(

60

)

60

70

(

40

)

40

50

(

40

)

40

30

(

2

2

2

2

2

=

+

+

+

=

+

+

+

=

χ

 

 
Otrzymaną wartość porównujemy z wartością krytyczną dla danych stopni swobody:  

df = (w-1) · (k-1) 

gdzie k – liczba kolumn, w – liczba wierszy w tabeli (stopnie swobody zależą więc od ilości 
poziomów zmiennych – ilości kratek w tabeli dwudzielnej).  
 
Jeżeli 

Æ H

2

,

2

df

α

χ

χ

>

0

 odrzucamy (przy przyjętym poziomie istotności 

α) 

Jeżeli 

Æ nie ma podstaw do odrzucenia H

2

,

2

df

α

χ

χ

0

 
W naszym przykładzie:  
 
df = (2-1) · (2-1) = 1  
 
Wartość krytyczna testu χ

2

 dla α = 0,05 wynosi 3,841 (

) (por. tabela C w podręczniku 

F& T: wartości krytyczne chi-kwadrat). 

841

,

3

2

3

,

05

,

0

=

χ

 
8,34 > od wartości krytycznej Æ H

0

 odrzucamy.  

W populacji młodzieży akademickiej istnieje związek pomiędzy umiejscowieniem poczucia 
kontroli a zadowoleniem z własnych osiągnięć.  
 
Względem jakiego rozkładu porównujemy wartość statystyki chi-kwadrat? 
 

ZMIENNA O ROZKŁADZIE χ

2

 
Weźmy k zmiennych losowych, z

1

, z

2

, z

3

, … z

k

. Każda z nich ma rozkład normalny o średniej 

równej zero i odchyleniu standardowym równym 1 (zmienne normalne wystandaryzowane: Z

i

 Æ 

N(0; 1)). Niech zmienne te będą nieskorelowane. Rozkład zmiennej Y

(k)

 będącej sumą kwadratów k 

zmiennych z

i

 nazywamy rozkładem χ

2

 o k stopniach swobody. Każdą zmienną mającą taki rozkład 

będziemy nazywać zmienną o rozkładzie χ

2

 i k stopniach swobody.  

Y

(k)

 = 

 

=

k

i

i

z

1

2

 
Przebieg funkcji gęstości prawdopodobieństwa zmiennej o takim rozkładzie zależy tylko od 
jednego parametru – liczby stopni swobody k; μ = k, σ

2

 = 2k. Funkcja gęstości rozkładu χ

2

 jest 

bardzo asymetryczna dla małych wartości k. W miarę wzrostu k asymetria rozkładu maleje i 
rozkład chi-kwadrat upadania się do rozkładu normalnego (w praktyce dla k > 30 dystrybuanta 
zmiennej o rozkładzie χ

2

 jest dostatecznie podobna do dystrybuanty zmiennej o odpowiednim 

rozkładzie normalnym, by je utożsamić i traktować jedną jako przybliżenie drugiej). 
Statystyka testu χ

2

 ma asymptotyczny rozkład χ

2

 z df = (w-1) · (k-1) – co oznacza, że w miarę 

wzrostu n, rozkład statystyki testu zbliża się do rozkładu χ

2

, im n większe, tym większa bliskość. 

 

background image

Testem chi-kwadrat weryfikujemy hipotezę zerową o niezależności dwóch zmiennych 
nominalnych. W przypadku odrzucenia H

0

 możemy ocenić siłę tej zależności przy pomocy 

współczynników kontyngencji.  
 

MIARY  KONTYNGENCJI 

 
Współczynnik kontyngencji dla tabeli 2x2 (czteropolowej)  – współczynnik φ – Yule’a  
 
Jest to pierwiastek z ilorazu danej wartości chi-kwadrat przez maksymalne chi-kwadrat, które dla 
tabeli 2x2 wynosi tyle, ile n. 
 

n

2

2

max

2

χ

χ

χ

ϕ

=

=

 

 
Tak obliczony współczynnik przyjmuje wartości z zakresu <0;1>.  
 
Dla naszego przykładu:  

204

,

0

200

3

,

8

=

=

ϕ

 

 
Współczynnik kontyngencji φ jest tożsamy z współczynnikiem korelacji r-Pearsona. Zatem także  
przypadku dychotomicznych skal nominalnych możemy operować pojęciem zróżnicowania 
wyjaśnionego i niewyjaśnionego. 
φ

2

 – część całkowitego zróżnicowania zmiennej Y wyjaśniona przez zmienność zmiennej X  

(dla naszego przykładu φ

2

 = (0,204)

2

 = 0,04; 4% zmienności X jest wyjaśniona przez Y). φ Yule’a 

osiąga wartość max = 1 tylko gdy rozkłady brzegowe frekwencji odpowiadają sobie, czyli gdy 
niezerowe frekwencje układają się na jednej z przekątnych tabeli (na drugiej mamy zera), co zdarza 
się niezwykle rzadko, mimo tego NIE KORYGUJEMY WARTOŚCI φ, gdyż poprawka 
utrudnia interpretację wskaźnika 
(poprawka jest niewrażliwa na różnice rozkładów zmiennych). 
 
Współczynnik kontyngencji dla wszystkich innych tabel – współczynnik C-Pearsona  
 

n

C

+

=

2

2

χ

χ

 

 

Przyjmuje wartości z zakresu <0;1>, ale z definicji NIE OSIĄGA 1!!! 

 
Z tego powodu wartość współczynnika C-Pearsona musi być ZAWSZE KORYGOWANA
 

MAX

MAX

KOR

C

n

C

C

C

+

=

=

2

2

χ

χ

 

 
 
χ

2

 max dla tabeli k x k (ilość kolumn = ilość wierszy; k ≥ 3) = (k-1)n , czyli n.p.: dla tabeli 3x3 Æ 

max χ

2

 = 2nÆ Cmax = 

n

n

n

+

2

2

n

n

3

2

=

3

2

= 0,816; dla tabeli 4x4 Æ max χ

2

 = 3nÆ Cmax = 

background image

n

n

n

+

3

3

n

n

4

3

=

4

3

= 0,866; itd. Gdy tabela jest prostokątna (w ≠ k), C

MAX

 = [C

MAX

 (k x k) + 

C

MAX

 (w x w)] / 2, np.: dla tabeli 3 x 4, C

MAX

 = (0,816 + 0,866) / 2 = 1,682 / 2 = 0,841.