background image

Interpretacja tabel 
kontyngencji 

 

Dr hab. inż. Jadwiga Stobiecka 

background image

Etapy wnioskowania statystycznego 

Na piechotę 

 

Wprowadzenie danych 

Sformułowanie hipotezy zerowej 

Sprawdzenie założeń testu 

Obliczenie wartości testu na 

podstawie wyników z próby 

Znajdowanie wartości krytycznych 
z tablic przy ustalonym poziomie 

istotności α 

Podjęcie decyzji o odrzuceniu/lub 
nie hipotezy zerowej przy danym 

poziomie istotności 

Interpretacja wyników 
 
 
 
 

  

Z zastosowaniem programów 

statystycznych 

 

Wprowadzenie danych 

Sformułowanie hipotezy zerowej 

Sprawdzenie założeń testu 

 


 

 

Podjęcie decyzji przy możliwie 
najlepszym poziomie 

wiarygodności hipotezy 
alternatywnej 

Interpretacja wyników 
 
 
 

background image

Analiza tabel zależności 
polega na: 

Ustaleniu czy istnieje zależność 
statystycznie istotna oraz: 

 

Jeśli jest istotna, to należy ustalić, 
jaka jest jej siła. 

background image

Idea komputerowego poziomu 

prawdopodobieństwa 

    

Przy weryfikacji hipotez statystycznych za pomocą programów  

komputerowych   ważne   jest   wprowadzenie   poza   poziomem 
istotności α (ex ante) także poziomu p (ex post). Ten drugi poziom 
istotności   nazywany  jest  komputerowym  poziomem  istotności, 
poziomem  prawdopodobieństwa  lub  też prawdopodobieństwem 
testowym (significance level). 

 

   

Jeżeli  α > p,  to  na  danym  poziomie  istotności  α  odrzucamy 

hipotezę  zerową,  natomiast  jeśli  α < p,  to  na  danym poziomie 
istotności α brak jest podstaw do odrzucenia hipotezy zerowej. 

background image

Weryfikacja hipotez statystycznych 

Hipotezę zerową orzekająca, że cechy X i Y są 
niezależne, możemy zweryfikować testem χ

2

H

0

: cechy X i Y są niezależne 

H

1

cechy X i Y są zależne 

                   

(O 

– E)

2

         

k         p

     

(n

ij

 

– E

ij

)

2

   

χ

2

 

= ∑---------- = ∑  ∑ ---------- 

                       

 E

               

i=1      j=1

         

 E

ij

 

 
gdzie: 

– wartość oczekiwana 

– wartość obserwowana 

background image

Założenia testu χ

Wartość oczekiwana E nie może być 
zerem, bo przez zero się nie dzieli! 

Najkorzystniej jest, gdy wartość 
oczekiwana E 

jest większa od 10. 

Dla małych tabel (20<N<40 lub tabel 
większych, w których występują liczności 
poniżej 5 wprowadza się tzw. poprawkę 
Yatesa 

 

background image

Wybrane współczynniki siły 

związku 

background image

Współczynnik Φ – stosowany 

 

dla tabel małych (2x2) 

   

Współczynnik Φ jest miarą zależności między dwiema 

zmiennymi w tabeli 2x2. 

Jego wartość zmienia się od 0 

(brak zależności między zmiennymi) do 1 (całkowita 
zależność między zmiennymi). 

background image

Współczynnik V Cramera – stosowany 

dla tabel ze zmienną (zmiennymi) 

nominalną 

 

Współczynnik   V  Cramera   jest   miarą   zależności 

pomiędzy dwiema zmiennymi.  Przyjmuje  on  wartość od  0 
(brak zależności między zmiennymi)   do  1.  Im wyższa jest  
wartość   współczynnika,    tym   silniejsze  jest   powiązanie 
między analizowanymi cechami. 

background image

Współczynnik R Spearmana – stosowany 

dla zmiennych porządkowych 

Współczynnik  korelacji  rang    Spearmana   (R)   
można uważać za  zwyczajny  współczynnik  korelacji  
Pearsona z tą  różnicą,  że  wykorzystujemy rangi,  a   nie  
wartości. Stosuje się go wtedy, gdy  dwie zmienne  
mierzone  są na skali porządkowej lub nie posiadają 
rozkładu normalnego. Przyjmuje on wartości z przedziału 
<-1, 1>. Im wartość R jest   bliższa  1  lub  -1,   tym  
silniejsza  jest  analizowana zależność. 

background image

Przykład braku zależności 

background image

Płeć a częstość korzystania z restauracji 

typu fast-food 

PŁEC

 

Nigdy

 

Rzadko

 

Często

 

Wiersz 

ogółem

 

Mężczyzna

 

80

 

190

 

250

 

520

 

Kobieta

 

110

 

200

 

300

 

610

 

Ogółem

 

190

 

390

 

550

 

1130

 

background image

Charakterystyka statystyczna zależności 

Chi-kwadr.  

df  

p  

Chi kwadrat 

Pearsona  

0,2385699  

df=2   p=0,88756  

Współczynnik 

kontyngencji  

0,0458998  

V Cramera  

0,0459482  

background image

Interpretacja danych polega na: 

Ho: Nie ma zależności pomiędzy płcią a 
częstością korzystania z restauracji 
typu fast food (zmienne są niezależne). 
 

1. Postawieniu hipotezy zerowej  
    

o niezależności analizowanych zmiennych 

2. Postawieniu hipotezy alternatywnej 

H1: Istnieje zależność pomiędzy płcią a 
częstością korzystania z restauracji 
typu fast food 

(zmienne są zależne). 

 

background image

 

3.

 

Sprawdzeniu założenia testu, w tym 

przypadku χ2.  

(założenia dla tabeli na 

slajdzie 13 są spełnione, dlaczego?) 

 

4. Porównanie prawdopodobiestwa 

testowego p 

z przyjętym poziomem 

istotności α

 

 

 

Dla p>α  -     nie ma podstaw do odrzucenia 

   

hipotezy zerowej 

Dla p=α -   mamy dylemat – przyjąć czy  

   

odrzucić? 

Dla p<α  -     odrzucamy hipotezę zerową na 

   

rzecz alternatywnej 

 

 
 

background image

5. Podjęciu decyzji o braku podstaw do 

odrzuceniu hipotezy zerowej lub 
odrzucenie hipotezy i przyjęcie 
alternatywnej 

 

 

Niech α=0,01,   

p=0,88756 (tabela na slajdzie 13) 

 
 
Ponieważ  p>α,  nie  ma  podstaw  do  odrzucenia 

hipotezy zerowej o 

niezależności zmiennych. 

background image

   

6. W przypadku odrzucenia hipotezy zerowej, 

wybór właściwego współczynnika do określenia 

siły zależności (w oparciu o wymiar tabeli i 
poziom obu pomiaru zmiennych) 

 

       

W naszym przypadku to koniec zadania. Gdyby 

były podstawy do odrzucenia hipotezy zerowej, 

należałoby jeszcze określić siłę związku w 

oparciu o właściwy współczynnik. W naszym 

przypadku zmienna płeć jest mierzona na skali 

nominalnej, zmienna częstość korzystania z 
restauracji Fast- 

food na skali porządkowej, 

wobec tego moglibyśmy zastosować 

współczynnik V Cramera. 

background image

Zadanie do samodzielnej interpretacji 

background image

Wiek respondenta a czas posiadania  

telefonu komórkowego 

WIEK  

Do roku   1 do 3 lat   Pow. 3 lat   Wiersz  

do 20 lat  

50  

150  

100  

300  

21-30 lat  

140  

610  

160  

910  

31-45 lat  

0  

170  

160  

330  

Ogółem  

1900  

930  

420  

1540  

background image

Wiek respondenta 

 

a czas posiadania telefonu komórkowego

  

(

charakterystyka statystyczna zależności) 

Chi-kwadr.   df  

p  

Chi 
kwadrat 
Pearsona
 

15,82521  

df=4  

p=0,00326  

V Cramera  0,2266728  

R rang 
Spearmana
 

0,1730977   t=2,1668   p=0,03181  

background image

Jeszcze jedno zadanie 

background image

Wiek a znajomość marek rowerów 

(procentowanie do kolumn) 

ZNAJOMOŚĆ

 

MAREK

 

WIEK - 

15_24

 

WIEK - 

25_44

 

WIEK - 

45_64

 

Wiersz 

 

 Razem

 

Liczba

 

NIE ZNA

 

7

 

17

 

28

 

52

 

% z kolumny

 

10,00%

 

17,71%

 

41,18%

 

Liczba

 

SŁABO ZNA

 

18

 

39

 

20

 

77

 

% z kolumny

 

25,71%

 

40,63%

 

29,41%

 

Liczba

 

DOBRZE ZNA

 

45

 

40

 

20

 

105

 

% z kolumny

 

64,29%

 

41,67%

 

29,41%

 

Liczba

 

Ogółem

 

70

 

96

 

68

 

234

 

% z kolumny

 

100%

 

100%

 

100%

 

background image

Wiek a znajomość marek rowerów 

(procentowanie do wierszy) 

ZNAJOMOŚĆ

 

MAREK

 

WIEK 

– 

15-24

 

WIEK 

– 

25-44

 

WIEK 

– 

45-64

 

Wiersz 

 

 Razem

 

Liczba

 

NIE ZNA

 

7

 

17

 

28

 

52

 

% z wiersza

 

13,46%

 

32,69%

 

53,85%

  100% 

Liczba

 

SŁABO ZNA

 

18

 

39

 

20

 

77

 

% z wiersza

 

23,38%

 

50,65%

 

25,97%

  100% 

Liczba

 

DOBRZE ZNA

 

45

 

40

 

20

 

105

 

% z wiersza

 

42,86%

 

38,10%

 

19,05%

  100% 

Liczba

 

70

 

96

 

68

 

234

 

background image

Wiek a znajomość marek rowerów 

(procentowanie do całości) 

ZNAJOMOŚĆ

 

MAREK

 

WIEK - 

15_24

 

WIEK - 

25_44

 

WIEK - 

45_64

 

Wiersz 

 

 Razem

 

Liczba

 

NIE ZNA

 

7

 

17

 

28

 

52

 

% z całości

 

2,99%

 

7,26%

 

11,97%

 

22,22%

 

Liczba

 

SŁABO ZNA

 

18

 

39

 

20

 

77

 

% z całości

 

7,69%

 

16,67%

 

8,55%

 

32,91%

 

Liczba

 

DOBRZE ZNA

 

45

 

40

 

20

 

105

 

% z całości

 

19,23%

 

17,09%

 

8,55%

 

44,87%

 

Liczba

 

70

 

96

 

68

 

234

 

% z całości

 

29,91%

 

41,03%

 

29,06%

 

100%

 

background image

Histogram skategoryzowany 

Skategoryz. histogram: ZNAJ_MAR x WIEK

WIEK

L

ic

z

b

a

 o

b

s

.

ZNAJ_MAR: N_ZNA

15_24

25_44

45_64

0

5

10

15

20

25

30

35

40

45

50

ZNAJ_MAR: S_ZNA

15_24

25_44

45_64

ZNAJ_MAR: D_ZNA

15_24

25_44

45_64

0

5

10

15

20

25

30

35

40

45

50

background image

Wykres interakcji 

Wykres interakcji: ZNAJ_MAR x WIEK

 ZNAJ_MAR

N_ZNA

 ZNAJ_MAR

S_ZNA

 ZNAJ_MAR

D_ZNA

15_24

25_44

45_64

WIEK

0

5

10

15

20

25

30

35

40

45

50

Li

cz

no

śc

i

background image

Interpretacja statystyczna zależności 

Chi-kwadr.

 

df

 

p

 

Chi^2 

Pearsona

 

29,39154

 

df=4

 

p=0,00001

 

Chi^2 NW

 

28,24119

 

df=4

 

p=0,00001

 

V Craméra

 

0,2506042

 

R rang 

Spearmana 

 

-0,317159

 

t=-5,094

 

p=0,00000