background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

Analiza współzależności zmiennych mierzalnych 

Korelacja i regresja 

 
Część I 
 
Celem analizy współzależności jest badanie związków między zmiennymi 
mierzalnymi i prognozowanie jednych zmiennych za pomocą innych zmiennych. 
 
Analiza współzależności między zmiennymi to badanie zbiorowości statystycznej ze 
względu na dwie lub więcej zmiennych jednocześnie. Zakładamy,  że wszystkie 
zmienne są mierzalne.  
 
Warto podkreślić,  że terminy współzależność lub współwystępowanie  są tu bardzo 
zasadne. Należy wyraźnie odróżniać współzależność od zależności, która kojarzy się z 
zależnością przyczynowo-skutkową. Statystyka koncentruje się na badaniu liczbowym 
związku między zmiennymi, natomiast natura związku, jej przyczynowo-skutkowy 
charakter należy ustalać w oparciu o wiedzę, teorię w danej dziedzinie wiedzy 
socjologii, psychologii, kryminologii itp.  
 
Umownie, dla ułatwienia będziemy mówić o zmiennej Y – zależna, a o zmiennej X 
jako niezależna, ale nie w rozumieniu zależności przyczynowo-skutkowej. Lepszym, 
„zgrabniejszym” określeniem dla zmiennej Y jest – zmienna objaśniana, a dla 
zmiennej X – objaśniająca.    
 
O współzależności w uproszczeniu mówimy zależność, lecz nie oznacza to związku 
przyczynowo-skutkowego. 
 
Korelacja pozorna – oznacza przypadkowe współwystępowanie zmiennych Y i X, 
które nie ma potwierdzenia w naturze związku. Przykład: Y – liczba urodzeń i X – 
liczba przylatujących bocianów. W interpretacjach związków należy uważać, aby nie 
wpaść w pułapkę korelacji pozornych. 

Zależność funkcyjna i zależność statystyczna  

Zależność funkcyjna, funkcja matematyczna jest to jednoznaczne przyporządkowanie 
wartościom jednego zbioru wartości drugiego zbioru [według pewnego przepisu f]. 
 
Zależność funkcyjna przedstawia się następująco: y = f(x) 
 
Np. y=2x+4 (funkcja liniowa) oznacza, że gdy x=4 to y=12, a gdy x=10 to y=24.  
 
Zależność (współzależność) statystyczna nie jest jednoznaczna. Dotyczy zmiennych 
empirycznych i związku empirycznego. Mówimy o prawidłowościach (najczęściej 
występujących tendencjach), i mogą pojawić się wyjątki (stąd zależność nie 
jednoznaczna).     

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

Zależność statystyczną między zmiennymi Y i X przedstawiamy jako:  

Y= f (Xe

 

gdzie: 

 

 

Y - zmienna objaśniana, 
X - zmienna objaśniająca, 
e – składnik losowy, który reprezentuje wpływ na Y czynników losowych oraz innych 
zmiennych objaśniających, nie uwzględnionych w modelu. 
  
Y – może być np. wynik testu z logiki (musi być mierzalne), a X – liczba godzin nauki.  
 
W ogólnym podejściu możemy przyjąć, że zmienna Y (objaśniająca) jest współzależna 
z wieloma zmiennymi objaśniającymi: X1, X2, ….Xk, co możemy zapisać jako:  
  
Y= f (X1, X2, …., Xke
 
Uwzględnienie wielu zmiennych jest domeną analizy wielowymiarowej, w której 
obserwujemy wpływ zmiennych objaśniających na zmienną objaśnianą, a także 
wzajemną zależność zmiennych objaśniających. 
 
W analizie związków empirycznych (statystycznych) wskazujemy na prawidłowości 
współwystępowania zmiennych np. Y i X (przeciętny trend) oraz rozbieżności od 
prawidłowości (rozrzut punktów empirycznych). 

Współwystępowanie tych dwóch zmiennych Y i X przedstawiamy na wykresie 
zwanym  diagramem korelacyjnym, w którym na osi X – poziomej (odciętych) 
przedstawiamy zmienną niezależną (objaśniającą), a na osi rzędnych Y – pionowej 
(rzędnych) zmienną zależną (objaśnianą). 

Przykład 1. Związek między dwiema zmiennymi: Y – szybkość czytania i X – iloraz 
inteligencji (IQ): 

Diagram korelacyjny: 
 

Diagram korelacyjny 

(Y - szybkość czytania; X - IQ)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

 

Inne przykłady 
współzależności:  
 
1) X cena produktu A; 
Y popyt na produkt A 
 
2) X ilość spożywanych 
kalorii; Y – waga 
 
3) X liczba godzin treningu; 
Y sprawność   

 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

Elementy korelacji i regresji 
 
Korelacja 

•  Mówi o tym jaki jest kierunek związku Y i X 

•  Mówi o tym jaka jest siła związku Y i X 

 
Warto podkreślić,  że  siła związku jest domeną wyłącznie  związków statystycznych
Ta charakterystyka – siła nie występuję w przypadku związków matematycznych, które 
są jednoznaczne.  
 
Regresja 

•  Mówi o tym jaki jest kierunek związku 

•  Mówi o tym jaki jest kształt 

 
Kierunek związku może być dodatni lub ujemny.  

Związek między Y i X jest dodatni, jeśli rosnącym wartością zmiennej X odpowiadają 
rosnące wartości zmiennej Y. 

Współzależność dodatnia

0

50

100

150

200

250

300

0

50

100

150

 

 

 

Związek między Y i X jest ujemny jeśli rosnącym wartością zmiennej X odpowiadają 
malejące wartości zmiennej Y. 

Współzależność ujemna

0

50

100

150

200

250

300

0

50

100

150

 

 

UWAGA: proszę podać 
przykłady zmiennych, 
między którymi zachodzi 
współzależność ujemna 

Y – zmienna objaśniana: 

………………………….. 

X – zmienna objaśniająca 

……………………………

UWAGA: proszę podać 
przykłady zmiennych, 
między którymi zachodzi 
współzależność dodatnia 

Y – zmienna objaśniana: 

………………………….. 

X – zmienna objaśniająca 
 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

 

Siła współzależności może być duża i mała.  

Jeśli punkty skupione są np. blisko linii – oznacza to silną współzależność. Jeśli punkty 
empiryczne są bardzo rozproszone – związek określamy jako słaby. 

 
Przykład związku silnego i ujemnego: 
 

Współzależność silna (ujemna)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

160

 

 
Przykład związku słabego i ujemnego: 
 
 

Współzależność słaba (ujemna)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

160

 

 
 
Kształt związku: współzależność może mieć kształt liniowy lub nieliniowy 
(logarytmiczny, wykładniczy itp.). 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

   

Współczynnik korelacji liniowej Pearsona 

 
Do określenia siły korelacji stosuje się współczynnik korelacji liniowej Pearsona r, 
który oblicza się według wzoru: 

=

2

2

)

(

)

(

)

)(

(

y

y

x

x

y

y

x

x

r

i

i

i

i

  

Współczynnik korelacji Pearsona mierzy siłę zależności tylko w przypadku 
współzależności liniowej. 

Właściwości współczynnika r Pearsona
 
1. Współczynnik przyjmuje wartości od -1 do +1, 

czyli:  -1 ≤  r ≤ 1 

  
2. Wartość współczynnika korelacji określa siłę i kierunek współzależności  
 

 
a) moduł r (

I

r

I

) – określa siłę współzależności 

b) znak (+ –) – określa kierunek związku  

 
3. Interpretacja siły współzależności: 
 

a)  r=0: brak związku między zmiennymi YX 
b)  r= –1 lub r=+1: związek funkcyjny („najsilniejszy”) 
c) 

I

r

I

 bliskie 1: związek między YX silny 

d) 

I

r

I

 bliskie 0:  związek słaby   

 
4. Współczynnik korelacji r Pearsona ma własność symetryczności,  

czyli: 

r

yx

 = r

xy

 

oznacza to, że siła zależności między Y i X jest taka sama jak między X i Y. 
 
5. Kwadrat r (r

2

) określa się mianem współczynnika determinacji i oznacza % 

zmienności Y wyjaśniony zmiennością X. 
 Np. 

r

2

=0,67 oznacza, że zróżnicowanie Y można w 67% wyjaśnić 

zróżnicowaniem X. 

 
 
 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                       © Beata Gruszczyńska  

 

Przykład 1.   

Obliczyć współczynnik korelacji między Y i X (Y – szybkość czytania i X – iloraz 
inteligencji (IQ).  

lp 

x

i

 

y

i

 

x

i

   

y

i

 -    (x

i

 - )*( y

i

 - )

(x

i

 - )

2

    ( y

i

 - )

2

 

1 80 

120 

-27

-55

1485

729 

3025

2 92 

140 

-15

-35

525

225 

1225

3 90 

100 

-17

-75

1275

289 

5625

4 109 

170 2

-5

-10

4  25

5 100 

130 -7

-45

315

49 

2025

6 105 

190 -2

15

-30

4 225

7 110 

220 

3

45

135

2025

8 110 

140 

3

-35

-105

1225

9 115 

180 8

5

40

64  25

10 120 

240 13

65

845

169 

4225

11 123 

200 

16

25

400

256 

625

12 130 

270 23

95

2185

529 9025

Suma 

 

1284 2100 

X X 

7060

2336 

29300

Średnia X= 107  Średnia Y= 175 
UWAGA: Proszę uzupełnić pola zacienione w tabeli!  

85

,

0

*

)

(

)

(

)

)(

(

29300

2336

7060

.

..........

..........

..........

.

..........

..........

.

..........

..........

2

2

=

=

=

y

y

x

x

y

y

x

x

r

i

i

i

i

 

 
r

2

 = 0,73 – Współczynnik determinacji 

 
Interpretacja:  
Związek między Y i X jest silny i dodatni, co oznacza, że osoby o wyższym IQ szybciej 

czytają. Współczynnik determinacji 0,73 oznacza, że zróżnicowanie szybkości czytania 

można w 73% wyjaśnić zróżnicowaniem IQ. 

Wykres – diagram korelacyjny 

Diagram korelacyjny 

(Y - szybkość czytania; X - IQ)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

 

Oś X – IQ 
Oś Y – Szybkość czytania