background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

1

Analiza współzależności zmiennych mierzalnych 

Korelacja i regresja 

 
Część II 
 
W I części analizy współzależności zajmowaliśmy się badaniem siły i kierunku  
związków między zmiennymi. 
 
Podstawą szacunkowej oceny stopnia i kierunku zależności jest diagram korelacyjny.   
Na podstawie przykładowego diagramu korelacyjnego: (Y– szybkość czytania, X– IQ) 
możemy ocenić, że związek między Y i X jest dodatni i stosunkowo silny. 
 

Diagram korelacyjny 

(Y - szybkość czytania; X - IQ)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

 

Dalsza część analizy zależy właśnie od tego czy związek między Y i X jest słaby czy 
silny.  

•  Jeżeli związek jest słaby, kończymy analizę współzależności badanych 

zmiennych Y i X. Formułujemy stosowny wniosek i rozpoczynamy 
poszukiwanie relacji między Y i inną zmienną 

•  Jeżeli związek jest silny przystępujemy do dalszego etapu analizy, czyli 

szacowania linii regresji 

W jakim celu szacujemy linię regresji i w jaki sposób to robimy? 
Przy silnym związku między zmiennymi łatwo sobie wyobrazić, że między punktami 
przebiega pewna funkcja np. liniowa, która z pewną dokładnością może służyć do 
opisu prawidłowości jaka ma miejsce między Y i X i następnie do prognozy Y na 
podstawie wartości X. 
Opisanie układu punktów nie jest łatwe i nie jest jednoznaczne. Można spróbować 
opisać diagram powyższy diagram korelacyjny.  Prawdopodobnie wersji byłoby tyle, 
ile autorów. Odbiór też byłby różny. 
Ale gdybyśmy założyli,  że udałoby się do tych punktów empirycznych dopasować 
linię, wówczas podając równanie tej linii można opisać relację między Y i X w sposób 
jednoznaczny. 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

2

Diagram korelacyjny 

(Y - szybkość czytania; X - IQ)

Oszacowana linia regresji: 

Y^ = 3,02X - 148,48

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

 

Podsumowując ten fragment: będziemy dążyć do jednoznacznego opisu relacji między 
Y i X przy pomocy równania odpowiedniej funkcji. 
Najczęściej, wstępnie zakładamy, że związek YX jest liniowy i szacujemy parametry 
równania.  
Zakładamy, że relacja między Y i X jest liniowa, czyli : 

Y = aX + b + e  

lub inne oznaczenia  

Y = a

1

X + a

0

 + e 

gdzie: 

a i b parametry równania, w tym: 

a – współczynnik kątowy (parametr przy zmiennej X),  

b – wyraz wolny 
e –składnik losowy 
Parametry równania a i b  są nieznane i możemy jedynie oszacować ich wartość na 
podstawie zebranych danych empirycznych, czyli znaleźć przybliżone wartości, 
odpowiednio: a^ i  b^ . 
Wzory na oszacowanie parametrów a i b metodą najmniejszych kwadratów (MNK): 

=

2

)

(

)

)(

(

ˆ

x

x

y

y

x

x

a

i

i

i

 

x

a

y

b

v

w ˆ

ˆ

=

 

Po oszacowaniu parametrów a i b oszacowaną linię regresji zapiszemy jako: 

 

b

X

a

Y

ˆ

ˆ

ˆ

+

=

        lub inne oznaczenia  

0

1

ˆ

ˆ

ˆ

a

X

a

Y

+

=

 

  

 (S 

aˆ

 )     (S 

bˆ

)        standardowe błędy oszacowania parametrów 

 

        (W 

aˆ

 %)   (W 

bˆ

 %)         względne błędy oszacowania parametrów 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

3

Ocena oszacowania funkcji regresji 
 
1) r

2 

 (kwadrat r) – współczynnik determinacji; przyjmuje wartości od 0 do 1 

 i oznacza % zmienności Y wyjaśniony zmiennością X. 

 
 Np. 

r

2

=0,67 oznacza, że zróżnicowanie Y można w 67% wyjaśnić 

zróżnicowaniem X. 

 
2) 

S(e) 

– Standardowy błąd oszacowania funkcji regresji (modelu) 

 

k

n

y

y

e

S

i

i

=

2

)

ˆ

(

)

(

 

Gdzie k – liczba szacowanych parametrów (dla funkcji liniowej k=2) 

3) 

)

ˆ

(a

S

 - 

Standardowy błąd oszacowania współczynnika kątowego,

 

 

   

(

)

n

x

x

e

S

a

S

i

i

/

)

(

)

ˆ

(

2

2

=

 

4) 

)

ˆ

(b

S

Standardowy błąd oszacowania wyrazu wolnego 

 

(

)

[

]

n

x

x

n

x

e

S

b

S

i

i

i

/

)

(

)

ˆ

(

2

2

2

=

 

 

5) względne błędy oszacowania (w %) 

W(

aˆ

), W(

bˆ

) – względne błędy oszacowania 

aˆ

bˆ

 w % 

%

100

ˆ

)

ˆ

(

)

ˆ

(

a

a

S

a

W

=

 

%

100

ˆ

)

ˆ

(

)

ˆ

(

b

b

S

b

W

=

 

Interpretacja

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

4

Przykład 1.  Oszacować regresję Y względem X (Y – szybkość czytania i X – iloraz 
inteligencji (IQ).  

lp 

x

i

 

y

i

 

x

i

   

y

i

 -    (x

i

 - )*( y

i

 - )

(x

i

 - )

2

    ( y

i

 - )

2

 

1 80 

120 

-27

-55

1485

729 

3025

2 92 

140 

-15

-35

525

225 

1225

3 90 

100 

-17

-75

1275

289 

5625

4 109 

170 2

-5

-10

4  25

5 100 

130 -7

-45

315

49 

2025

6 105 

190 -2

15

-30

4 225

7 110 

220 3

45

135

2025

8 110 

140 3

-35

-105

1225

9 115 

180 8

5

40

64  25

10 120 

240 13

65

845

169 4225

11 123 

200 16

25

400

256  625

12 130 

270 23

95

2185

529 9025

Suma 1284 2100 X 

7060

2336  29300

Średnia X= 107    Średnia Y= 175 

02

,

3

2336

7060

)

(

)

)(

(

ˆ

2

=

=

=

x

x

y

y

x

x

a

i

i

i

 

x

a

y

b

v

w ˆ

ˆ

=

     

= 175 – 3,02 x 107 = - 148,14 

Oszacowane równanie: 


Y = 3,02X – 148,14  (np. x=115  y=203 

 
Błędy oszacowania 
S(

aˆ

)=0,58 S(

bˆ

)=63,0 

W(

aˆ

)=0,58/3,02*100%= 19,2% 

W(

bˆ

)=63/148,14*100%=42,5% 

Współczynnik determinacji 
r

2

 = 0,73 

 

aˆ

- oznacza tempo wzrostu/spadku funkcji, czyli odpowiada na pytanie o ile 

wzrośnie (zmniejszy się Y) jeśli X wzrośnie o 1. 
 
Interpretacja:  
Związek między Y i X jest silny i dodatni, co oznacza, że osoby o wyższym IQ 
szybciej czytają. Współczynnik determinacji 0,73 oznacza, że zróżnicowanie 
szybkości czytania można w 73% wyjaśnić zróżnicowaniem IQ. 
 

aˆ

= 3,02 oznacza,  że zwiększenie IQ o 1 (większy IQ o 1) powoduje zwiększenie 

szybkości czytania o 3. 
 
Wykres oszacowanej funkcji:  
wyznaczamy 2 punkty, x1= … i y1= …  oraz x2=… i y2= … (patrz diagram korelat.) 

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

5

Szacowanie funkcji regresji (parametrów funkcji regresji) w arkuszu Excel. 
 
1. wprowadzamy dane w kolumny X Y 
2. w zakładce Narzędzia 

>Analiza danych, a następnie   >Regresja 

>Zaznaczenie zakresu Y, X oraz miejsca na wynik (opcje wyjścia) 
 
Otrzymujemy wynik: 

PODSUMOWANIE - WYJŚCIE 

 

 

 

 

 

 

 

 

 

 

 

Statystyki regresji 

 

 

 

 

 

Wielokrotność R 

0,853364 

 

 

 

 

 

R kwadrat 

0,728231 

 

 

 

 

 

Dopasowany R 
kwadrat 

0,701054  

 

 

 

 

Błąd standardowy 

28,21851  

 

 

 

 

Obserwacje 

12  

 

 

 

 

 

 

 

 

 

 

 

ANALIZA WARIANCJI 

 

 

 

 

 

  

df 

SS 

MS 

Istotność F   

Regresja 

1 21337,16

21337,16 26,79591 0,000415191 

 

Resztkowy 

10 7962,842

796,2842  

 

 

Razem 

11 

29300   

  

  

 

 

 

 

 

 

 

 

  

Współczynniki 

Błąd 

standardowy

Obliczenia własne 

 

Względne błędy 

oszacowania 

 

 

 

Przecięcie -148,382 

63,00029

42,45822

 

X 3,02226 

0,583845

19,31816

 

 

 

 

 

 

 

 

 

Przecięcie

 oznacza wyraz wolny w równaniu regresji 

X

 oznacza współczynnik kątowy 

 
Czyli oszacowana wartość wyrazu wolnego wynosi – 148,4,  
a oszacowana wartość współczynnika kątowego wynosi +3,02. 
 
A zatem oszacowane równanie regresji: 

b

X

a

Y

ˆ

ˆ

ˆ

+

=

to: 

Yˆ

 = 3,02 X – 148,4 

błędy standardowe       

(0,58)           (63,0) 

błędy względne 

          [29,3%]       [42,4%] 

 
Interpretacja: 

aˆ

= 3,02 oznacza, że jeśli X (czyli iloraz IQ) zwiększy się o 1, to Y (szybkość  czytania)   

zwiększy się o 3,02. 

bˆ

 =  -148,4 nie ma tu rozsądnej interpretacji, gdyż dosłownie oznacza wartość Y, gdy X = 0. 

A trudno mówić o realnej sytuacji gdy iloraz IQ jest równy 0. W takim przypadku nie 
interpretujemy 

bˆ

background image

Materiały dydaktyczne dla studentów IPSiR UW                                                                                              © Beata Gruszczyńska  

 

6

Wykres oszacowanej linii regresji 
 
Wykorzystujemy diagram korelacyjny i na nim wykreślamy oszacowaną linię regresji. 
Do wykreślenia linii wystarczą dwa punkty. 
 
Te dwa punkty uzyskujemy przyjmując dwie dowolne wartości X i obliczając z równania 
odpowiadają im dwie wartości Y. 
 
np. 
 
X

1

 = 100, wtedy 

Yˆ

1

 =  3,02 x 100 – 148,4 = 153,6,  

X

2

= 120, wtedy 

Yˆ

2

 = 3,02 x 120 – 148,4 = 214, 

 
czyli  
pierwszy punkt ma współrzędne (100; 153,6), 
drugi punkt ma współrzędne ( 120; 214), 
a linia regresji (odcinek linii)  znajduje się na wykresie. 
 

Diagram korelacyjny 

(Y - szybkość czytania; X - IQ)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140