background image

Regresja i korelacja

(

materiał z internetu do wykorzystania jako powtórzenie

)

materiały dydaktyczne

background image

Regresja liniowa

W  populacji  generalnej  rozważamy  dwie  zmienne  X  i  Y  takie,  że  zmienna 

losowa  Y ma rozkład normalny z parametrami 

μ = m(x) i σ = σ

y/x

 

zaś zmienna X jest zmienną rzeczywistą (lub losową).

Wartość  oczekiwana  zmiennej  losowej  Y    jest  funkcją  liniową  zmiennej  X 

postaci:

m(x) = b + ax.

Wariancja σ

2y/x

 oznacza, że zmienność cechy Y jest niezależna  od zmiennej X 

(jest stała).

background image

Estymacja parametrów modelu

Nieznane parametry modelu 

y = b +ax 

muszą być estymowane na podstawie odpowiedniej próby losowej. 
Zagadnienie estymacji parametrów modelu sprowadza się do takiego 
dobrania  parametrów  aby  suma  kwadratów  odległości  każdego 
punktu empirycznego od prostej regresji była jak najmniejsza.

background image

Estymacja parametrów modelu

gdzie (y

i

, x

i

) oznacza elementy próby losowej. 

background image

Estymacja parametrów modelu 

Każdą obserwację empiryczną można zapisać jako:

y

i

 = b + a·x

i

 +

i

.

Problem estymacji sprowadza się do wyznaczenia minium funkcji danej 
wzorem.

n

i

i

i

n

i

i

x

a

b

y

b

a

s

1

2

1

2

)

(

)

,

(

background image

Estymacja parametrów modelu

Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć 

minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s 

względem obu niewiadomych:

i przyrównać te pochodne do zera.

n

i

i

i

i

a

n

i

i

i

b

x

a

b

y

x

s

x

a

b

y

s

1

1

)

(

2

'

)

(

2

'

background image

Otrzymujemy układ równań postaci:



0

)

ˆ

ˆ

(

0

)

ˆ

ˆ

(

1

1

n

i

i

i

i

n

i

i

i

x

a

b

y

x

x

a

b

y

x

xy

x

x

x

x

y

y

a

n

i

i

n

i

i

i

var

cov

)

(

)

)(

(

ˆ

1

2

1

x

a

y

b

ˆ

ˆ

Estymacja parametrów modelu

Rozwiązując mamy:

background image

Istotność równania regresji

Istotność wyestymowanego równania regresji badamy weryfikując 
hipotezę zerową

H

0

 : a = 0       wobec    H

1

 : a ≠ 0

Przy prawdziwości H

0

  statystyka:

ma rozkład t Studenta z liczbą stopni swobody równej n - 2. Wyrażenie   
        jest oszacowaniem wariancji odchyleń od regresji z próby:

x

s

a

s

a

t

x

y

b

var

ˆ

ˆ

2

/

ˆ

s

y x

/

2

2

cov

ˆ

var

ˆ

2

/

2

/

n

xy

a

y

s

x

y

x

y

background image

Istotność współczynnika regresji

Jeżeli |t| > t

kryt

, to H

: a = 0 odrzucamy jako statystycznie mało 

prawdopodobną i mówimy o istotności wyznaczonego równania 

regresji.

Jeśli nie to  wyniki próby nie przeczą hipotezie H

0

 i  funkcja regresji 

jest stała.

Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna 

zależna y przy wzroście zmiennej x o jednostkę.

background image

Dopasowanie prostej regresji

Odchylenie obserwowanej wartości od jej średniej  można zapisać 

następująco:

 

y y

y y

y y

i

i

i

i

Pierwszy  składnik  to  część  całkowitego  odchylenia  zmiennej  y,  która 

jest  wyjaśniona  regresją  liniową    y    względem  x,  drugi  składnik  to 

część zmienności całkowitej, która nie została wyjaśniona regresją.

background image

Współczynnik determinacji

Wyrażenie to nazywamy współczynnikiem determinacji.

r

2

 <0; 1>

Informuje on o tym, 

jaka część zmienności całkowitej zmiennej losowej Y została 

wyjaśniona regresją liniową względem X.

y y

y y

y y

i

i

n

i

i

n

i

i

i

n

2

1

2

1

2

1

y

xy

a

y

y

y

y

r

n

i

i

n

i

i

var

cov

ˆ

ˆ

1

2

1

2

2

background image

Jeżeli  między  zmiennymi  Y  i  X  istnieje  pełna  zależność,  to  wszystkie 
punkty empiryczne leżą na prostej, reszty są zerowe, a r

= 1.

W przypadku braku zależności (a = 0) funkcja regresji jest stała           
                   i r

= 0.

background image

-3

-2

-1

0

1

2

3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

-t

n,

t

n,

/2

/2

1-

Z tablic rozkładu Studenta odczytujemy, dla wcześniej przyjętego 
poziomu istotności  , wartość krytyczną t

n-2,

. Jeżeli obliczona wartość 

t znajduje w dwustronnym obszarze krytycznym (-, - t

n-2,

), (t

n-2,

+), to H

0

 należy odrzucić na korzyść hipotezy H

1

 

background image

Weryfikacja hipotezy o istotności 

regresji

n

i

i

R

y

y

SS

1

2

ˆ

SS

y y

y

T

i

i

n

2

1

var

Zmiennoś
ć

df

SS

M.S

F

emp

.

F

Regresji

1

MS

R

F

R

Odchyleń

n-2

SS

E

MS

E

F

,1,n-2

Całkowita n-1

Weryfikacji hipotezy o istotności regresji testem F 
Fishera-Snedecora.

 Analiza wariancji ma postać

background image

Predykcja na podstawie regresji 

liniowej

Model regresji można wykorzystać do przewidywania wartości które 

przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej 

X

Jest to zagadnienie predykcji lub prognozowania.

Niestety, im wartość x, dla której dokonujemy predykcji jest bardziej 

odległa od średniej z próby tym mniejsza dokładność prognozy.

background image
background image

Przedział ufności dla wartości z 

modelu

Dla regresji liniowej statystyka:

ma rozkład t Studenta z liczbą stopni swobody n - 2.
Na tej podstawie możemy wyznaczyć przedział ufności dla wartości z modelu:

t

m x

m x

S

m x

 ( )

( )

 ( )

 

S

t

x

m

S

t

x

m

x

m

x

m

n

x

m

n



)

(

ˆ

2

,

)

(

ˆ

2

,

)

(

ˆ

;

)

(

ˆ

)

(

background image

Współczynnik korelacji

Miarą  siły  związku  między  zmiennymi  losowymi  jest  współczynnik  korelacji 

Empiryczny  współczynnik  korelacji  r  ma  wszystkie  własności  określone  dla 
współczynnika korelacji 

.

Współczynnik korelacji określa także kierunek zależności.

r = 1

r = -1

y

x

xy

S

S

S

y

x

xy

background image

Kwadrat 

współczynnika 

korelacji 

próby 

nazywany 

jest 

współczynnikiem determinacji i jest on, drugim poza współczynnikiem 
korelacji miernikiem siły związku między zmiennymi
Interpretacja  współczynnika  determinacji  –  podaje  on  w  jakiej  części 
zmienność jednej cechy jest wyjaśniona przez drugą cechę.

background image

Weryfikacja hipotezy o istotności 

korelacji

Założymy,  że  rozkład  zmiennych  losowych  Y  i  X  w  populacji  generalnej  jest 

normalny.  Na  podstawie  n  -  elementowej  próby  chcemy  zweryfikować 

hipotezę, że zmienne te są liniowo niezależne:

wobec           

Jeżeli H

0

 jest prawdziwa, to statystyka:

ma rozkład t Studenta z liczbą stopni swobody v = n – 2.
Hipoteza  o  istotności  korelacji  może  być  także  zweryfikowana  poprzez 

porównanie wyznaczonego współczynnika z próby z wartościami 
krytycznymi współczynnika korelacji wielokrotnej Pearsona.

H

0

0

:

H

1

0

:

t

r

r

n

1

2

2

1

,

,

k

n

k

R

r

background image

Regresja wielokrotna liniowa

Dotychczas rozpatrywaliśmy tylko dwie zmienne: Y i X

Częściej mamy do czynienia z przypadkami w których jest zmienna 
losową Y oraz k zmiennych X (stałych lub losowych).

Y N m x

x

k

y x

x

k

~ ( ( ,..., ),

)

/ ,...,

1

1

k

k

k

x

b

x

b

b

x

x

m

y

1

1

0

1

)

,...

(

background image

Współczynniki modelu b

1

, ..., b

k

 będziemy nazywać 

cząstkowymi współczynnikami regresji.

y

b bx

b x

e

j

j

k kj

j

 



0

1 1

Kryterium estymacji : należy tak dobrać parametry modelu, aby suma 
kwadratów odchyleń od modelu była jak najmniejsza:

s

e

y b bx

b x

j

j

j

j

k kj

j

 

2

0

1 1

2

min

background image

Badanie istotności regresji 

wielokrotnej

Hipotezę o nieistotności regresji wielokrotnej 
możemy zapisać jako: 

jej weryfikacja testem F Fishera-Snedecora.
Tabela analizy wariancji ma postać:
Zmienność         d.f         SS          MS         Femp.     
  F

Regresji

    k     SS

R

        MS

R

         F

R

Odchyleń            n-k-1    SS

E

        MS

E

Całkowita            n-1       SS

T

H b b

b

k

0

1

2

0

:   

F

k n k

, ,   1

background image

Sumy kwadratów odchyleń  i średnie kwadraty 
potrzebne do zweryfikowania hipotezy o 
istotności regresji mogą być wyznaczone z niżej 
podanych wzorów.

SS

y

T

var

SS

b

x y MS

SS

k

R

i

i

i

R

R

 cov

SS

y

b

x y

MS

SS

n k

E

i

i

E

E

i

 

var

 cov

1

background image

Hipotezę
                                     

      

H b b

b

k

0

1

2

0

:   

F

F

R

k n k

 

, ,

1

Odrzucenie hipotezy H

0

 jest równoznaczne z tym, że 

co najmniej jeden współczynnik regresji jest różny od zera;

tzn. istnieje związek funkcyjny liniowy między zmienną zależną a 

zmiennymi niezależnymi.

Problem statystyczny

które zmienne niezależne powinny pozostać w modelu 

regresji.

odrzucamy 

gdy                  

                  

Badanie istotności regresji 

wielokrotnej 

background image

Weryfikacja hipotez o istotności 

cząstkowych współczynników regresji

Problem sprowadza się do zweryfikowania serii k 
hipotez zerowych mówiących o tym, że i-ty cząstkowy 
współczynnik regresji jest równy zero.

Hipotezy te mogą być weryfikowane testem t-Studenta

background image

          Weryfikacja hipotez 

Wyrażenie

jest oszacowaniem średniego kwadratu odchyleń od 
regresji.
Przy prawdziwości hipotez zerowych tak określone 
statystyki mają rozkład  t-Studenta z liczbą stopni 
swobody równą n-k-1

H b

i

0

0

: 

s

y

b

x y

n k

y x

x

i

i

i

k

/ ,...

var

 cov

1

2

1

 

background image

Hipotezę                      

będziemy odrzucać, jeżeli wartość statystyki t znajdzie się w obszarze 
krytycznym.
 
Jeżeli zmienne niezależne są z sobą powiązane 
to oceny istotności cząstkowych współczynników regresji nie 
są niezależne
.

0

:

0

i

b

H

background image

Problem doboru zmiennych

W przypadku istnienia silnych współzależności między zmiennymi 

niezależnymi analizując funkcję regresji wielokrotnej dochodzimy do 

wniosku, że jest ona istotna statystycznie (testem F). 

Weryfikując dalej hipotezy o istotności cząstkowych współczynników 

uzyskujemy wartości testu t Studenta, które nie przeczą hipotezom 

zerowym

 Czyli mamy istotną funkcję regresji ale wszystkie zmienne (analizowane 

oddzielnie) są nieistotne, powinny więc być usunięte z modelu.

Zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, 

a następnie kolejno usuwamy z modelu tę zmienną niezależną, której 

rola w opisywaniu zależności między zmienną Y a zmiennymi 

niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji 

krokowej.

background image

Regresja krokowa

Algorytm postępowania:

1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych 

niezależnych. Estymujemy model i wyznaczamy

2. Wyznaczamy wektor wartości empirycznych statystyk t dla 

hipotez 

  

                 .
3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą 

wartość empiryczną statystyki t (co do wartości bezwzglednej) i 

ponownie estymujemy model. 

Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie 

pozostaną tylko zmienne istotne.

R

s

y x

x

k

2

2

1

oraz

/ ,...,

H b

i

0

0

: 

background image

W trakcie wykonywania regresji krokowej powinniśmy obserwować 

zmiany wartości współczynnika determinacji jak i średniego kwadratu 

błędu. 

 

Postępowanie ma doprowadzić do

 

maksymalizacji wartości współczynnika 

maksymalizacji wartości współczynnika 

determin

determin

a

a

cji

cji 

przy 

jednoczesnej minimalizacji średniego kwadratu 

jednoczesnej minimalizacji średniego kwadratu 

błędu

błędu

.

.

background image

Miarą stopnia dopasowania modelu jest korelacja wielokrotna R lub jej 
kwadrat (współczynnik determinacji D).

Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak 
największego współczynnika determinacji (korelacji), ale przy 
możliwie małym średnim kwadracie odchyleń od regresji:

R

b

x y

y

i

i

i

 cov

var

D R

2

s

y

b

x y

n k

y x

x

i

i

i

k

/ ,...

var

 cov

1

2

1

 

Ocena dopasowania modelu

background image

Regresja wielomianowa 

(krzywoliniowa)

W wielu przypadkach interesuje nas nieliniowy związek między 

zmienną Y a zmienną X, np.:

background image

Linearyzacja modelu regresji 

wielomianowej

 

Przykład modelu nieliniowego z dwoma zmiennymi niezależnymi:

2

1

5

2

2

4

2

3

2

1

2

1

1

0

x

x

b

x

b

x

b

x

b

x

b

b

y

background image

Wnioskowanie dla regresji 

wielokrotnej

Współczynniki regresji:

 i-ty, cząstkowy współczynnik regresji opisuje o ile średnio 
zmieni się wartość zmiennej Y przy wzroście i-tej wartości 
zmiennej X o jednostkę  przy ustalonych wartościach 
pozostałych zmiennych niezależnych.

W przypadku większości modeli regresji krzywoliniowej 

taka interpretracja nie jest możliwa

background image

Funkcje wielomianowe

Model regresji wielomianowej dwóch zmiennych niezależnych jest 

postaci:

Etap pierwszy - Wyznaczanie funkcji regresji dla jednej zmiennej 

niezależnej tzn. zmienna Y jest funkcją tylko jednej zmiennej 

niezależnej, np. 

2

1

5

2

2

4

2

1

3

2

2

1

1

0

x

x

a

x

a

x

a

x

a

x

a

a

y

2

1

2

1

1

0

20

2

1

)

(

x

b

x

b

b

x

x

x

y

2

2

2

2

1

0

10

1

2

)

(

x

a

x

a

a

x

x

x

y

background image

Problemy z estymacją funkcji regresji

Estymacja funkcji regresji jest zagadniem trudnym ponieważ:

1. Brak jest pewności, że zbiór analizowanych zmiennych 

niezależnych jest pełny.

2.   Typ funkcji regresji nie jest znany dlatego pojawia się problem 

doboru kształtu funkcji regresji i zestawu zmiennych 

niezależnych.

3.   W wielu sytuacjach można uzyskać porównywalną „dobroć 

dopasowania modelu”, współczynnik korelacji lub R

2

, dla różnych 

typów funkcji regresji i zestawów zmiennych niezależnych. 


Document Outline