background image

Analiza regresji

marcin.mazurek@wat.edu.pl 2009

background image

Regresja wieloraka

Regresja wielokrotna (ang. multiple regression)

Więcej niż jedna zmienna objaśniająca

Liniowe równanie regresji wielorakiej przedstawiającej zależność zmiennej Y  
od zmiennych objaśniających X

1

, X

2

 , .. X

 

 

...

Y

X

X

X

α

α

α

α

ε

=

+

+

+

+

+  

marcin.mazurek@wat.edu.pl 2009

0

1

1

2

2

...

m

m

Y

X

X

X

α

α

α

α

ε

=

+

+

+

+

+  

 
gdzie:  
 
Y  

 

 

zmienna zależna, objaśniana przez dane równanie  

X

1

, X

2

 , .. X

m

    

zmienne objaśniające  

α

0

α

1,

 .. 

α

    

parametry, zwane współczynnikami regresji  

ε   

 

 

składnik losowy przypadkowy.  

 

background image

Założenia dla modelu regresji

Model jest liniowy względem parametrów

Zmienna objaśniająca jest nielosowa, jej wartości są 
ustalonymi liczbami rzeczywistymi

Składnik losowy ma rozkład normalny o wartości 
oczekiwanej równej 0 

Składnik losowy jest sferyczny

marcin.mazurek@wat.edu.pl 2009

Składnik losowy jest sferyczny

Nie występuje autokorelacja 
Jest homoskedastyczny (wariancja jest stała niezależnie od 
wartości  wektora zmiennych objaśniających X)

background image

Próba

Próba składa się z n obserwacji dokonanych na zmiennych 

 

Y , X

1

,  X

2

 , ... X

m

.  

0

11

12

1

1

1

1

2

21

22

2

2

2

1

2

1

...

1

...

,

,

,

...

...

...

...

1

...

m

m

n

n

n

n

nm

m

x x

x

y

y

x

x

x

y

x x

x

α

ε

α

ε

α

ε

α

 

 

 

=

=

=

=

 

 

 

y

X

α

ε

 

gdzie: 

marcin.mazurek@wat.edu.pl 2009

gdzie: 

y  

 wektor zaobserwowanych wartości zmiennej zależnej Y 

X  

 macierz, której pierwszą kolumnę tworzą jedynki, a pozostałe kolumny to wartości 

zmiennych objaśniających  

α

α

α

α  

wektor nieznanych wartości parametrów regresji  

εεεε  

wektor składników losowych równania 

Równanie regresji:  

y =Xα

α

α

α + εεεε 

 

background image

Parametry modelu regresji

Parametry funkcji regresji szacujemy metodą 
najmniejszych kwadratów.  
 

e

α

X

y

+

=

ˆ

,  

 
gdzie e oznacza wektor reszt.  

 
Wektor estymatorów parametrów  
modelu regresji:  

(

)

0

1

1

2

ˆ

ˆ

ˆ

ˆ

T

T

α
α
α

=

=

α

X X

X y

 

marcin.mazurek@wat.edu.pl 2009

gdzie e oznacza wektor reszt.  
 

y

y

e

ˆ

=

 

Wartości teoretyczne wyznaczone na podstawie modelu:  

α

X

y

ˆ

ˆ

=

 

 

...

ˆ

m

α

background image

Zmienność zmiennej celu

Suma kwadratów

Ź

ródło

zmienności

Stopnie
swobody 

Ś

redni kwadrat

SSE 

(sum of squares error)

• Suma kwadratów błędu
oszacowania 
• Suma kwadratów błędów
•Zmienność niewyjaśniona

Błąd
losowy

n-m-1

MSE 

(mean square error)

SSR

(sum of squares regression)
•Regresyjna suma 

Regresja

m

MSR

(mean square regression)

(

)

2

ˆ

SSE

y y

=

(

)

2

ˆ

SSR

y y

=

1

SSE

MSE

n m

=

SSR

MSR

m

=

marcin.mazurek@wat.edu.pl 2009

•Regresyjna suma 
kwadratów
•Suma kwadratów odchyleń 
regresyjnych 
•Zmienność wyjaśniona

SST  = SSE + SSR 

(sum of squares total)

Całkowita suma kwadratów 

Odchylenie
całkowite

n-1

(

)

ˆy y

(

)

2

SST

y y

=

2

SSR

R

SST

=

Współczynnik determinacji: 

Statystyka F:

MSR

F

MSE

=

background image

Oszacowanie dopasowania modelu

 

•  wariancja składnika resztowego (wariancja resztowa) oraz odchylenie 

standardowe składnika resztowego 

2

(

1)

T

S

n

m

=

+

e e

 

•  współczynnik zmienności resztowej 

y

S

V

=

 

marcin.mazurek@wat.edu.pl 2009

y

•  współczynnik zbieżności  

2

2

)

(

1

y

1

y

y

e

e

T

T

T

n

=

ϕ

 

•  Kwadrat współczynnika korelacji wielorakiej (współczynnik determinacji) 

2

2

1

ϕ

=

R

 

•  Odchylenia standardowe estymatorów parametrów modelu regresji 

 
 

background image

Model regresji z jedną zmienną objaśniającą

Dla modelu regresji liniowej i m=1 (jedna zmienna objaśniająca) odpowiednie wzory 
macierzowe przyjmują postać :  

(

)(

)

(

)

x

x

y

y

x

x

n

i

n

i

i

i

2

1

1

ˆ

α

=

=

 

marcin.mazurek@wat.edu.pl 2009

(

)

x

y

x

x

i

i

1

0

1

ˆ

ˆ

α

α

=

=

 

 
 
 
 

0

1

ˆ

ˆ

ˆ

i

i

y

x

α

α

=

+

 

 
Wariancja resztowa:  

(

)

2

ˆ

1

2

=

=

n

y

y

S

n

i

i

 

 
 
 

background image

Miary dopasowania modelu

 
Błędy standardowe oszacowania parametrów modelu 
regresji (odchylenia standardowe dla estymatorów): 

(

)

(

)

1

0

2

1

ˆ

ˆ

2

2

1

1

n

i

i

n

n

i

i

i

i

S

x

S

S

S

x

x

n

x

x

α

α

=

=

=

=

=

 

 
Kwadrat współczynnika korelacji wielorakiej:  

(

)

2

2

2

1

ˆ

1

n

i

i

y

y

R

ϕ

=

=

= −

 

marcin.mazurek@wat.edu.pl 2009

(

)

2

2

1

2

1

1

i

n

i

i

R

y

y

ϕ

=

=

=

= −

 

 
Współczynnik zbieżności:  

(

)

(

)

2

2

1

2

1

ˆ

n

i

i

i

n

i

i

y

y

y

y

ϕ

=

=

=

 

background image

Przykład 

Badając zależność pomiędzy nakładami na reklamę w mediach a poziomem sprzedaży otrzymano dla wybranej losowo próby 
produktów tego samego typu n=7 zestawienia (x – nakłady na reklamę, y- sprzedaż):

x

i

1

2

3

4

5

6

7

y

i

8

13

14

17

18

20

22

x

i

 

y

i

 

(

)

x

x

i

 

(

)

y

y

i

 

(

)(

)

y

y

x

x

i

i

 

(

)

2

x

x

i

 

i

yˆ

 

i

i

i

y

y

e

ˆ

=

 

2

i

e

 

2

i

x

 

-3 

-8 

24 

9,58 

-1,58 

2,50 

marcin.mazurek@wat.edu.pl 2009

-3 

-8 

24 

9,58 

-1,58 

2,50 

13 

-2 

-3 

11,72 

1,28 

1,64 

14 

-1 

-2 

13,86 

0,14 

0,02 

17 

16 

1,00 

16 

18 

18,14 

-0,14 

0,02 

25 

20 

20,28 

-0,28 

0,08 

36 

18 

22,42 

-0,42 

0,18 

49 

Σ = 28  Σ =112 

 

 

Σ = 60 

Σ =28 

 

 

Σ =5,43  Σ =140 

4

=

x

 

16

=

y

 

 

 

 

 

 

 

 

 

 

1

0

60

ˆ

2,14

28

ˆ

16 4 2,14

7, 44

α

α

=

=

=

− ⋅

=

 

 
Równanie prostej regresji: 

2,14

7, 44

Y

X

=

+

 

 

background image

Przykład- cd.

Wariancja resztowa i odchylenie standardowe: 
 

04

,

1

09

,

1

09

,

1

2

7

43

,

5

2

=

=

=

=

S

S

 

 
Odchylenia standardowe współczynników regresji:  

87

,

0

140

04

,

1

20

,

0

28

04

,

1

1

=

=

=

=

α

S

S

 

marcin.mazurek@wat.edu.pl 2009

87

,

0

28

7

140

04

,

1

0

=

=

α

S

 
Analiza istotności współczynników (na poziomie istotności 

α=0,05) 

Dla 

α

0

Statystyka 

55

,

8

87

,

0

44

,

7

=

=

T

,  

t

α

 = 2,571 

Dla 

α

1

Statystyka 

7

,

10

20

,

0

14

,

2

=

=

T

 

t

α

 = 2,571 

W obydwu przypadkach wartości statystyki T trafiają do obszaru krytycznego dla 
testowanej hipotezy, a zatem hipotezę zerową należy odrzucić. Graniczne poziomy 
współczynników istotności, przy których nie byłoby podstaw do odrzucenia hipotezy są 
mniejsze od 0,001. 
 

background image

Testowanie hipotez

Weryfikacja hipotezy zerowej H

0

Wybór odpowiedniej statystyki U, której rozkład jest znany (

test 

hipotezy
Ustalenie zbioru wartości tych wartości statystyki U, których 
wystąpienie uważamy za zaprzeczenie hipotezie zerowej (

zbiór 

krytyczny)
Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona 

marcin.mazurek@wat.edu.pl 2009

Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona 
prawdziwa (

poziom istotności testu):

(

)

0

P U

W H

α

=

Rzeczywistość

Hipoteza zerowa 

Prawdziwa

Fałszywa

Przyjęcie

Poprawna decyzja

Błąd II rodzaju

Odrzucenie

Błąd I rodzaju
(poziom istotności)

Poprawna decyzja

background image

Wartość p

Prawdopodobieństwo wystąpienia obserwowanych 
wyników w przypadku jeżeli hipoteza zerowa jest 
prawdziwa

Miara wiarygodności hipotezy zerowej

marcin.mazurek@wat.edu.pl 2009

background image

Test t istotności parametru regresji

Badanie zależności pomiędzy zmienną celu y a zmienną  
objaśniającą x

i

z uwzględnieniem pozostałych zmiennych 

objaśniających

Statystyka t  - rozkład t-studenta z n-m-1 stopniami swobody 

0

1

:

0

:

0

i

i

H

H

α

α

=

0

0

1

1

1

1

1

1

1

0

1

1

1

1

1

1

:

...

...

:

...

...

i

i

i

i

m

m

i

i

i

i

i

i

m

m

H

y

x

x

x

x

H

y

x

x

x

x

x

α

α

α

α

α

α

α

α

α

α

α

+

+

+

+

=

+

+

+

+

+

=

+

+

+

+

+

+

marcin.mazurek@wat.edu.pl 2009

Statystyka t  - rozkład t-studenta z n-m-1 stopniami swobody 

Obszar krytyczny - jeżeli wartość statystyki znajdzie się w obszarze 
krytycznym, oznacza to że hipotezę zerową należy odrzucić. 

p – wartość 

i

i

t

S

α

α

=

(

)

,

,

K

t

t

α

α

= −∞ −

+ ∞

(

)

p

P T

t

=

>

background image

Test F istotności modelu regresji

Badanie liniowej zależności pomiędzy zmienną celu a 
zbiorem zmiennych objaśniających traktowanych jako 
całość

Statystyka F

0

1

2

1

:

...

0

:

0

m

i

H

H

α

α

α

α

=

=

=

=

marcin.mazurek@wat.edu.pl 2009

Statystyka F

(

)

(

)

2

2

1

1

ˆ

ˆ

SSR

MSR

n

m

m

F

SSE

MSE

m

n

m

y y

y y

=

=

=

background image

Zmienne jakościowe w modelu regresji

Zmienna  objaśniająca dyskretna przyjmująca 

k- wartości

Wykształcenie

Podstawowe

Ś

rednie

Wyższe

marcin.mazurek@wat.edu.pl 2009

k-1 zmiennych objaśniających binarnych

(zmienne wskaźnikowe, zmienne sztuczne) 

Wykształcenie

Wykształcenie_S

Wykształcenie_W

Podstawowe

0

0

Ś

rednie 

1

0

Wyższe

0

1

background image

Metody wyboru zmiennych objaśniających

Metoda dołączania (ang. forward selection)

Dołączamy zmienne z najwyższą wartością statystyki F() do 
chwili i sprawdzamy istotność sekwencyjnej statystyki F. 

Metoda eliminacji (ang. backward elimination)

Usuwamy z modelu zmienną z najmniejszą wartością częściowej 
statystyki F. 

marcin.mazurek@wat.edu.pl 2009

statystyki F. 

Metoda krokowa (ang. stepwise)

Po dołączeniu zmiennej usuwana jest ta, która nie jest istotna . 

Metoda najlepszych podzbiorów 

Maksymalna liczba p zmiennych objaśniających oraz k-modeli
dla każdej liczby zmiennych objaśniających do 1 do p. 

Metoda wszystkich możliwych regresji 

background image

Częściowy test F

Sekwencyjne sumy kwadratów – (sequential sum of squares) 

Podział sumy kwadratów odchyleń regresji na  części wyjaśniane przez 
zmienną objaśniającą, po uwzględnieniu wcześniej wprowadzonych 
zmiennych

Wartości sekwencyjnych sum kwadratów zależą od kolejności 
wprowadzania zmiennych do modelu

W modelu mamy już p-zmiennych – sprawdzenie czy w modelu 

marcin.mazurek@wat.edu.pl 2009

W modelu mamy już p-zmiennych – sprawdzenie czy w modelu 
powinna zostać uwzględniona dodatkowa zmienna

Statystyka

(

)

1

2

1

1

,

...,

i

i

i

i

i

i

SS

SS x x x

x

SS

SSR

SSR

=

=

(

)

1

2

1

,

...,

i

i

i

SS

F x x x

x

MSE

=

background image

Regresja logistyczna

Predykcja wartości zmiennej dyskretnej (binarnej)

Estymacja prawdopodobieństwa przyjęcia przez 
zmienną objaśniającą konkretnej wartości

( )

(

)

0

1

1

0

1

1

...

...

1

m

m

m

m

x

x

x

x

e

p x

E Y x

e

α

α

α

α

α

α

+

⋅ + +

+

⋅ + +

=

=

+

marcin.mazurek@wat.edu.pl 2009

Iloraz szans 

Transformacja logitowa

( )

( )

( )

0

1

1

ln

...

1

m

m

p x

g x

x

x

p x

α

α

α

=

=

+

+

+

( )

( )

1

p x

OR

p x

=

background image

Estymacja parametrów

Estymacja metodą największej wiarygodności 

Funkcja wiarygodności  l(α|x)– określa p-stwo uzyskania 
obserwowanych danych x.

(

)

( )

( )

1

1

1

i

i

n

y

y

i

i

i

l

x

p x

p x

α

=

=

marcin.mazurek@wat.edu.pl 2009

Maksymalizacja funkcji wiarygodności – poszukujemy takiego 

oszacowania nieznanych parametrów, dla którego 
prawdopodobieństwo otrzymania zaobserwowanych wartości 
jest największe. 

background image

Literatura

A. Zeliaś, B.Pawełek, S.Wanat „Metody statystyczne” Zadania i 
sprawdziany, Polskie Wydawnictwo Ekonomiczne 2002
Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja danych”, 
WNT 2005
Daniel T.Larose „Metody i modele eksploracji danych” Wydawnictwo 
Naukowe PWN 2008
A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000 

marcin.mazurek@wat.edu.pl 2009

A. Plucińska, E.Pluciński, „Probabilistyka”, WNT 2000