background image

Model prostej regresji liniowej 

Model regresji w populacji generalnej: 

ε

α

α

+

+

=

X

Y

1

0

 

– zmienna objaśniana, zaleŜna 
X – zmienna objaśniająca, predyktor 

ε

- zakłócenie, błąd losowy, o którym zakładamy, Ŝe 

2

2

)

(

;

0

)

(

σ

ε

ε

=

=

D

E

oraz najczęściej, 

Ŝ

e podlega rozkładowi normalnemu 

0

α

 - wyraz wolny 

1

α

 - współczynnik kierunkowy, miara nachylenia linii 

X

Y

1

0

α

α

+

=

względem osi odciętych 

Przyjmujemy, Ŝe X jest wielkością nielosową – wartości jakie przyjmuje są ustalone. 
 
 

Model średniej warunkowej: 

X

X

Y

E

1

0

)

|

(

α

α

+

=

 

Metoda najmniejszych kwadratów (MNK): 

Metoda uzyskiwania ocen parametrów 

0

α

 i 

1

α

 gwarantujących minimalizację sumy 

kwadratów odchyleń między wartościami empirycznymi i dopasowanymi zmiennej 
objaśnianej modelu. Aby móc znaleźć takie oceny musimy dysponować n-elementową próbą  
statystyczną wartości zmiennych X oraz Y – parami wartości (x

i

, y

i

) i=1,...,n

n

i

x

y

i

i

i

,...,

1

1

0

=

+

+

=

ε

α

α

 

Oznaczenia: 

a

0

, a

1

 – oceny parametrów modelu 

i

ε

 - zaburzenie losowe odpowiadające i-tej obserwacji na zmiennej objaśnianej (związane z i-

tym obiektem w próbie lub z i-tym okresem próby) 

i

i

x

a

a

y

1

0

ˆ

+

=

 - wartości dopasowane (teoretyczne)zmiennej objaśnianej (leŜące na 

dopasowanej prostej regresji) odpowiadające i-tej obserwacji na zmiennej 
objaśniającej x

i

 . 

i

i

i

y

y

e

ˆ

=

 - reszta, odchylenie między wartością empiryczną a dopasowaną odpowiadające 

i-tej obserwacji na zmiennej objaśniającej x

 
Kryterium MNK: 

SSE = 

(

)

(

)

min

ˆ

1

2

1

0

1

1

2

2

=

=

=

=

=

n

i

i

i

n

i

n

i

i

i

i

x

a

a

y

y

y

e

 

SSE – suma kwadratów reszt regresji (residual sum of squares) 
 
Licząc pochodne cząstkowe funkcji SSE względem a

0

 i a

1

 oraz przyrównując je do zera 

(warunek konieczny dla ekstremum) otrzymujemy układ dwóch równań zwany układem 
równań normalnych
, z rozwiązania którego uzyskujemy formuły pozwalające obliczyć a

0

 i a

1

 
 
 
 
 
 

background image

Układ równań normalnych: 

=

=

=

=

=

=

+

=

+

n

i

n

i

i

i

n

i

i

i

n

i

n

i

i

i

y

x

x

a

x

a

y

x

a

na

1

1

1

2

1

0

1

1

1

0

 

 

Oznaczenia: 

(

)

(

)

(

)(

)

Y

X

S

n

Y

X

C

Y

S

n

S

X

S

n

S

y

x

n

y

x

y

y

x

x

S

x

n

x

x

x

S

y

n

y

y

y

S

xy

yy

y

xx

x

n

i

i

i

i

n

i

i

xy

n

i

i

n

i

i

xx

n

i

i

n

i

i

yy

 

i

 

zmiennych 

 

próbkowa

 

a

kowariancj

 

-

 

1

)

,

(

 

zmiennej

próby  

 

z

 

wariancja

-

 

1

 

zmiennej

próby  

 

z

 

 wariancja

-

 

1

2

2

1

1

1

2

2

2

1

2

1

2

2

1

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

 

 
Przy przyjętych oznaczeniach oceny MNK parametrów modelu prostej regresji moŜna 
wyrazić następująco: 

2

1

1

0

)

,

(

x

xx

xy

S

Y

X

C

S

S

a

x

a

y

a

=

=

=

 

Sumę kwadratów reszt regresji moŜna przedstawić następująco: 

(

)

(

)

[

]

(

)

(

)

(

)(

)

SSR

SSTO

S

a

S

S

S

S

S

a

S

a

S

x

x

y

y

a

x

x

a

y

y

x

x

a

y

y

x

a

x

a

y

y

x

a

a

y

SSE

xy

yy

xx

xy

yy

xy

xx

yy

i

i

i

i

i

i

i

i

i

i

=

=

=

=

=

=

+

=

=

+

=

=

=

=

+

=

=

=

1

2

1

2

1

1

2

2

1

2

2

1

2

1

1

2

1

0

2

2

)

(

)

(

 

 
gdzie 
SSTO=S

yy

 

całkowita suma kwadratów (total sum of squares

SSR=a

1

S

xy

 

- objaśniona suma kwadratów (regression sum of squares

 
 
 
 

background image

Współczynnik korelacji w populacji generalnej: 
 

y

x

xy

Y

X

σ

σ

ρ

)

,

cov(

=

gdzie  
cov(X,Y) – kowariancja zmiennych Y w populacji generalnej 

y

x

σ

σ

,

 - odchylenia standardowe zmiennych 

Y w populacji generalnej 

 
Współczynnik korelacji z próby: 

yy

xx

xy

y

x

xy

S

S

S

S

S

Y

X

C

r

=

=

=

)

,

(

 

Współczynnik determinacji: 
 

Udział SSR w SSTO i zarazem udział wariancji objaśnionej za pomocą prostej regresji 

w wariancji całkowitej zmiennej Y z próby moŜna mierzyć jako kwadrat współczynnika 
korelacji r

xy

. Miara ta przyjmująca wartości z przedziału [0,1] nosi nazwę współczynnika 

determinacji. 

yy

xy

yy

xx

xy

xy

S

S

a

S

S

S

SSTO

SSE

SSTO

SSE

SSTO

SSTO

SSR

r

R

1

2

2

2

1

=

=

=

=

=

=

 

 

Wnioskowanie statystyczne w modelu prostej regresji 

 
Przy poczynionych załoŜeniach odnośnie parametrów rozkładu składnika losowego modelu 
prostej regresji, estymatory MNK parametrów modelu są nieobciąŜone, zgodne i posiadają 
najmniejsze wariancje w klasie liniowych nieobciąŜonych estymatorów. Przyjęte załoŜenia 
naleŜy rozszerzyć w sytuacji rozpatrywania regresji w warunkach gdy dysponujemy juŜ n-
elementową losową próbą na zmiennych modelu: 
1. 

0

)

(

=

i

E

ε

, dla kaŜdego i=1,...,n 

2. 

2

2

)

(

σ

ε

=

i

D

, dla kaŜdego i=1,...,n 

3. 

i

ε

j

ε

są niezaleŜnymi zmiennymi losowymi dla 

j

i

 

4. 

j

x

 są wielkościami nielosowymi 

Dla celów wnioskowania statystycznego – konstrukcji przedziałów ufności dla parametrów 
modelu, weryfikacji hipotez – zakładamy dodatkowo, Ŝe wszystkie zakłócenia 

i

ε

podlegają 

normalnemu rozkładowi prawdopodobieństwa. 
 
 
 
 
 
 

background image

NajwaŜniejsze wyniki: 

1.  Oceny a

0

 i a

1

 podlegają łącznemu, dwuwymiarowemu rozkładowi normalnemu o 

następujących parametrach: 

0

)

(

α

=

o

a

E

 

 





+

=

xx

S

x

n

a

D

2

2

0

2

1

)

(

σ

 

1

1

)

(

α

=

a

E

  

xx

S

a

D

2

1

2

)

(

σ

=

 





=

xx

S

x

a

a

2

1

0

)

,

cov(

σ

 

 
PowyŜsze wyniki mogą być wykorzystane w praktyce pod warunkiem znanej wariancji 

2

σ

NieobciąŜonym estymatorem tego parametru w przypadku prostej regresji jest funkcja: 

2

2

=

n

SSE

S

e

 (tzw. wariancja resztowa) 

Ponadto 

2

σ

SSE

 ma rozkład 

2

χ

o n-2 stopniach swobody i jest on niezaleŜny od rozkładów 

estymatorów a

i

 i=0,1. Wynik ten moŜna wykorzystać przy konstrukcji przedziału ufności dla 

2

σ

oraz weryfikacji hipotez o 

2

σ

Standardowe błędy szacunku parametrów prostej regresji za pomocą MNK moŜna wyrazić 
wzorami: 
 

xx

e

xx

e

S

S

a

S

S

x

n

S

a

S

=

+

=

)

(

1

)

(

1

2

0

 

Ponadto zachodzi: 

Funkcja 

)

(

i

i

i

a

S

a

α

 ma rozkład t-Studenta o n-2 stopniach swobody. Wynik ten moŜe być 

wykorzystany do konstrukcji przedziałów ufności dla parametrów prostej regresji oraz 
weryfikacji hipotez. 
Pierwiastek kwadratowy z wariancji resztowej S

e

 nazywany jest średnim błędem szacunku

 

Analiza wariancji (ANOVA): 

Przy poczynionych załoŜeniach 

2

σ

SSE

 ma rozkład 

2

χ

 o n-2 stopniach swobody oraz 

2

σ

SSR

 ma rozkład 

2

χ

 o 1 stopniu swobody wówczas, gdy parametr 

1

α

=0. Co więcej te dwa 

rozkłady są niezaleŜne. Zatem gdy 

1

α

=0, to statystyka 

2

1

=

n

SSE

SSR

F

 ma rozkład Fishera ze stopniami swobody 1 i n-2. Wynik ten moŜe być 

wykorzystany w teście dla hipotezy 

1

α

=0. 

 
 

background image

Tablica ANOVA  
Ź

ródło 

zmienności 

Suma kwadratów 
odchyleń 

Liczba stopni 
swobody 

Ś

rednie 

odchylenie 
kwadratowe 

Iloraz F 

Regresja 

SSR 

SSR/1 

Reszty 

SSE 

n-2 

SSE/(n-2) 

SSR(n-2)/SSE 

Suma 

SSTO=S

yy 

n-1 

 

 

 

Analiza reszt 

1.  Sprawdzanie stałości wariancji składnika losowego – np. wykres reszt względem x lub 

yˆ ; reszty nie powinny wzrastać lub maleć ze wzrostem x lub  yˆ . 

2.  Sprawdzanie czy nie pominięto waŜnych zmiennych objaśniających – powinno się 

włączyć do modelu zmienną, względem której reszty wykazują tendencję do 
regularnych zmian 

3.  Wykrywanie związków krzywoliniowych między X i Y – wykresy 
4.  Wykrywanie niezgodności z załoŜeniem rozkładu normalnego – normal probability 

plot 

5.  Występowanie obserwacji nietypowych – wykresy 
6.  Alternatywne postaci funkcyjne dla regresji, łatwo transformowalne do postaci 

liniowej względem zmiennych: 

x

Y

x

Y

Ax

Y

Ae

Y

x

Y

x

β

α

β

α

β

α

β

β

+

=

+

=

=

=

+

=

log