Prosta regresja liniowa

Model prostej regresji liniowej

Model regresji w populacji generalnej:

Y – zmienna objaśniana, zaleŜna
X – zmienna objaśniająca, predyktor

- zakłócenie, błąd losowy, o którym zakładamy, Ŝe

)

(

;

)

(

oraz najczęściej,

e podlega rozkładowi normalnemu

- wyraz wolny

- współczynnik kierunkowy, miara nachylenia linii

względem osi odciętych

Przyjmujemy, Ŝe X jest wielkością nielosową – wartości jakie przyjmuje są ustalone.

Model średniej warunkowej:

)

(

Metoda najmniejszych kwadratów (MNK):

Metoda uzyskiwania ocen parametrów

gwarantujących minimalizację sumy

kwadratów odchyleń między wartościami empirycznymi i dopasowanymi zmiennej
objaśnianej modelu. Aby móc znaleźć takie oceny musimy dysponować n-elementową próbą
statystyczną wartości zmiennych X oraz Y – parami wartości (x

, y

) i=1,...,n.

,...,

Oznaczenia:

, a

– oceny parametrów modelu

- zaburzenie losowe odpowiadające i-tej obserwacji na zmiennej objaśnianej (związane z i-

tym obiektem w próbie lub z i-tym okresem próby)

- wartości dopasowane (teoretyczne)zmiennej objaśnianej (leŜące na

dopasowanej prostej regresji) odpowiadające i-tej obserwacji na zmiennej
objaśniającej x

−

- reszta, odchylenie między wartością empiryczną a dopasowaną odpowiadające

i-tej obserwacji na zmiennej objaśniającej x

Kryterium MNK:

SSE =

(

)

(

)

min

→

−

∑

SSE – suma kwadratów reszt regresji (residual sum of squares)

Licząc pochodne cząstkowe funkcji SSE względem a

i a

oraz przyrównując je do zera

(warunek konieczny dla ekstremum) otrzymujemy układ dwóch równań zwany układem
równań normalnych, z rozwiązania którego uzyskujemy formuły pozwalające obliczyć a

i a

Układ równań normalnych:

∑

Oznaczenia:

(

)

(

)

(

)(

)

zmiennych

próbkowa

kowariancj

)

(

zmiennej

próby

wariancja

zmiennej

próby

wariancja

−

∑

Przy przyjętych oznaczeniach oceny MNK parametrów modelu prostej regresji moŜna
wyrazić następująco:

)

(

−

Sumę kwadratów reszt regresji moŜna przedstawić następująco:

(

)

(

)

[

]

(

)

(

)

(

)(

)

SSR

SSTO

SSE

−

∑

)

(

)

(

gdzie
SSTO=S

- całkowita suma kwadratów (total sum of squares)

SSR=a

- objaśniona suma kwadratów (regression sum of squares)

Współczynnik korelacji w populacji generalnej:

)

cov(

gdzie
cov(X,Y) – kowariancja zmiennych X i Y w populacji generalnej

- odchylenia standardowe zmiennych

X i Y w populacji generalnej

Współczynnik korelacji z próby:

)

(

Współczynnik determinacji:

Udział SSR w SSTO i zarazem udział wariancji objaśnionej za pomocą prostej regresji

w wariancji całkowitej zmiennej Y z próby moŜna mierzyć jako kwadrat współczynnika
korelacji r

. Miara ta przyjmująca wartości z przedziału [0,1] nosi nazwę współczynnika

determinacji.

SSTO

SSE

SSTO

SSE

SSTO

SSR

−

≡

Wnioskowanie statystyczne w modelu prostej regresji

Przy poczynionych załoŜeniach odnośnie parametrów rozkładu składnika losowego modelu
prostej regresji, estymatory MNK parametrów modelu są nieobciąŜone, zgodne i posiadają
najmniejsze wariancje w klasie liniowych nieobciąŜonych estymatorów. Przyjęte załoŜenia
naleŜy rozszerzyć w sytuacji rozpatrywania regresji w warunkach gdy dysponujemy juŜ n-
elementową losową próbą na zmiennych modelu:
1.

)

(

, dla kaŜdego i=1,...,n

)

(

, dla kaŜdego i=1,...,n

są niezaleŜnymi zmiennymi losowymi dla

≠

są wielkościami nielosowymi

Dla celów wnioskowania statystycznego – konstrukcji przedziałów ufności dla parametrów
modelu, weryfikacji hipotez – zakładamy dodatkowo, Ŝe wszystkie zakłócenia

podlegają

normalnemu rozkładowi prawdopodobieństwa.

NajwaŜniejsze wyniki:

1. Oceny a

i a

podlegają łącznemu, dwuwymiarowemu rozkładowi normalnemu o

następujących parametrach:

)

(













)

(

)

(

)

(













−

)

cov(

PowyŜsze wyniki mogą być wykorzystane w praktyce pod warunkiem znanej wariancji

NieobciąŜonym estymatorem tego parametru w przypadku prostej regresji jest funkcja:

−

SSE

(tzw. wariancja resztowa)

Ponadto

SSE

ma rozkład

o n-2 stopniach swobody i jest on niezaleŜny od rozkładów

estymatorów a

i=0,1. Wynik ten moŜna wykorzystać przy konstrukcji przedziału ufności dla

oraz weryfikacji hipotez o

Standardowe błędy szacunku parametrów prostej regresji za pomocą MNK moŜna wyrazić
wzorami:

)

(

)

(

Ponadto zachodzi:

Funkcja

)

(

−

ma rozkład t-Studenta o n-2 stopniach swobody. Wynik ten moŜe być

wykorzystany do konstrukcji przedziałów ufności dla parametrów prostej regresji oraz
weryfikacji hipotez.
Pierwiastek kwadratowy z wariancji resztowej S

nazywany jest średnim błędem szacunku.

Analiza wariancji (ANOVA):

Przy poczynionych załoŜeniach

SSE

ma rozkład

o n-2 stopniach swobody oraz

SSR

ma rozkład

o 1 stopniu swobody wówczas, gdy parametr

=0. Co więcej te dwa

rozkłady są niezaleŜne. Zatem gdy

=0, to statystyka

−

SSE

SSR

ma rozkład Fishera ze stopniami swobody 1 i n-2. Wynik ten moŜe być

wykorzystany w teście dla hipotezy

=0.

Tablica ANOVA
Ź

ródło

zmienności

Suma kwadratów
odchyleń

Liczba stopni
swobody

rednie

odchylenie
kwadratowe

Iloraz F

Regresja

SSR

SSR/1

Reszty

SSE

n-2

SSE/(n-2)

SSR(n-2)/SSE

Suma

SSTO=S

n-1

Analiza reszt

1. Sprawdzanie stałości wariancji składnika losowego – np. wykres reszt względem x lub

yˆ ; reszty nie powinny wzrastać lub maleć ze wzrostem x lub yˆ .

2. Sprawdzanie czy nie pominięto waŜnych zmiennych objaśniających – powinno się

włączyć do modelu zmienną, względem której reszty wykazują tendencję do
regularnych zmian

3. Wykrywanie związków krzywoliniowych między X i Y – wykresy
4. Wykrywanie niezgodności z załoŜeniem rozkładu normalnego – normal probability

plot

5. Występowanie obserwacji nietypowych – wykresy
6. Alternatywne postaci funkcyjne dla regresji, łatwo transformowalne do postaci

liniowej względem zmiennych:

log