ANALIZA ZALEŻNOŚCI WIELU ZMIENNYCH.
REGRESJA LINIOWA WIELOKROTNA.
Model liniowy regresji wielokrotnej.
![]()
, (1)
![]()
, ![]()
są niezależnymi zmiennymi losowymi o takim samym rozkładzie z wartością średnią 0 i wariancją ![]()
. ![]()
są błędami losowymi.
Założenia:
Obserwujemy wartości zmiennych ![]()
(zmiennych objaśnianych).
![]()
, są znane ( zmienne objaśniające )
![]()
są nieznanymi parametrami modelu
(iv) ![]()
, ![]()
(losowe błędy ).
Cel eksperymentu - wnioskowanie na temat
parametrów modelu
Wygodny jest zapis macierzowy zależności (1):
Przy zapisie wektora w postaci kolumny oraz oznaczeniu transpozycji przez z' wektora z zależność (1) można zapisać w postaci
Y = X![]()
, (2)
gdzie Y = ![]()
jest wektorem zmiennych objaśnianych, ![]()
jest wektorem nieznanych współczynników, a ![]()
wektorem błędów losowych. Ponadto X jest macierzą wymiaru ![]()
postaci, zawierającą zmienne objaśniające:
X = 
.
Równanie (2) z przyjętymi założeniami nazywamy liniowym modelem regresji wielokrotnej.
Uwaga. Szczególnymi przypadkami modelu (2) są:
model regresji jednokrotnej (liniowej), gdy ![]()
Y = 
.
Wyraz wolny![]()
można traktować jako współczynnik odpowiadający dodatkowej zmiennej objaśniającej
prosta próba losowa: 
= ![]()
![]()
![]()
+ 
,
gdzie ![]()
, ![]()
są niezależnymi „błędami”,
![]()
Własności wektora losowego Y = ![]()
.
![]()
![]()
,
skąd
![]()
= ![]()
= ![]()
x![]()
,
gdzie ![]()
, x'![]()
= ![]()
.
Niech ![]()
. Wówczas
![]()
X![]()
.
Var(![]()
= Var(![]()
=
Var(![]()
Cov(![]()
= 0 dla ![]()
, gdyż ![]()
są niezależne.
Stąd, definiując macierz kowariancji wektora losowego Y :
![]()
= 
otrzymujemy
![]()
= ![]()
I,
gdzie I jest macierzą jednostkową wymiaru ![]()
, tzn. mającą na przekątnej 1, a poza przekątną 0.
II. Metoda najmniejszych kwadratów.
![]()
Niech b = ![]()
będzie ustalonym wektorem, a y = ![]()
realizacją wektora zmiennych objaśnianych Y = ![]()
.
Niech Q (b) będzie kwadratem odległości wektora y od wektora Xb.
Wówczas
Q (b) = 
=
= (y - Xb)'(y - Xb).
Definicja. Wartością estymatora wektora współczynników ![]()
wyznaczonym metodą najmniejszych kwadratów (MNK) nazywamy wektor b minimalizujący funkcję Q(![]()
.
Funkcja Q(![]()
osiąga minimum w punkcie b, w którym zerują się pochodne cząstkowe :

b) = 0, ![]()
(3)
Q(![]()
jest funkcją kwadratową, stąd (3) jest układem równań liniowych, który w postaci macierzowej przyjmuje postać:
X'Xb = X'y. (4)
Załóżmy, że macierz X'X jest odwracalna ( kolumny są liniowo niezależne ). Wtedy rozwiązaniem równania (4) jest wektor
b = (X'X)![]()
X'y. (5)
Zastępując w (5) y przez Y otrzymujemy estymator MNK wektora współczynników regresji wielokrotnej ![]()
postaci:
![]()
= (X'X)![]()
X'Y. (6)
Własności estymatora MNK
Stwierdzenie. Niech U będzie r - wymiarowym wektorem losowym o wartości średniej ![]()
i macierzy kowariancji ![]()
oraz niech A będzie macierzą rozmiaru ![]()
. Wówczas dla s - wymiarowego wektora losowego V = AU mamy
![]()
= A![]()
oraz ![]()
A![]()
A'.

dla ![]()
Stąd, obliczając wartość średnią obu stron mamy

, czyli ![]()
= A![]()
.
Analogicznie, otrzymujemy

oraz

.
Zatem
Cov(![]()
= ![]()
=
= ![]()

.
Stąd ![]()
A![]()
A'. c.k.d.
Twierdzenie. Estymator ![]()
jest nieobciążonym estymatorem ![]()
, tzn. ![]()
X![]()
oraz
![]()
![]()
(X'X)![]()
,
D. Wiemy, że ![]()
= (X'X)![]()
X'Y, ![]()
X![]()
.
Podstawiając w poprzednim twierdzeniu
A = (X'X)![]()
X' otrzymujemy ![]()
![]()
.
Wykorzystując wzór na macierz kowariancji wektora, własność macierzy: (AB)' = B'A', oraz ![]()
= ![]()
I mamy
![]()
(X'X)![]()
X'(![]()
I) ((X'X)![]()
X')' =
(X'X)![]()
X'(![]()
I) X((X'X)![]()
)' = ![]()
(X'X)![]()
,
gdyż macierz (X'X)![]()
jest symetryczna. c.k.d.
W szczególności
Var![]()
(X'X)![]()
, ![]()
Np. w przypadku regresji jednokrotnej ( p=2) mamy:
Var![]()
(X'X)![]()
= 
.
Wartość przewidywana dla i-tej obserwacji:
![]()
![]()
= x'![]()
![]()
.
Wektor wartości przewidywanych:
![]()
= X![]()
= X(X'X)![]()
X'Y = HY,
gdzie H = X(X'X)![]()
X'.
Uwaga. Macierz H jest symetryczna ( H = H' ) oraz
H![]()
y = Hy dla każdego wektora y.
Wartości resztowe (rezydua).
e = ![]()
Y - ![]()
= (I - H)Y = wektor
rezyduów
Stwierdzenie.
(i) E(e)![]()
,
(ii) ![]()
( I - H ).
D. (i) ![]()
= E(X![]()
) = X E(![]()
) = X![]()
= ![]()
Y)
E(e) = E(Y - ![]()
) = ![]()
(Y) - ![]()
= ![]()
.
![]()
(I - H)![]()
I(I - H)' = ![]()
(I - 2H + H![]()
) =
= ![]()
(I - H),
gdyż H![]()
= H.
Niech
SSE = 
e'e.
Można pokazać, że
E(e'e) = ![]()
.
Stąd błąd średniokwadratowy (zdefiniowany podobnie jak dla regresji jednokrotnej)
![]()

e'e = 
jest nieobciążonym estymatorem wariancji ![]()
.
Liczbę ![]()
nazywamy liczbą stopni swobody sumy kwadratów błędów = liczba niezależnych obserwacji n pomniejszona o liczbę więzów nakładanych na ![]()
, równą p.
Stąd, wobec ![]()
![]()
(X'X)![]()
oraz ![]()
, otrzymujemy błędy standardowe estymatorów ![]()
współczynników ![]()
jako pierwiastki z
(![]()
(X'X)![]()
, ![]()
Określimy współczynnik determinacji wielokrotnej.
Ocena „dobroci” dopasowania modelu regresji wielokrotnej.

= całkowita suma kwadratów
( Total Sum of Sqaures )
( miara zmienności samych ![]()
.

= regresyjna ( modelowa ) suma
kwadratów ( Regression ( Model )
Sum of Squares
( miara zmienności ![]()
.
Można pokazać:

.
![]()
= ![]()
+ ![]()
R![]()
= 
= 
= współczynnik
determinacji wielokrotnej
= zmienność wyjaśniona przez model/ zmienność
całkowita
Im mniejsze ![]()
tym model bardziej adekwatny.
Współczynnik determinacji jest miarą stopnia dopasowania modelu do obserwacji ( ocenia jakość tego dopasowania ).
Testy dla wektora współczynników ![]()
.
(A)
![]()
,
![]()
co najmniej jeden ze współczynników ![]()
jest różny od 0.
Niech:
SSE = 
,
SSR = 
.
Jeśli ![]()
jest prawdziwa, to
(a) ![]()
, ![]()
oraz
zmienne losowe SSR i SSE są niezależne.
(b) Statystyka

= 
ma rozkład F Snedecora z ![]()
i ![]()
stopniami swobody.
Zbiór krytyczny testu hipotezy ![]()
przeciw ![]()
na poziomie istotności ![]()
ma postać:
![]()
(B) Niech ![]()
![]()
- ustalone.
![]()
, ![]()
Wiemy, że

~![]()
.
W szczególności, jeśli ![]()
jest prawdziwa, to

.
Stąd zbiór krytyczny ma postać:
![]()
.
Prognoza wartości ![]()
na podstawie x![]()
Obserwowane ![]()
:
![]()
,
Nieobserwowane
![]()
,
gdzie ![]()
są niezależnymi zmiennymi losowymi o rozkładach ![]()
.
W notacji wektorowej
Y(x![]()
) = x![]()
'![]()
+ ![]()
gdzie x![]()
= (![]()
,
Zadanie:
(a) ocena ( estymacja ) wartości średniej ![]()
![]()
= ![]()
x![]()
)] zmiennej objaśnianej w sytuacji, gdy wektorem zmiennych objaśniających jest x![]()
(b) przewidywanie ( prognoza ) wartości Y(x![]()
).
Estymacja ![]()
:
![]()
= E(x![]()
'![]()
+ ![]()
) = E(x![]()
'![]()
) + E(![]()
) = x![]()
'![]()
.
Niech ![]()
x![]()
) = x![]()
'![]()
- estymator ![]()
.
![]()
(x![]()
'![]()
) = x![]()
'E(![]()
) = x![]()
'![]()
= ![]()
.
Zatem ![]()
x![]()
) jest nieobciążonym estymatorem ![]()
.
![]()
= x![]()
'![]()
x![]()
= ![]()
x![]()
' (X'X)![]()
x![]()
Stąd błąd standardowy estymatora ![]()
x![]()
)

,
co pozwala otrzymać granice przedziału ufności dla ![]()
na poziomie ufności ![]()
jako realizacje zmiennych
![]()
.
Prognoza Y(x![]()
) = x![]()
'![]()
+ ![]()
przy pomocy ![]()
x![]()
).
Podobnie jak dla regresji jednokrotnej obliczamy
![]()
= ![]()
(1 + x![]()
' (X'X)![]()
x![]()
)
Stąd błąd standardowy estymatora

,
co pozwala otrzymać granice przedziału ufności Y(x![]()
) dla na poziomie ufności ![]()
jako realizacje zmiennych
![]()
Diagnostyka modelu regresji
Wykres rezyduów pozwala wykryć odstępstwa od modelu, podobnie jak w przypadku regresji jednokrotnej, takie jak: nieliniowość równania regresji, skorelowanie i niejednakowa wariancja błędów, rozkład błędów różny od normalnego.
Identyfikacja obserwacji odstających - realizacji zmiennych, które nie spełniają zależności (1):
![]()
.
Możliwe powody: błędny zapis danych lub zależność (1) prawdziwa tylko w pewnym zakresie zmiennych objaśniających.
Wiemy: ![]()
( I - H ).
Stąd błąd standardowy i - go rezyduum
![]()
, gdzie ![]()
= H![]()
= i - ty element diagonalny macierzy H,
Studentyzowana wartość resztowa:
![]()
niweluje różną zmienność rozkładów rezyduów.
Wykres {(![]()
pozwala zidentyfikować duże wartości, które prawdopodobnie odpowiadają niektórym obserwacjom odstającym, za wyjątkiem tych dla których wartość ![]()
![]()
jest mała.
Identyfikację obserwacji odstających poprawimy rozpatrując modyfikację rezyduów:
![]()
,
gdzie ![]()
jest wartością przewidywaną zmiennej objaśnianej dla x = x![]()
w modelu regresji, w którym usunęliśmy obserwację ![]()
, tzn. skonstruowanym dla danych:
J![]()
= ![]()
x![]()
,Y![]()
), ![]()
}.
![]()
= rezyduum modyfikowane
![]()
= studentyzowane rezyduum
modyfikowane
Można pokazać, że

~ ![]()
.
Duża wartość ![]()
wskazuje, że obserwacja i - ta jest odstająca
(a) Testujemy n hipotez:
![]()
Obserwacja i - ta nie jest odstająca
przeciw
![]()
Obserwacja i - ta jest odstająca.
(b) ![]()
żadna obserwacja nie jest odstająca
przeciw
![]()
![]()
są obserwacje odstające
Przyjmujemy ![]()
, jeśli przyjmiemy co najmniej jedną hipotezę ![]()
. Wówczas poziom istotności takiego testu ustalamy z zależności (przy założeniu, że ![]()
jest prawdziwa):
P(![]()
{![]()
nie odrzucone}) = 1 - 
{![]()
odrzucone}) 
odrzucone }) = 1 - ![]()
,
stąd ![]()
odrzucone ) ![]()
= ograniczenie na poziom istotności testu z (b), zatem 
powinno być poziomem istotności indywidualnych testów w (a).
Rzeczywisty poziom takiego testu jest znaczne niższy niż ![]()
( ze względu na grube oszacowanie ), zatem test znajduje mniej obserwacji odstających niż test dokładnie na poziomie istotności ![]()
.
Identyfikacja obserwacji wpływowych.
Obserwacja wpływowa, to taka, której usunięcie ze zbioru danych powoduje duża zmianę wektora estymatorów MNK. Podejrzane są o to:
obserwacje odstające
obserwacje, dla których wektor zmiennych objaśniających różni się znacznie od wektora średnich ![]()
. Miarą odstępstwa x![]()
od ![]()
jest i - ty wyraz diagonalny macierzy H : ![]()
, ponieważ wiadomo, że

oraz dla każdego i 
,
zatem można przyjąć, że typowa wartość ![]()
nie przekracza znacznie wartości ![]()
. W praktyce przyjmujemy, że obserwacja (x![]()
, dla której

może być potencjalnie obserwacją wpływową.
Wówczas usuwamy ją ze zbioru danych i sprawdzamy na ile zmienił się wektor estymatorów MNK.
(iii) Odległość Cooke'a definiujemy

,
gdzie ![]()
jest wartością przewidywaną dla j - tej obserwacji ![]()
na podstawie danych z usuniętą i - tą obserwacją.
Wartość ![]()
![]()
odpowiada wpływowi, jaki na prognozę znanych wartości zmiennej objaśnianej ma usunięcie ze zbioru danych i - tej obserwacji.
Duża wartość ![]()
wskazuje, że obserwacja i - ta jest wpływowa.
Współliniowość występuje, gdy niektóre zmienne są liniowo zależne, np.
![]()
oraz ![]()
.
Wówczas - nie ma jednoznacznego modelu, można zredukować liczbę zmiennych objaśniających.
Wykrywamy współliniowość lub zależność bliską współliniowości następująco:
![]()
(x![]()
,x![]()
jest bliski 1.
(ii) Wartość współczynnika determinacji
wielokrotnej ![]()
obliczonego dla hipotetycznego modelu,
w którym x![]()
jest zmienną objaśnianą a pozostałe x![]()
, ![]()
, są zmiennymi objaśniającymi, jest bliska 1. Równoważnie, wartość tzw. współczynnika podbicia
(ang. - variance inflation factor ):
![]()
jest duża.
Wybór zmiennych objaśniających w liniowym modelu regresji
Cel - selekcja zmiennych objaśniających aby otrzymać model najprostszy.
Metody selekcji sekwencyjnej:
Metoda eliminacji
Krok 1. Model uwzględnia wszystkie potencjalnie ważne zmienne objaśniające.
Krok 2. Zakładając prawdziwość modelu testujemy indywidualne hipotezy o istotności poszczególnych zmiennych:
![]()
przeciw ![]()
, ![]()
.
Jeśli ![]()
prawdziwa, to 
.
Obliczamy p - wartość dla każdego i:
p![]()
= ![]()
.
Odrzucamy tę zmienną, dla której p![]()
jest maksymalne i większe od przyjętego poziomu z istotności ![]()
.
Krok 3. Zakładamy prawdziwość modelu z usuniętą zmienną i powracamy do kroku 2 celem potencjalnego usunięcia zmiennej następnej ( o ile istnieje zmienna, dla której p![]()
> ![]()
).
Procedurę kończymy, gdy w pewnym kroku wszystkie p - wartości są mniejsze od poziomu istotności ![]()
, tzn wszystkie zmienne są istotne.
Metoda dołączania
Krok 1. Model zawiera tylko stałą.
Krok 2. Spośród możliwych zmiennych wybieramy tę, dla której p - wartość jest najmniejszą mniejszą od ![]()
.
Dodajemy tę zmienną do modelu.
Krok 3. Powtarzamy krok 2 wykorzystując pozostałe możliwe zmienne.
Procedurę kończymy, gdy nie istnieje już zmienna, dla której p - wartość jest mniejsza od ![]()
.
Wada metod sekwencyjnych - nie można pozbyć się zmiennej źle wybranej na pewnym etapie. Tej wady nie ma
Metoda selekcji ( regresji ) krokowej - w każdym kroku można odrzucić lub dodać zmienną.
Np.
Wybrano już zmienne ![]()
ze zbioru ![]()
.
Postępujemy jak w metodzie dołączania: załóżmy, że dla ![]()
p - wartość jest najmniejsza i mniejsza niż ![]()
, czyli dołączamy ją do uprzednio wybranych zmiennych.
Następnie metodą eliminacji sprawdzamy czy któraś ze zmiennych ![]()
nie jest zbyteczna.
Postępowanie to powtarzamy w każdym kroku. Dołączając nową zmienną sprawdzamy, czy któraś ze zmiennych uprzednio wybranych nie jest zbyteczna.
Przykład. Zbadano następujące cechy 24 samochodów:
Y - średnie zużycie paliwa na 100 km ( zmienna
objaśniana )
![]()
- pojemność silnika (cm![]()
)
![]()
- moc silnika (KM)
![]()
- ładownosć (l)
![]()
- masa (kG)
![]()
- długość (cm)
![]()
- szerokość (cm ).
Wykresy rozproszenia wskazują na silną zależność zużycia paliwa od: masy, pojemności, mocy,
umiarkowanie silną zależność od szerokości i długości,
oraz brak zależności od ładowności.
Współczynniki determinacji dla regresji jednokrotnych wynoszą np.
![]()
= 0,77 dla pary: zużycie paliwa, pojemność,
![]()
= 0,76 dla pary: zużycie paliwa, moc,
![]()
= 0,60 dla pary: zużycie paliwa, szerokość.
Współczynnik determinacji wielokrotnej ![]()
(dla całego modelu ze wszystkimi sześcioma zmiennymi objaśniającymi ) = 0,87.
![]()
jest odrzucona przez test F
( p - wartość mniejsza od 0,001 ).
Indywidualne testy istotności współczynników :
![]()
przeciw ![]()
, ![]()
na poziomie istotności 0,05 pozwalają przyjąć hipotezę alternatywną tylko dla i = 4, 6, czyli możemy stwierdzić, że współczynniki odpowiadające masie i szerokości są istotnie różne od 0. Dla modelu z tymi zmiennymi objaśniającymi ![]()
= 0,83. Dołączenie indywidualne pozostałych zmiennych nie poprawia ![]()
. ![]()