Statystyka matematyczna, 4-część, Analiza regresyjna


Analiza regresyjna

  1. Zależność funkcyjna pewnej zmiennej y od zmiennej u - jednoznaczne przyporządkowanie każdej możliwej wartości u określonej wartości y: y=f(u).

W analizie statystycznej - ta zależność funkcyjna nieprzydatna. W analizie statystycznej - zależność stochastyczna pewnej zmiennej losowej Y od zmiennej losowej U: jednoznaczna zależność rozkładu prawdopodobieństwa zmiennej losowej Y od wartości u przybranej przez zmienną losową U.

W praktyce często interesuje nas nie cała dystrybuanta (gęstość prawdopodobieństwa), lecz jej moment I rzędu tj. wartość oczekiwana zmiennej losowej T przy warunku u.

Jeżeli wartość oczekiwana zmiennej losowej Y przy warunku u jest funkcją u

0x01 graphic
to mówimy o korelacji (współzależności) między zmiennymi Y i U.

Korelację między dwiema zmiennymi losowymi można przedstawić za pomocą wykresu punktowego korelacji zwanego również polem korelacji, nanosząc poszczególne obserwacje.

Korelację jako zależność stochastyczną charakteryzuje się analitycznie za pomocą zależności

0x01 graphic
,

zwanej regresją lub funkcją regresji.

Jeżeli interesuje nas zależność stochastyczna zmiennej losowej Y od zmiennej losowej U, to rozpatrujemy funkcję regresji zmiennej losowej Y względem zmiennej losowej U, czyli funkcję:

0x01 graphic

Funkcja regresji jest wyrazem zależności funkcyjnej tkwiącej w zalezności stochastycznej.

Funkcja regresji 0x01 graphic
, określona jako warunkowa wartość oczekiwana, nosi nazwę funkcji regresji I rodzaju lub teoretycznej funkcji regresji.

W praktyce na ogół nie jesteśmy w stanie wyrazić dokładnie funkcji regresji I rodzaju, gdyż zwykle dysponujemy tylko zbiorowością próbną pochodzącą za zbiorowości generalnej. Sporządzamy wykres punktowy i na podstawie smugi punktów wysuwamy hipotezę, że funkcja regresji należy do określonej klasy funkcji

0x01 graphic
liniowych względem parametrów (nieznanych) Θ0, Θ1, ..., ΘK i poszukujemy najlepszych estymatorów tych parametrów w sensie określonego kryterium estymacji, np. najmniejszych kwadratów, największej wiarygodności, itp.

Otrzymana w ten sposób funkcja 0x01 graphic
nosi nazwę funkcji regresji II rodzaju lub empirycznej funkcji regresji.

W przypadku wielowymiarowym, gdy na wielkość Y, a ściślej na jej rozkład, wpływa wiele zmiennych losowych U1, U2, ..., US, przyjmujemy, że funkcja regresji należy do klasy funkcji

0x01 graphic

Z reguły przyjmujemy, że powyższa funkcja regresji jest liniowa względem nieznanych parametrów Θ0, Θ1, ..., ΘK 0x01 graphic
gdzie

0x01 graphic
przy czym funkcje 0x01 graphic
, k=1,2,...K, są znane i w ogólnym przypadku mogą być nieliniowe.

3. Metoda najmniejszych kwadratów:

Model : 0x01 graphic

Obiekt: 0x01 graphic

0x01 graphic
- nieznane parametry (należy je estymować - oszacować).

Różnica między obiektem a jego modelem 0x01 graphic

0x01 graphic
interpretuje się jako błąd aproksymacji obiektu przez model; błąd ten powinien być jak najmniejszy. Stąd zadanie minimalizacji błędu 0x01 graphic
(lub sumy wartości bezwzględnych 0x01 graphic
albo sumy kwadratów 0x01 graphic
) względem wektora nieznanych parametrów, np.

0x01 graphic

Kwadratowe kryterium minimalizacji 0x01 graphic
-metoda najmniejszych kwadratów (MNK).

Kryterium minimalizacji funkcji „strat” według MNK

0x08 graphic
Stąd 0x01 graphic
-optymalny najmniejszo-kwadratowy estymator wektora 0x01 graphic

Optymalny najmniejszo - kwadratowy estymator nieznanych parametrów 0x01 graphic
modelu liniowego 0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

4. Obciążenie estymatora:

jeśli:

  1. klasa modelu należy do klasy obiektu, tj. dane wyjściowe generowane przez model i przez obiekt różnią się jedynie o zakłócenie 0x01 graphic
    ,

  2. 0x01 graphic
    jest wektorem zmiennych losowych stochastycznie niezależnych o stałej wariancji σ2 i zerowej wartości oczekiwanej, tj. 0x01 graphic
    ,

wówczas 0x01 graphic
, tzn. estymator 0x01 graphic
parametrów 0x01 graphic
jest nieobciążony.

W praktyce zakłócenia mają często charakter szumów skorelowanych (nie „białych”); wówczas estymator najmniejszokwadratowy 0x01 graphic
jest obciążony.

Macierz kowariancji estymatora 0x01 graphic
nieobciążonego

0x01 graphic
0x01 graphic

Elementy diagonalne macierzy 0x01 graphic
charakteryzują wariancję parametrów Θi, zaś elementy pozadiagonalne charakteryzują kowariancje odpowiednich parametrów Θi, Θj.

Dlatego też macierz 0x01 graphic
jest nazwana macierzą kowariancyjną. W rzeczywistości macierz 0x01 graphic
jest proporcjonalna do macierzy kowariancji estymatora 0x01 graphic
.

0x01 graphic

Jeśli 0x01 graphic
-osobliwa, to „wybuch” (niestabilność) estymatora. Występuje to, gdy kolejne wartości wejścia ui, ui+1 są sobie równe (lub bliskie siebie).

5. Badania istotności statystycznej modelu

Zakładamy, że zakłócenia 0x01 graphic
są wektorem niezależnych zmiennych losowych o wartości oczekiwanej 0x01 graphic
i wariancji σ2.

Dla zbadania istotności statystycznej modelu konieczne jest jeszcze założenie o postaci rozkładu prawdopodobieństwa zakłóceń. Przyjmiemy w dalszym ciągu, że zakłócenia mają wielowymiarowy rozkład normalny:

0x01 graphic

Wielkość wyjściowa 0x01 graphic
ma również wielowymiarowy rozkład normalny typu:

0x01 graphic
.

Także estymator 0x01 graphic
nieznanych parametrów 0x01 graphic
ma wielowymiarowy rozkład normalny typu:

0x01 graphic

Współczynniki Θk (k=0,1,...,K) modelu są normalnymi zmiennymi losowymi o wartości oczekiwanej Θk i dyspersji 0x01 graphic
.

Zmienna unormowana

0x01 graphic
ma rozkład typu N(0,1).

W praktyce nie znamy często wariancji zakłóceń σ2 i posługujemy się jej estymatorem s2

0x01 graphic
o rozkładzie chi kwadrat o N-K-1 stopniach swobody.

Zamiast zmiennej losowej Z tworzymy wówczas zmienna losową

0x01 graphic
która ma rozkład Studenta o N-K-1 stopniach swobody. Można więc skonstruować przedział ufności na poziomie ufności 1-α dla tej zmiennej określony równością

0x01 graphic

czyli przy posługiwaniu się tablicą wartości krytycznych tkryt rozkładu t Studenta o N-K-1 stopniach swobody na poziomie istotności α -równością

0x01 graphic

Po wyznaczeniu z tablic wartości krytycznej tkryt podstawiamy do nierówności 0x01 graphic
zamiast tN-K-1 wyrażenie 0x01 graphic
i przekształcamy tak, aby w środkowym członie występował parametr estymowany Θk.

Otrzymujemy:

0x01 graphic

Zależność ta określa przedział ufności dla parametru estymowanego Θk na poziomie ufności 1-α.

Dla duzych wartości stopni swobody N-K-1>30 zamiast rozkładu t Studenta można przyjmować rozkład normalny N(0,1) do wyznaczania wartości krytycznej tkryt.

W praktyce duże znaczenie ma hipoteza zerowa typu:

H0 : Θk=0, która przyjmuje, że między wyjściem obiektu y a danym wejściem uk nie ma zależności liniowej. W tym przypadku obliczamy wartość

0x01 graphic
k=0,1,...,K

Jednocześnie wyznaczamy z tablic t Studenta wartość krytyczną tkryt przy przyjętym poziomie istotności i liczbie stopni swobody N-K-1, spełniającą równość 0x01 graphic
. Jeżeli wartość obliczona zmiennej t spełnia warunek 0x01 graphic
to odrzucamy hipotezę zerową H0 . W przypadku przeciwnym nie ma podstaw do odrzucenia hipotezy.

6. Metoda uogólnionych najmniejszych kwadratów - wejścia off-line

Metoda najmniejszej uogólnionej sumy kwadratów

Niech funkcja strat

0x01 graphic

gdzie W jest pewną funkcją „wagową”

Wówczas:

0x01 graphic

Jest to optymalny estymator wektora parametrów 0x01 graphic
według uogólnionych najmniejszych kwadratów.

Dobór 0x01 graphic
wynika z następującej zależności na macierz kowariancji zakłóceń 0x01 graphic
, jeśli są one skorelowane 0x01 graphic
.

Wprowadzenie macierzy wagowej 0x01 graphic
do funkcji strat 0x01 graphic
sprawia, że otrzymany estymator 0x01 graphic
jest nieobciążony ( estymator metodą NK byłby obciążony, gdyż zakłócenie 0x01 graphic
nie jest już wektorem niezależnych zmiennych losowych).

0x01 graphic
dla metody uogólnionych NK.

7. Estymator rekursywny (on-line) według metody najmniejszych kwadratów; nasycenie estymatora.

Estymator rekursywny wartości oczekiwanej:

0x01 graphic

0x01 graphic
k=1,2,...

warunki początkowe: 0x01 graphic

Trzeba wprowadzić element rekursywny i nadać mu wartość początkową.

Estymator off line najmniejszych kwadratów:

0x01 graphic

0x01 graphic
dla długości danych N

0x01 graphic

0x01 graphic
Estymator rekursywny metodą NK on-line

0x01 graphic

0x01 graphic

0x01 graphic

Warunki początkowe:

0x01 graphic
, 0x01 graphic

0x01 graphic
- macierz kowariancji

8. Estymator adaptacyjny według metody najmniejszych kwadratów; adaptacja przez zapominanie wykładnicze.

Estymacja adaptacyjna NK = rekursywna NK + mechanizm zapominania wykładniczego.

0x01 graphic
-> NK

0x01 graphic
-> adaptacyjna wersja NK

0<λ<1

λ - współczynnik zapominania wykładniczego, tłumi stare pomiary.

0x01 graphic

0x01 graphic

0x01 graphic

warunek początkowy 0x01 graphic

Przełączanie λ:

  1. λ bliskie 1 jeśli mała zmiana parametrów w czasie

  2. λ dalsze od 1 (np. 0,96) szybka zmiana parametrów w czasie

Estymator adaptacyjny stosuje się najczęściej w przypadku modeli dynamicznych.

Metoda najmniejszych kwadratów off line.

0x01 graphic

ogólnie

0x01 graphic
estymator off-line NK

1

4

0x01 graphic



Wyszukiwarka