Analiza regresyjna
Zależność funkcyjna pewnej zmiennej y od zmiennej u - jednoznaczne przyporządkowanie każdej możliwej wartości u określonej wartości y: y=f(u).
W analizie statystycznej - ta zależność funkcyjna nieprzydatna. W analizie statystycznej - zależność stochastyczna pewnej zmiennej losowej Y od zmiennej losowej U: jednoznaczna zależność rozkładu prawdopodobieństwa zmiennej losowej Y od wartości u przybranej przez zmienną losową U.
W praktyce często interesuje nas nie cała dystrybuanta (gęstość prawdopodobieństwa), lecz jej moment I rzędu tj. wartość oczekiwana zmiennej losowej T przy warunku u.
Jeżeli wartość oczekiwana zmiennej losowej Y przy warunku u jest funkcją u
to mówimy o korelacji (współzależności) między zmiennymi Y i U.
Korelację między dwiema zmiennymi losowymi można przedstawić za pomocą wykresu punktowego korelacji zwanego również polem korelacji, nanosząc poszczególne obserwacje.
Korelację jako zależność stochastyczną charakteryzuje się analitycznie za pomocą zależności
,
zwanej regresją lub funkcją regresji.
Jeżeli interesuje nas zależność stochastyczna zmiennej losowej Y od zmiennej losowej U, to rozpatrujemy funkcję regresji zmiennej losowej Y względem zmiennej losowej U, czyli funkcję:
Funkcja regresji jest wyrazem zależności funkcyjnej tkwiącej w zalezności stochastycznej.
Funkcja regresji
, określona jako warunkowa wartość oczekiwana, nosi nazwę funkcji regresji I rodzaju lub teoretycznej funkcji regresji.
W praktyce na ogół nie jesteśmy w stanie wyrazić dokładnie funkcji regresji I rodzaju, gdyż zwykle dysponujemy tylko zbiorowością próbną pochodzącą za zbiorowości generalnej. Sporządzamy wykres punktowy i na podstawie smugi punktów wysuwamy hipotezę, że funkcja regresji należy do określonej klasy funkcji
liniowych względem parametrów (nieznanych) Θ0, Θ1, ..., ΘK i poszukujemy najlepszych estymatorów tych parametrów w sensie określonego kryterium estymacji, np. najmniejszych kwadratów, największej wiarygodności, itp.
Otrzymana w ten sposób funkcja
nosi nazwę funkcji regresji II rodzaju lub empirycznej funkcji regresji.
W przypadku wielowymiarowym, gdy na wielkość Y, a ściślej na jej rozkład, wpływa wiele zmiennych losowych U1, U2, ..., US, przyjmujemy, że funkcja regresji należy do klasy funkcji
Z reguły przyjmujemy, że powyższa funkcja regresji jest liniowa względem nieznanych parametrów Θ0, Θ1, ..., ΘK
gdzie
przy czym funkcje
, k=1,2,...K, są znane i w ogólnym przypadku mogą być nieliniowe.
3. Metoda najmniejszych kwadratów:
Model :
Obiekt:
- nieznane parametry (należy je estymować - oszacować).
Różnica między obiektem a jego modelem
interpretuje się jako błąd aproksymacji obiektu przez model; błąd ten powinien być jak najmniejszy. Stąd zadanie minimalizacji błędu
(lub sumy wartości bezwzględnych
albo sumy kwadratów
) względem wektora nieznanych parametrów, np.
Kwadratowe kryterium minimalizacji
-metoda najmniejszych kwadratów (MNK).
Kryterium minimalizacji funkcji „strat” według MNK
Stąd
-optymalny najmniejszo-kwadratowy estymator wektora
Optymalny najmniejszo - kwadratowy estymator nieznanych parametrów
modelu liniowego
4. Obciążenie estymatora:
jeśli:
klasa modelu należy do klasy obiektu, tj. dane wyjściowe generowane przez model i przez obiekt różnią się jedynie o zakłócenie
,
jest wektorem zmiennych losowych stochastycznie niezależnych o stałej wariancji σ2 i zerowej wartości oczekiwanej, tj.
,
wówczas
, tzn. estymator
parametrów
jest nieobciążony.
W praktyce zakłócenia mają często charakter szumów skorelowanych (nie „białych”); wówczas estymator najmniejszokwadratowy
jest obciążony.
Macierz kowariancji estymatora
nieobciążonego
Elementy diagonalne macierzy
charakteryzują wariancję parametrów Θi, zaś elementy pozadiagonalne charakteryzują kowariancje odpowiednich parametrów Θi, Θj.
Dlatego też macierz
jest nazwana macierzą kowariancyjną. W rzeczywistości macierz
jest proporcjonalna do macierzy kowariancji estymatora
.
Jeśli
-osobliwa, to „wybuch” (niestabilność) estymatora. Występuje to, gdy kolejne wartości wejścia ui, ui+1 są sobie równe (lub bliskie siebie).
5. Badania istotności statystycznej modelu
Zakładamy, że zakłócenia
są wektorem niezależnych zmiennych losowych o wartości oczekiwanej
i wariancji σ2.
Dla zbadania istotności statystycznej modelu konieczne jest jeszcze założenie o postaci rozkładu prawdopodobieństwa zakłóceń. Przyjmiemy w dalszym ciągu, że zakłócenia mają wielowymiarowy rozkład normalny:
Wielkość wyjściowa
ma również wielowymiarowy rozkład normalny typu:
.
Także estymator
nieznanych parametrów
ma wielowymiarowy rozkład normalny typu:
Współczynniki Θk (k=0,1,...,K) modelu są normalnymi zmiennymi losowymi o wartości oczekiwanej Θk i dyspersji
.
Zmienna unormowana
ma rozkład typu N(0,1).
W praktyce nie znamy często wariancji zakłóceń σ2 i posługujemy się jej estymatorem s2
o rozkładzie chi kwadrat o N-K-1 stopniach swobody.
Zamiast zmiennej losowej Z tworzymy wówczas zmienna losową
która ma rozkład Studenta o N-K-1 stopniach swobody. Można więc skonstruować przedział ufności na poziomie ufności 1-α dla tej zmiennej określony równością
czyli przy posługiwaniu się tablicą wartości krytycznych tkryt rozkładu t Studenta o N-K-1 stopniach swobody na poziomie istotności α -równością
Po wyznaczeniu z tablic wartości krytycznej tkryt podstawiamy do nierówności
zamiast tN-K-1 wyrażenie
i przekształcamy tak, aby w środkowym członie występował parametr estymowany Θk.
Otrzymujemy:
Zależność ta określa przedział ufności dla parametru estymowanego Θk na poziomie ufności 1-α.
Dla duzych wartości stopni swobody N-K-1>30 zamiast rozkładu t Studenta można przyjmować rozkład normalny N(0,1) do wyznaczania wartości krytycznej tkryt.
W praktyce duże znaczenie ma hipoteza zerowa typu:
H0 : Θk=0, która przyjmuje, że między wyjściem obiektu y a danym wejściem uk nie ma zależności liniowej. W tym przypadku obliczamy wartość
k=0,1,...,K
Jednocześnie wyznaczamy z tablic t Studenta wartość krytyczną tkryt przy przyjętym poziomie istotności i liczbie stopni swobody N-K-1, spełniającą równość
. Jeżeli wartość obliczona zmiennej t spełnia warunek
to odrzucamy hipotezę zerową H0 . W przypadku przeciwnym nie ma podstaw do odrzucenia hipotezy.
6. Metoda uogólnionych najmniejszych kwadratów - wejścia off-line
Metoda najmniejszej uogólnionej sumy kwadratów
Niech funkcja strat
gdzie W jest pewną funkcją „wagową”
Wówczas:
Jest to optymalny estymator wektora parametrów
według uogólnionych najmniejszych kwadratów.
Dobór
wynika z następującej zależności na macierz kowariancji zakłóceń
, jeśli są one skorelowane
.
Wprowadzenie macierzy wagowej
do funkcji strat
sprawia, że otrzymany estymator
jest nieobciążony ( estymator metodą NK byłby obciążony, gdyż zakłócenie
nie jest już wektorem niezależnych zmiennych losowych).
dla metody uogólnionych NK.
7. Estymator rekursywny (on-line) według metody najmniejszych kwadratów; nasycenie estymatora.
Estymator rekursywny wartości oczekiwanej:
k=1,2,...
warunki początkowe:
Trzeba wprowadzić element rekursywny i nadać mu wartość początkową.
Estymator off line najmniejszych kwadratów:
dla długości danych N
Estymator rekursywny metodą NK on-line
Warunki początkowe:
,
- macierz kowariancji
8. Estymator adaptacyjny według metody najmniejszych kwadratów; adaptacja przez zapominanie wykładnicze.
Estymacja adaptacyjna NK = rekursywna NK + mechanizm zapominania wykładniczego.
-> NK
-> adaptacyjna wersja NK
0<λ<1
λ - współczynnik zapominania wykładniczego, tłumi stare pomiary.
warunek początkowy
Przełączanie λ:
λ bliskie 1 jeśli mała zmiana parametrów w czasie
λ dalsze od 1 (np. 0,96) szybka zmiana parametrów w czasie
Estymator adaptacyjny stosuje się najczęściej w przypadku modeli dynamicznych.
Metoda najmniejszych kwadratów off line.
ogólnie
estymator off-line NK
1
4