2. Model regresji liniowej

Model  regresji  liniowej  służy:  analizie  zależności  między  zmienną  objaśnianą  Y  a  zmiennymi
objaśniającymi;  predykcji  zmiennej  Y  na  podstawie  zmiennych  X.  Głównym  składnikiem  modelu
regresji  jest  funkcja  regresji,  której  postać  analityczną  określa  się  na  podstawie  wyników  losowej
próby  lub  innych  pozanalitycznych  przesłanek.  Parametry  tej  funkcji  podlegają  estymacji  na
podstawie danych empirycznych pochodzących z próby losowej.
Z WYKŁADU:

przykład1

pewna funkcja

MODEL: Aktywność enzymu = enzym Y = f(dawka leku)

równanie

Przy konstrukcji trzeba oprzeć się na pewnych założeniach:

Rozważamy 2 zmienne X i Y, przy czym zmienna Y musi być wyrażona liczbowo, a zmienna X

może ale nie musi

X- zmienna objaśniona/zależna

Y- zmienna objaśniająca/niezależna

O zm.Y będziemy zakładać, że jest zm.losową. Jeżeli zaobserwujemy pewną wartość cechy X,

to może jej odpowiadać niekoniecznie dokładnie jedna wartość cechy Y, czyli nie dokońca

możemy dokładnie przewidzieć wartość Y. Przez zm.losową rozumiemy funkcję, której

wartości nie są do końca przewidywalne, ale możemy je określić z pewnym

prawdopodobieństwem

Będziemy zakładać, że zmienne X i Y opisują pewne realne cechy populacji

Będzie nam zależało na skonstruowaniu modelu opisującego zależność populacji, ale

będziemy mieć jedynie dane dla próby z tej populacji. Będziemy zakładać, że próba ma

ustaloną liczebność (n), zaś dane z próby będą mieć postać: (x

, y

), i=1,2,3...

powiązania między zmiennymi będziemy badać za pomocą funkcji regresji

F.regresji daje dokładny obraz powiązań między zmiennymi X i Y w populacji. Opisuje ona jak

zmieniają się tzw. warunkowe wartości oczekiwane zmiennej Y w zależności od wartości zmiennej X.

(*) E(Y|X = x

) = F(x

) i = 1,2,3... N

E- wartość oczekiwana zmiennej Y pod warunkiem (|)

N- liczebność populacji, nawet N= +∞

Gdy nie ma N to nie znamy dokładnej postaci funkcji f we worze (*). Możemy natomiast wykreślić

tzw. empiryczną linię regresji w oparciu o warunkowe średnie wyliczone na podstawie danych z

próby.

Enzym X

Enzym Y

120

122

125

•

Wraz ze ↑ aktywności enz.X obserwuje sie na ogół ↑aktywności enz.Y

•

stwierdzenie " jak jedno ↑ to drugie ↓" są mało precyzyjne trzeba

stworzyć równanie wiążące zmienne ze sobą- MODEL ZALEŻNOŚCI MIĘDZY

Wykres empiryczny linii regresji podpowiada nam, jakim typem funkcji można opisać powiązanie

miedzy X i Y w populacji. W grę wchodzą najczęściej funkcje: liniowa, logarytmiczna, wykładnicza,

wielomianowa. Ta funkcja, której użyjemy do przybliżenia funkcji regresji I rodzaju, to funkcja regresji

II rodzaju.

Uwaga !! postać funkcji regresji II rodz. wybieramy głównie na podstawie kształtu empirycznej linii

regresji, ale bierzemy też pod uwagę wyniki poprzednich badań z danego wykresu, teorię z danej

dziedziny, opinie ekspertów. Staramy się wybierać do opisu powiązań najprostsze możliwe funkcje

wg zasady żeby nie komplikować nadmiernie modelu.

Etapy konstrukcji modelu regresji:

Specyfikacja modelu

Formułujemy postać analityczną modelu, czyli określamy wzór matematyczny wiążący X z Y.

Najprostsze powiązanie X z Y to powiązanie za pomocą funkcji liniowej.

Ogólna postać modelu liniowego

część deterministyczna

Y = β

+ β

* X + ε (epsilon, część losowa, zakłócenie)

parametry modelu

Liniowy model regresji: w tym równaniu nieznane są parametry β

+ β

oraz wartość ε.

Model rozumiany jest następująco

= β

+ β

* X

+ ε

( dla pierwszej obserwacji)

120 = β

+ β

* 7 + ε

( z przykładu)

= β

+ β

* X

+ ε

itd.

= β

+ β

* X

+ ε

Specyfikacja dla przykładu 1: na podstawie wykresu rozrzutu punktów empirycznych przyjmujemy

hipotezę, że powiązanie między aktywnością enzymu Y i enz. X ma charakter liniowy. Po specyfikacji

model będzie miał postać: enzym Y = β

+ β

* enzym X + ε

Estymacja parametrów modelu

Na tym etapie stosuje się odpowiednie metody statystyczne w celu uzyskania najlepszych oszacowań

dla parametrów modelu, czyli β

i β

. Na tym etapie wykorzystujemy program do obliczeń

statystycznych lub Excela.

Etap I: Y~X (Y zależy od X, Y jest funkcją X)

Etap II: β

=? β

=? (obliczenia wykonuje komputer)

tego poniżej to nie wiem

β - estymator dla β

(nieznanego) β = b

uzyskujemy metodą najmniejszych kwadratów(MNK)

β - estymator dla β

(nieznanego) β = b

Możemy wyznaczyć reszty modelu:

e = y − y

- wartości empiryczne zmiennej y

y - wartości teoretyczne zmiennej Y, wyliczone ze wzoru y = b + b

∙ x

Weryfikacja modelu

Sprawdzamy, czy otrzymany model spełnia pewne wymagania, tzn. dokonujemy tzw. weryfikacji

modelu. Obejmuje ona weryfikację merytoryczną i weryfikację statystyczną.

Wykorzystujemy na tym etapie wyznaczone wartości reszt. Oczywiste jest, że model jest tym lepiej

dopasowany do danych empirycznych im reszty są mniejsze. Wykorzystujemy odchylenie

standardowe reszt(średni błąd szacunku modelu S

), które pozwoli nam ocenić czy reszty są "małe"

czy "duże" . Im S

mniejsze tym model lepszy.

Jeżeli model nie będzie spełniał wymagań na etapie weryfikacji to wracamy do specyfikacji i

próbujemy znaleźć inne powiązanie między Y i X niż pierwotnie założone np.: może należy

przekształcić zmienną X i rozważyć model postaci: Y = β

+ β

* lnX + ε. Niekiedy przed specyfikacją

nowego modelu staramy się zebrać także dodatkowe dane dla X i Y. Jeżeli model przejdzie etap

weryfikacji to przechodzimy do ostatniego etapu związanego z konstrukcją modelu czyli do

wykorzystania modelu.

Weryfikacja(

trudny, długi etap

) = my

(interpretacja

) + komputer(

pomoc w zakresie obliczeń

)

Wykorzystanie modelu

Najczęściej na 2 sposoby:

•

używamy modelu do oceny czy zmienna/zestaw zmiennych objaśniających jest w sposób

statystycznie istotny powiązana ze zmienna objaśniana (opieramy sie na wynikach

przeprowadzonych testów istotności parametrów)

•

do wyznaczania przewidywanej wartości Y albo średniej wartości Y przy ustalonej wartości

zmiennej X, czy używamy modelu do prognozowania zmiennej Y

obliczenia: komputer - etap względnie łatwy