background image

Model  regresji  liniowej  służy:  analizie  zależności  między  zmienną  objaśnianą  Y  a  zmiennymi 
objaśniającymi;  predykcji  zmiennej  Y  na  podstawie  zmiennych  X.  Głównym  składnikiem  modelu 
regresji  jest  funkcja  regresji,  której  postać  analityczną  określa  się  na  podstawie  wyników  losowej 
próby  lub  innych  pozanalitycznych  przesłanek.  Parametry  tej  funkcji  podlegają  estymacji  na 
podstawie danych empirycznych pochodzących z próby losowej. 
Z WYKŁADU: 

przykład1 

 

                                                                                        pewna funkcja 

MODEL: Aktywność enzymu = enzym Y = f(dawka leku)  

                                                  równanie 

Przy konstrukcji trzeba oprzeć się na pewnych założeniach: 

1.

 

Rozważamy 2 zmienne X i Y, przy czym zmienna Y musi być wyrażona liczbowo, a zmienna X 

może ale nie musi  

X- zmienna objaśniona/zależna 

Y- zmienna objaśniająca/niezależna 

2.

 

O zm.Y będziemy zakładać, że jest zm.losową. Jeżeli zaobserwujemy pewną wartość cechy X, 

to  może  jej  odpowiadać  niekoniecznie  dokładnie  jedna  wartość  cechy  Y,  czyli  nie  dokońca 

możemy  dokładnie  przewidzieć  wartość  Y.  Przez  zm.losową  rozumiemy  funkcję,  której 

wartości  nie  są  do  końca  przewidywalne,  ale  możemy  je  określić  z  pewnym 

prawdopodobieństwem 

3.

 

Będziemy zakładać, że zmienne X i Y opisują pewne realne cechy populacji 

4.

 

Będzie  nam  zależało  na  skonstruowaniu  modelu  opisującego  zależność  populacji,  ale 

będziemy  mieć  jedynie  dane    dla  próby  z  tej  populacji.  Będziemy  zakładać,  że  próba  ma 

ustaloną liczebność (n), zaś dane z próby będą mieć postać: (x

i

, y

i

), i=1,2,3... 

5.

 

powiązania między zmiennymi będziemy badać za pomocą funkcji regresji 

F.regresji  daje  dokładny  obraz  powiązań  między  zmiennymi  X  i  Y  w  populacji.  Opisuje  ona  jak 

zmieniają się tzw. warunkowe wartości oczekiwane zmiennej Y w zależności od wartości zmiennej X. 

(*)    E(Y|X = x

i

) = F(x

i

)         i = 1,2,3... N  

E- wartość oczekiwana zmiennej Y pod warunkiem (|) 

N- liczebność populacji, nawet N= +∞  

Gdy  nie  ma  N to  nie  znamy  dokładnej  postaci funkcji  f  we worze  (*). Możemy natomiast  wykreślić 

tzw.  empiryczną  linię  regresji  w  oparciu  o  warunkowe  średnie  wyliczone  na  podstawie  danych  z 

próby. 

Enzym X  

Enzym Y 

120 

122 

125 

 

Wraz ze ↑ aktywności enz.X obserwuje sie na ogół ↑aktywności enz.Y 

 

stwierdzenie " jak jedno ↑ to drugie ↓" są mało precyzyjne trzeba 

stworzyć równanie wiążące zmienne ze sobą- MODEL ZALEŻNOŚCI MIĘDZY 

background image

Wykres  empiryczny  linii  regresji  podpowiada  nam,  jakim  typem  funkcji  można  opisać  powiązanie 

miedzy  X  i  Y  w  populacji.  W  grę  wchodzą  najczęściej  funkcje:  liniowa,  logarytmiczna,  wykładnicza, 

wielomianowa. Ta funkcja, której użyjemy do przybliżenia funkcji regresji I rodzaju, to funkcja regresji 

II rodzaju.  

Uwaga  !!  postać  funkcji regresji  II  rodz. wybieramy  głównie  na  podstawie  kształtu  empirycznej  linii 

regresji,  ale  bierzemy  też  pod  uwagę  wyniki  poprzednich  badań  z  danego  wykresu,  teorię    z  danej 

dziedziny,  opinie  ekspertów.  Staramy  się  wybierać  do  opisu  powiązań  najprostsze  możliwe  funkcje  

wg zasady żeby nie komplikować nadmiernie modelu. 

Etapy konstrukcji modelu regresji: 

1.

 

Specyfikacja modelu 

Formułujemy  postać  analityczną  modelu,  czyli  określamy  wzór  matematyczny  wiążący  X  z  Y. 

Najprostsze powiązanie X z Y to powiązanie za pomocą funkcji liniowej. 

Ogólna postać modelu liniowego 

           część deterministyczna 

Y = β

0

 + β

* X  + ε (epsilon, część losowa, zakłócenie) 

      

parametry modelu 

Liniowy model regresji: w tym równaniu nieznane są parametry β

0

 + β

1

 oraz wartość ε. 

Model rozumiany jest następująco 

y

1

 = β

0

 + β

* X

1

  + ε

( dla pierwszej obserwacji) 

120 = β

0

 + β

* 7  + ε

( z przykładu) 

y

2

 = β

0

 + β

* X

2

 + ε

itd. 

y

n

 = β

0

 + β

* X

n

  + ε

 

Specyfikacja  dla  przykładu  1:  na  podstawie  wykresu  rozrzutu  punktów  empirycznych  przyjmujemy 

hipotezę, że powiązanie między aktywnością enzymu Y i enz. X ma charakter liniowy. Po specyfikacji 

model będzie miał postać: enzym Y = β

0

 + β

* enzym X  + ε 

2.

 

Estymacja parametrów modelu 

Na tym etapie stosuje się odpowiednie metody statystyczne w celu uzyskania najlepszych oszacowań 

dla  parametrów  modelu,  czyli  β

0

  i  β

.  Na  tym  etapie  wykorzystujemy  program  do  obliczeń 

statystycznych lub Excela. 

Etap I:  Y~X (Y zależy od X, Y jest funkcją X) 

Etap II: β

0

=?  β

1

=? (obliczenia wykonuje komputer) 

tego poniżej to nie wiem  

β  - estymator dla β

(nieznanego)    β   = b      

    uzyskujemy metodą najmniejszych kwadratów(MNK)

 

background image

β  - estymator dla β

(nieznanego)    β   = b  

Możemy wyznaczyć reszty modelu: 

e = y − y    

y

- wartości empiryczne zmiennej y 

y  - wartości teoretyczne zmiennej Y, wyliczone ze wzoru y =   b +   b

∙ x  

 

3.

 

Weryfikacja modelu 

Sprawdzamy,  czy  otrzymany  model  spełnia  pewne  wymagania,  tzn.  dokonujemy  tzw.  weryfikacji 

modelu. Obejmuje ona weryfikację merytoryczną i weryfikację statystyczną.  

Wykorzystujemy na tym etapie wyznaczone wartości reszt. Oczywiste jest, że model jest tym lepiej 

dopasowany  do  danych  empirycznych  im  reszty  są  mniejsze.  Wykorzystujemy  odchylenie 

standardowe reszt(średni błąd szacunku modelu S

e

), które pozwoli nam ocenić czy reszty są "małe" 

czy "duże" . Im S

mniejsze tym model lepszy. 

Jeżeli  model  nie  będzie  spełniał  wymagań  na  etapie  weryfikacji  to  wracamy  do  specyfikacji  i 

próbujemy  znaleźć  inne  powiązanie  między  Y  i  X  niż  pierwotnie  założone  np.:  może  należy 

przekształcić zmienną X i rozważyć model postaci: Y = β

0

 + β

* lnX  + ε. Niekiedy przed specyfikacją 

nowego  modelu  staramy  się  zebrać  także  dodatkowe  dane  dla  X  i  Y.  Jeżeli  model  przejdzie  etap 

weryfikacji  to  przechodzimy  do  ostatniego  etapu  związanego  z  konstrukcją  modelu  czyli  do 

wykorzystania modelu. 

Weryfikacja(

trudny, długi etap

) = my

(interpretacja

) + komputer(

pomoc w zakresie obliczeń

               

4.

 

Wykorzystanie modelu 

Najczęściej na 2 sposoby: 

 

używamy  modelu  do  oceny  czy  zmienna/zestaw  zmiennych  objaśniających  jest  w  sposób 

statystycznie  istotny  powiązana  ze  zmienna  objaśniana  (opieramy  sie  na  wynikach 

przeprowadzonych testów istotności parametrów) 

 

do wyznaczania przewidywanej wartości Y albo średniej wartości Y przy ustalonej wartości 

zmiennej X, czy używamy modelu do prognozowania zmiennej Y 

obliczenia: komputer - etap względnie łatwy