background image

Autor opracowania: Marek Walesiak 

 

 

PROJEKT B – MODEL LINIOWY 

z dwiema zmiennymi objaśniającymi 

 
 
 

Nazwisko i imię studenta 1: .......................................... 
Kierunek i rok studiów studenta 1: ...... 
Numer grupy studenta 1: ..... 

 
 

Nazwisko i imię studenta 2: .......................................... 
Kierunek i rok studiów studenta 2: ...... 
Numer grupy studenta 2: ..... 

 
 
 
 
 
 

Uwagi dla studentów: 

1.  Program R należy pobrać ze strony: http://cran.r-project.org/ 
2.  Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria 
3.  Projekty  można  wykonywać  osobiście  lub  w zespołach dwuosobowych (liczba zrealizowanych 

projektów  oraz  jakość  i  estetyka  wykonania  będzie  decydować  o  ocenie  z  laboratorium  dla 
przedmiotu Ekonometria

4.  Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie 

A, B oraz  C  musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać źródło 

5.  Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-

nych na laboratoriach (nie dotyczy projektu C) 

6.  Wraz  z  każdym  projektem  opracowanym  w edytorze Word (może też być jego odpowiednik  z 

pakietu OpenOffice) należy przesłać: 
a)  plik (pliki) danych w formacie csv 
b) odpowiednie procedury w programie R 

7.  Termin przesłania projektu (projektów): do 03 stycznia 2012 roku 
8.  Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko, 

rok i forma studiów, numer grupy lub specjalność) 

9.  Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-

cego laboratoria 

10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-

gu siedmiu dni od ich nadesłania 

11. Odrzucane będą projekty, które wykonali inni studenci 

background image

Autor opracowania: Marek Walesiak 

 

PROJEKT B – MODEL LINIOWY 

z dwiema zmiennymi objaśniającymi 

 
1.  Zebrać  z  Roczników  Statystycznych  co  najmniej  12  obserwacji  na  zmiennej  objaśnianej  i 

dwóch zmiennych objaśniających (dane w postaci szeregów przekrojowych) 

Dane przekrojowe (wg województw Polski w roku 2005) 

y – produkt krajowy brutto województwa Polski w mln zł (ceny bieżące), 
x1 – nakłady inwestycyjne w województwie w mln zł (ceny bieżące), 
x2 – wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne), 
x3 – pracujący w województwie w tys. osób, 
x4 – produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące), 
x5 – stopa bezrobocia rejestrowanego w województwie w %. 
Źródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo-

stałe z Rocznika statystycznego województw 2006. 

 

a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie: 

Plik Dane_przekrojowe_PKB 

 

 

background image

Autor opracowania: Marek Walesiak 

 

b) zapisać dane w formacie csv na dysku 

(podać nazwę pliku Dane_przekrojowe_PKB.csv) 

 

 
 
2.  Wykorzystując w programie R procedurę 

Reg_wieloraka_model_liniowy_plaszczyzna_2010.r: 
a)  oszacować  metodą  najmniejszych  kwadratów  parametry  strukturalne  modelu  zmiennej  y  w 

zależności od zmiennych x1 i x4. Zapisać postać modelu z oszacowanymi parametrami poda-
jąc w nawiasach pod ocenami estymatorów parametrów ich błędy.  Podać interpretację para-
metrów strukturalnych oraz błędów estymatorów parametrów strukturalnych, 

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-

czynnik determinacji, skorygowany współczynnik determinacji), 

c)  za pomocą testów t i F sprawdzić istotność współczynników regresji, 
d) przedstawić wykres płaszczyzny regresji, 
e)  wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych, 
f)  wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny, 
g)  sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-

ści, 

h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-

cji składników losowych, 

i)  za  pomocą  testów  Durbina-Watsona  oraz  Breuscha-Godfreya  zbadać  czy  w  modelu  nie  wy-

stępuje autokorelacja pierwszego stopnia, 

j)  sprawdzić czy w zbiorze danych występują obserwacje nietypowe, 
k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe. 

 

ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R 

 

a)  oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej 

y w zależności od zmiennych x1 (zm1) i x4 (zm2) 

[1] Wyniki estymacji MNK 
 
Call: 
lm(formula = y ~ zm1 + zm2, data = d, x = TRUE, y = TRUE) 
 
Residuals: 
    Min      1Q  Median      3Q     Max  
-5860,7 -1433,0  -734,5  1773,8  6486,7  

background image

Autor opracowania: Marek Walesiak 

 

Coefficients: 
             Estimate Std. Error t value Pr(>|t|)     
(Intercept) 2,790e+03  1,457e+03   1,915  0,07771 .   
zm1         5,263e+00  4,356e-01  12,083 1,92e-08 *** 
zm2         3,562e-01  7,351e-02   4,845  0,00032 *** 
--- 
Signif. codes:  0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1  
 
Residual standard error: 3619 on 13 degrees of freedom 
Multiple R-squared: 0.9954,     Adjusted R-squared: 0.9947  
F-statistic:  1404 on 2 and 13 DF,  p-value: 6,511e-16 

 

a)  zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami 

estymatorów parametrów ich błędy 

4

)

074

,

0

(

1

)

436

,

0

(

)

1457

(

356

,

0

263

,

5

2790

ˆ

x

x

y

 

a)  Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów 

strukturalnych 

263

,

5

ˆ

1

b

 – wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien-

nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 5,263 mln zł (ceteris paribus); 

356

,

0

ˆ

4

b

 – wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej 

objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa 
(zmienna objaśniana y) średnio o 0,356 mln zł (ceteris paribus); 

2790

ˆ

0

b

 (wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej. 

1457

)

ˆ

(

0

b

S

 – szacując parametr 

0

, gdybyśmy mogli wiele razy pobrać próbę z tej samej popu-

lacji generalnej, mylimy się średnio in plus i in minus o 1457 (

1457

2790

0

b

), 

436

,

0

)

ˆ

(

1

b

S

 – szacując parametr 

1

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,436 (

436

,

0

263

,

5

1

b

), 

074

,

0

)

ˆ

(

4

b

S

 – szacując parametr 

4

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,074 (

074

,

0

356

,

0

4

b

), 

 

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, 

współczynnik determinacji, skorygowany współczynnik determinacji), 

standardowy  błąd  oceny  (Residual  standard  error:  3619)  –  wartości  empiryczne 

zmiennej  objaśnianej  (produkt  krajowy  brutto  województwa)  odchylają  się  od  wartości  teore-
tycznych przeciętnie o 3619 mln zł. 

współczynnik determinacji (Multiple R-Squared: 0.9954) – 99,54% zmienności zmiennej 

objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo-
del. 

skorygowany  współczynnik  determinacji  (Adjusted  R-squared:  0.9947)  –  99,47%  wa-

riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez 
zbudowany model. 

background image

Autor opracowania: Marek Walesiak 

 

c)  za pomocą testów t i F sprawdzić istotność współczynników regresji 

Test t 
             Estimate Std. Error t value Pr(>|t|)     
(Intercept) 2,790e+03  1,457e+03   1,915  0,07771 .   
zm1         5,263e+00  4,356e-01  12,083 1,92e-08 *** 
zm2         3,562e-01  7,351e-02   4,845  0,00032 *** 
 

Z  uwagi  na to,  że dla 

0

 

07771

,

0

05

,

0

  nie  ma  podstaw  do  odrzucenia  hipotezy  zerowej. 

Oznacza to, że parametr 

0

 nieistotnie różni się od zera. 

Z  uwagi  na  to,  że  dla 

1

 

08

92

,

1

05

,

0

e

  (0,0000000192)  hipotezę  zerową  odrzucamy. 

Oznacza to, że parametr 

1

 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na 

zmienną objaśnianą y. 

Z uwagi na to, że dla 

4

 

00032

,

0

05

,

0

 hipotezę zerową odrzucamy. Oznacza to, że para-

metr 

4

 istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia-

ną y. 
 

Test F 
F-statistic:  1404 on 2 and 13 DF,  p-value: 6,511e-16 
 

Z  uwagi  na  to,  że 

16

511

,

6

05

,

0

e

  (UWAGA! 

16

e

  oznacza  przesunięcie  przecinka  w 

lewo o 16 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna. 
 

d)  przedstawić wykres płaszczyzny regresji 

zm1

10000

20000

30000

zm

2

0

50000

100000

150000

y

50000

100000

150000

200000

 

 

e)  wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych 

[1] Przedziały ufności dla parametrów 
                   2,5 %       97,5 % 
(Intercept) -356,8646924 5936,3854523 
zm1            4,3224163    6,2045676 
zm2            0,1973624    0,5149773 
 

background image

Autor opracowania: Marek Walesiak 

 

Z  prawdopodobieństwem  0,95  przedział 

385

,

5936

865

,

356

;

  pokryje  nieznaną  wartość  para-

metru 

0

 z modelu 

4

4

1

1

0

x

b

x

b

b

y

Z prawdopodobieństwem 0,95 przedział 

205

,

6

322

,

4

 pokryje nieznaną wartość parametru 

1

 z 

modelu 

4

4

1

1

0

x

b

x

b

b

y

Z prawdopodobieństwem 0,95 przedział 

515

,

0

;

197

,

0

 

 pokryje nieznaną wartość parametru 

4

 z 

modelu 

4

4

1

1

0

x

b

x

b

b

y

Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-

mu ufności. 

 

f)  wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny 

[1] Wyniki testu Shapiro-Wilka 
        Shapiro-Wilk normality test 
data:  reg$residuals  
W = 0,9512, p-value = 0,509 
 

Z  uwagi  na  to,  że 

0,509

value

p

05

,

0

  nie  ma  podstaw  do  odrzucenia  hipotezy  o  nor-

malności rozkładu składnika losowego. 

 

g)  sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej 

współliniowości 

[1] VIF - czynnik inflacji wariancji 
     zm1      zm2  
10,00626 10,00626 
 

Wartości 

1

j

VIF

  informują ile razy wariancja estymatora parametru jest większa od wariancji 

prawdziwej  (tzn.  nie  zakłóconej  współliniowością  statystyczną).  Wartości 

20

j

VIF

  wskazują  na 

problemy związane ze współliniowością. W analizowanym modelu w zasadzie nie występuje pro-
blem związany ze współliniowością zmiennych objaśniających. 

 

h) wykorzystując  test  Goldfelda-Quandta  sprawdzić  czy  nie  występuje  niejednorodność 

wariancji składników losowych 

[1] Wyniki testu Goldfelda-Quandta 
        Goldfeld-Quandt test 
data:  reg  
GQ = 0,472, df1 = 4, df2 = 3, p-value = 0,7594 
 

Nie  ma  podstaw  do  odrzucenia  hipotezy  zerowej,  że  składnik  losowy  jest  homoskedastyczny 

(

0,7594

value

p

05

,

0

). 

 

i)  za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie 

występuje autokorelacja pierwszego stopnia 

[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia 
 lag Autocorrelation D-W Statistic p-value 
   1      -0,1673144      1,991318    0,48 
 Alternative hypothesis: rho < 0 
 
        Breusch-Godfrey test for serial correlation of order 1 
data:  reg  
LM test = 0,55, df = 1, p-value = 0,4583 
 

background image

Autor opracowania: Marek Walesiak 

 

Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że 

value

p

05

,

0

j)  sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony) 

5

10

15

-4

-2

0

2

4

numer obserwacji

re

szt

st

u

d

e

n

tyzo

w

a

n

e

Mazowieckie

 

5

10

15

0

,2

0

,4

0

,6

0

,8

1

,0

1

,2

numer obserwacji

h

a

va

lu

e

s

Mazowieckie

Śląskie

 

 

Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają 

na  pogorszenie  dopasowania  modelu do danych. Dla szacowanego modelu 

4

4

1

1

0

x

b

x

b

b

y

 

jest jedna reszta nietypowa (woj. mazowieckie). W przypadku wystąpienia reszt nietypowych model 
należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych. 

 
 

j)  sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-

ny) 

Obserwacje  wpływowe  (influential  observations)  silnie  oddziałują  na  oszacowane  parametry 

strukturalne.  Włączenie  do  zbioru  danych  tych  obserwacji  powoduje,  że  znacznie  zmieniają  się 
oszacowane parametry modelu. Dla szacowanego modelu 

4

4

1

1

0

x

b

x

b

b

y

 obserwacje doty-

czące woj. mazowieckiego i  śląskiego są wpływowe. Należy więc oszacować i zweryfikować po-
wtórnie model z pominięciem tych dwóch województw.