background image

Model regresji wielorakiej: y

i

 = a

0

 + 

α

1

x

1i

 + α

2

x

2i

 + … α

n

x

ni 

+ ε

n

df – liczba stopni swobody (degree of freedom): liczba obserwacji minus liczba zmiennych
objaśniających minus jeden, df = n – (k+1)

Założenia klasycznej MNK (metody najmniejszych kwadratów):
dot. zmiennych i specyfikacji modelu:

•model jest liniowy w stosunku do parametrów
•zmienne egzogeniczne (objaśniające) nie są zmiennymi losowymi
•zmienne egzogeniczne nie są współliniowe (żadna z nich nie jest kombinacją pozostałych)
•zmienne egzogeniczne nie są skorelowane ze składnikiem losowym (skoro nie są losowe

to nie powinny być skorelowane ze składnikiem losowym)

•liczba obserwacji jest większa od liczby parametrów strukturalnych

dot. składnika losowego:

•wartość   oczekiwana   składnika   losowego   jest   równa   zero   –   średni   wpływ   nie

uwzględnionych w modelu zmiennych, dla każdej zmiennej X jest równy zero

•wariancja składnika losowego jest skończona i stała – założenie często nie spełnione dla

danych przekrojowych

•brak autokorelacji składnika losowego – należy sprawdzać dla szeregów czasowych, w

danych przekrojowych to założenie jest zawsze spełnione

Własności estymatorów MNK. Na mocy twierdzenia Gaussa – Markowa estymator KMNK

jest estymatorem:

• liniowym
• zgodnym (zbieżnym stochastycznie do α)
• nieobciążonym: E(a) = α
• najefektywniejszym (o najmniejszej wariancji) w kl. linio. i nieobciążonych estymat.

Weryfikacja statystyczna:

• interpretacja współczynnika determinacji i/lub kryteriów informacyjnych
• test stopnia współliniowości zmiennych objaśniających
• testy   istotności:   (a)   podzbioru   zmiennych   objaśniających   (b)   poszczególnych

zmiennych objaśniających

• testy   własności   składnika   losowego   modelu:   (a)   autokorelacji   (b)

heteroskedastyczności (c) normalności rozkładu

Weryfikacja hipotez. Jeśli wynik próby należy do obszaru krytycznego hipoteza zerowa H

0

jest   odrzucana.   Błąd   I   rodzaju:   odrzucenie   poprawnej   hipotezy   zerowej   Błąd  II   rodzaju:
przyjęcie hipotezy H

0, 

która jest fałszywa

Test   istotności   zmiennej:   H

0

  –   badana   zmienna   nieistotna   statystycznie;   H

1

  –   zmienna

istotna   statystycznie;   empiryczny   poziom   istotności   wynikający   z   przyjętej   konwencji   p-
value = 0,05 lub 0,01

Względne   błędy   szacunku:   błąd   standardowy   współczynnika   /   wartość   współczynnika

background image

(dopuszczalne są błędy względne < 50%)

Kryterium informacyjne Akaike'a (AIC) Schwarza (SIC) – miara 'odległości' danego modelu
od modelu idealnego (prawdziwego), im niższe tym lepiej

Klasyczny współczynnik determinacji (R

2

) – miara dopasowania obserwacji należących do

próby, interpretowalny gdy: (a) zależności między objaśnianą a objaśniającymi jest liniowa
(b) parametry oszacowane MNK z wyrazem wolnym
Skorygowany R

2

  – kara za dodawania zbędnych zmiennych, w małych modelach (df<30)

bardziej wiarygodny niż wersja klasyczna

Typowe błędy specyfikacji:

• błędna postać funkcyjna (np. liniowa zamiast nieliniowej)
• pominięcie kluczowych zmiennych objaśniających (=> obciążone estymatory MNK)
• uwzględnienie zbędnych zmiennych (=> nieefektywne estymatory)
• błędnie dobrana struktura dynamiczna
• błędy pomiaru zmiennych

Z dwojga złego lepiej mieć estymatory nieefektywne niż obciążone.

Test   RESET  (Regression   Specification   Error   Test).   Ogólny  test   wykrywający   wiele   błędów
specyfikacji modelu m.in.: (a) pominięte zmienne objaśniające (b) korelację między zmienną
objaśniającą a składnikiem losowym (c) błędną postać funkcyjną

1. utworzenie modelu pomocniczego: model podstawowy + kolejne potęgi zmiennej

objaśnianej (przeważnie y

i

2

 oraz y

i

3

. Wyznaczenie R

2

 modelu pomocniczego.

2. Hipoteza zerowa: współczynniki przy dodatkowych zmiennych są równe zero, model

liniowy, hipoteza alternatywa: min. 1 wsp. różny od zera – model nieliniowy

Test   Davidsona   –   MacKinnona.   Sprawdzenie   kompletności   modelu,   czy   konkurencyjny
model   nie   tłumaczy   lepiej   zjawiska.   Dwa   bliźniacze   modele   o   odmiennych   zbiorach
zmiennych. Y z pierwszego modelu dodawane jest jako zmien. objaśniająca do 2 modelu (i
vice versa), jeżeli w nowym modelu Y nieistotne – model pierwotny kompletny

Test   pominiętych   zmiennych.   Sprawdzenie   czy   któraś   ze   zmiennych   objaśniających   nie
powinna zostać usunięta, weryfikacja statystycznej istotności zbioru wątpliwych zmiennych,
wskazówki,   że   kluczowa   zmienna   objaśniająca   została   pominięta:   'podejrzane'   znaki
parametrów, słabe dopasowanie modelu do danych empirycznych

Metodologia   od   ogólnego   do   szczególnego.   Zaczynamy   od   modelu   z   nadmiarem
parametrów, w kolejnych etapach model upraszczany na podstawie testów istotności.

Zmienne   jakościowe.   Zastosowanie:   (a)   cechy   jednostek   (b)   wystąpienie   wydarzeń
nietypowych   (c)   sezonowość   Postać:   (a)   binarna   (b)   uporządkowana   klasyfikacja   (c)
nieuporządkowana   klasyfikacja.   Sytuacja   komplikuje   się   przy   autokorelacji   i
heteroskedastyczności   składnika   losowego.   Gdy   więcej   zmien.   jakościowych   należy
rozważyć uwzględnienie ich łącznego efektu na zmienną endogenną.

background image

LMP   –   liniowy   model   prawdopodobieństwa:   zastosowanie   MNK   do   modelu   regresji
liniowej. Zalety: łatwość estymacji, bezpośrednia interpretacja. Wady: wartości teoretyczne
mogą wykraczać poza przedział (0,1), błędy prognoz mogą być bardzo duże

Zmienne ukryte. Y

i

* > 0 => y = 1 oraz zero w przeciwnym przypadku. Składnik losowy ma

rozkład normalny – model probitowy; składnik losowy ma rozkład logistyczny – m. logitowy
Własności logit/probit: jeżeli x należy (od minus nieskończoność do plus nieskończoność)
to 0=< y =< 1. Dystrybuanty rozkładu normalnego i logistycznego są bardzo do siebie
podobne. Częściej stosowany model logitowy. Skomplikowana interpretacja. Bezpośrednia
interpretacja   znaku:   znak   +   -   zwiększenie   odpowiadającej   mu   zmiennej   zwiększa
prawdopodobieństwo zjawiska opisanego przez zmienną objaśnianą. Wyniki dla modelu
logit   i   probit   są   porównywalne   po   pomnożeniu   parametrów   logitu   przez   pierwiastek   z
trzech / pi. Aby porównać oceny parametrów LPM z ocenami parametrów probitu należy je
pomnożyć przez 2,5 a od wyrazu wolnego odjąć 1,25.
Ocena   jakości   modeli   logit/probit:   (a)   współczynnik   pseudo-R^2,   (b)   wartość   statystyki
testu   ilorazu   wiarygodności   (c)   tablica   trafności   o   wymiarach   2x2   z   liczbą   przypadków
trafionych / nietrafionych

Współliniowość – liniowa zależność (korelacja) pomiędzy zmiennymi objaśniającymi. Cecha
danych nie modelu. Skutki: (a) utrudniona wiarygodna interpretacja ocen poszczególnych
parametrów (b) zawyżone oceny średnich błędów szacunku parametrów
CIW (z ang. VIF – variance inflation factor) – porównanie sytuacji faktycznej z idealną, w
której wszystkie zmienne objaśniające są ze sobą nieskorelowane: VIF (β^

j

) = 1 / (1 – R

i

2

)

1. model pomocniczy: dana zmienna objaśniana przez pozostałe. 2. użyć otrzymany R^2.
Brak współliniowości CIW = 1, CIW > 5 => R^2 > 80 – silne zakłócenia współliniowością
Radzenie sobie ze współliniowością: (a) regresja grzbietowa – dodanie stałej do wariancji
zmiennych   (b)   regresja   względem   głównych   składowych   –   przekształcenie   zmiennych
objaśniających   na   zbiór   zmiennych   nieskorelowanych   (c)   usuwanie   zmiennych
powodujących występowanie współliniowości (d) zastępowanie zmiennymi zastępczymi o
podobnej info. merytorycznej (ale słabej skorelowanymi) (e) zwiększenie próby

Heteroskedastyczność   –   duża   rozbieżność   pomiędzy   najmniejszymi   i   największymi
obserwowanymi wartościami, najczęściej dot. danych przekrojowych, duży rozrzut reszt w
oszacowanym modelu, wariancja składnika losowego nie stała dla wszystkich obserwacji.
Skutki: (a) estymatory nieefektywne (ale i nieobciążone) (b) oceny wariancji estymatorów
obciążone   (c)   odchylenia   standardowe   nie   są   wiarygodne.   Test   hetero   może   wyłapać
błędną postać funkcyjną lub pominięte zmienne objaśniające

Test White'a. Hipoteza zerowa: homoskedastyczność; alternatywna: heteroskedastyczność.
Procedura: 1. Model MNK, wyznaczenie reszt 2. model pomocniczy: zmienna objaśniana
kwadrat MNK-reszt (e

j

2

) objaśniające: objaśniające w modelu podstawowym + ich kwadraty

+ ich iloczyny. Na podstawie Chi^2 decyzja czy odrzucić H

0

 jeżeli poziom istotności <0,05

odrzucamy.
Eliminacja   heteroskedastyczności:   ważona   MNK,   użycie   deflatorów,   transformacja   do
postaci logarytmicznej, estymatory HAC uwzględniające autokorelację i heteroskedstyczn.

background image

Normalność rozkładu składnika losowego: (a) nie jest niezbędna do uzyskania estymatorów
o pożądanych własnościach (b) rozkład normalny składnika losowego ma duże znaczenie
przy weryfikacji modelu ekonometrycznego. Test Jarque – Bery, H-zero: rozkł. normalny

Autokorelacja: korelacja między składnikami losowymi modelu; autokorelacja między e

t

  i

e

t-k

  jest   rzędu   k   i   oznaczana   jest   przez   p

k

  ;   stanowi   złamanie   założenia   o   sferyczności

składnika losowego – podstawy twierdzenia Gaussa – Markowa.
Przyczyny autokorelacji: (a) natura procesów gospodarczych: np. długofalowe skutki decyzji
gospodarczych, inercja procesów gosp. (b) błędy specyfikacji modelu: (b1) niepoprawna
postać   analityczna   (b2)   niepełny   zestaw   zmiennych   objaśniających   (b3)   niewłaściwa
struktura dynamiczna.
Skutki autokorelacji: (a) w przypadku braku opóźnień: nieefektywność estymatorów (b) przy
opóźnieniach zmiennej objaśnianej: estymatory MNK nie są zgodne

Test DW (Durbina – Watsona). Wady: (a) tylko modele z wyrazem wolnym, bez opóźnień
zmiennej objaśnianej, z normalnym rozkładem składnika losowego (b) nie pozwala wykryć
autokorelacji rzędu wyższego niż 1 (c) nie zawsze prowadzi do jednoznacznego wyniku.
H-zero: p = 0 (brak autokorelacji) H-1: p<0 auto ujemna v p>0 – auto dodatnia
(wartość DW – decyzja) 0 – p = 1; (0, DL) autokorelacja dodatnia; (DL; DU) – test nie działa;
(DU, 2) brak autokorelacji; 2 – p = 0; (2, 4-DU) – brak autokorelacji; (DU, DL) nie działa; (4-
DL, 4) – autokorelacja ujemna; 4 – p = -1.

Test LM (Lagrange multiplier), mnożnika Lagrange'a. Brak ograniczeń z testu DW. Hipoteza
zerowa: brak autokorelacji, alternatywna – występowanie. Gdy Chi^2 < poziom istotności –
odrzucamy   hipotezę   zerową   =>   model   z   autokorelacją.   Przeprowadzanie:   1.   wyjściowe
równanie przy pomocy MNK + wyznaczenie jego reszt 2. model pomocniczy: model z pkt.
1 + p dodatkowych zmiennych będących opóźnieniami oszacowanych reszt. Niemożliwość
zastosowania w małych próbach (n < 30).
Eliminacja   autokorelacji:   (a)   korekta   metody   estymacji   parametrów   (b)   zmiana   postaci
analitycznej (c) HAC: estymatory błędy standardowego uwzgl. autokorelację i heterosk.

Szeregi   czasowe.   Wyróżnia   się   następujące   składowe:   przeciętny   poziom   (M),
długookresowy trend (T), wahania sezonowe (S), wahania cykliczne (C), zm. nieregularne (I)
y

t

 = M + T + S + C + I

Przyczyny   opóźnień:   (a)   psychologiczne:   oczekiwania,   przyzwyczajenia,   inercja   instytucji
publicznych (b) technologiczne: koszty dostosowań (c) instyt. - prawne: zobow., umowy

Przyczynowość w sensie Grangera. X jest przyczyną dla Y jeżeli X pomaga prognozować Y.
Nie oznacza to, że Y jest skutkiem lub efektem X, a jedynie: X poprzedza Y.

Stacjonarność – średnia i wariancja stałe i niezależne od upływu czasu
Niestacjonoarność   –   w   miarę   systematyczna   zmiana   wraz   z   upływem   czasu   np.   trend
rosnący. Skutki – regresja pozorna: (a) zawyżanie współczynnika determinacji (b) zawyżanie
wartości   statystyk   k-Studenta   i  obciążenie   innych   statystyk  wyznaczanych  na   podstawie

background image

odchyleń standardowych. Większość szeregów czasowych jest niestacjonarna.

Test DF (Dickeya – Fullera) z wyrazem wolnym lub bez / z trendem lub bez.
∆y

t

 = α + δy

t-1 

 + ε

t

  H-zero: δ = 0 – szereg niestacjonarny (z pierwiastkiem jednostkowym);

H-jeden: δ < 0 szereg stacjonarny
Statystyka testu pierwiastka jednostkowego DF = δ / błąd std. δ. Rozstrzygnięcie testu przy
pomocy   wartości   krytycznych   najczęściej   w   wersji   ADF,   uwzględniającej   autokorelację
składnika losowego w modelu testowym.
Stopień  integracji:  ilość  iteracji   po   której  z  szeregu   niestacjonarnego   otrzymamy  szereg
stacjonarny.
Integracja sezonowa: obliczanie różnic dotyczy obserwacji oddalonych o s okresów, gdzie s
jest długością cyklu (s = 4 – kwartały, s = 12 miesiące) wówczas: ∆y

t

 = α + δy

t-s  

 + ε

t

 Oba

rodzaje integracji mogą występować jednocześnie.

Kointegracja   –   dwa   lub   więcej   szeregi   są   niestacjonarne   i   zintegrowane   w   tym   samym
stopniu,   ale   ich   liniowa   kombinacja   jest   stacjonarna.   Wystąpienie   relacji   kointegrującej
sugeruje   obecność   długookresowej   relacji   równowagi   (braku   tendencji   do   zmiany)   np.
płace i ceny, konsumpcja i oszczędności, deficyt budżetowy i inflacja, ceny akcji i dywiden.

Test CRDW / kointegracji. Test niestacjonarności reszt „potencjalnej” regresji kointegrującej:
Y

t

 = β

0

 + β

1

 X

t  

 + ε

t  

 H-zero: pierwiastek jednostkowy w resztach – niestacjonraność reszt;

odrzucane gdy CRDW większa niż wartość krytyczna (ok. 0,5)
W przypadku  podstaw  do  odrzucenia  hipotezy  zerowej:  istnieje stacjonarna  kombinacja
niestacjonarnych zmiennych – odpowiednia strategia modelowania: model korekty błędem.

Metoda Engle'a – Grangera. Prostota zastosowania. Wady: (a) niska moc testów pierwiastka
jednostkowego   w   małych   próbach   (b)   asymetryczne   traktowanie   zmiennych   (b)   brak
możliwości weryfikacji hipotez na temat relacji kointegrującej.

NOTATKI NIE UWZGLĘDNIAJĄ: testu istotności zmiennej (nie chodzi tu o interpretację p-
value   t-Studenta),   dokładnego   omówienia   wykorzystania   HAC   –   estymatorów
nieobciążonych   (generalnie   chodzi   o   to,   że   są   stosowane   gdy   autokorelacja   lub
heteroskedastyczności   wynika   z   samej   natury   procesów   gospodarczych:   tzn   brak
współliniowości,   RESET   na   plus   itp.),   testu   Beuschera   (coś   tam)   na   autokorelację;   oraz
pewnie kilku innych mniej ważnych aspektów

H-zero testu Walda mówi, że żadna zmienna nie jest istotna: zaprzeczenie – przynajmniej
jedna   jest  (a   nie,   że  wszystkie  są)  –   negacja   założenia   z  kwantyfikatorem  ogólnym   jest
ekwiwalentna   do   kwantyfikatora   egzystenacalnego   +   negacji   założenia   tzn.   wystarczy
znaleźć jeden kontrprzykład by całe założenie było nieprawdziwe.

POWODZENIA na egz.!!! 

pani Tomczyk jest naprawdę w porządku osobą!!!

background image

Nazwa testu

Co testuje

Hipoteza zerowa /
alternatywna

Sposób
liczenia

Uwagi

t-Studenta

Istotność
danej
zmiennej

Nieistotna
(współczynnik =
0) / istotna (różny
od zera)

??

Błąd I rodzaju: odrzucenie hipotezy
prawdziwej;
błąd II rodzaju: nieodrzucenie
fałszywej; <0,05 zmienna istotna

Walda
statystyka F

Istotność
modelu

Żadna zmienna
nie jest istotna /
chociaż 1 jest

(R^2)/k : (1-
R^2)(n-k-1)

F(k, n – (k+1)) n – ilość obserwacji,
k – ilość zmiennych objaśniających
<0,05 któraś ze zmiennych istotna

Chi^2

Rozkład
reszt

Normalny
rozkład reszt / nie
normalny rozkład
reszt

??

<0,05 brak rozkładu normalnego

RESET

Adekwatn
ość postaci
funkcyjnej,

adekwatność /
brak
adekwatności

Dodanie
kwadratu
oraz
sześcianu y

t

 

Jeżeli współczynnik przy 

y

t

 różny od

zera – zła postać funkcyjna; testuje
również pominięte zmienne objaś.,
korelację między zm. o-cą a
składnikiem losowym <0,05 źle

DW Durbina
– Watsona

Autokorela
cję

P = 0 – brak
autokorelacji /
p < 0 – ujemna,
p > 0 – dodatnia

??

Interpretowany na podstawie tablic.
Wady: tylko modele z wyr. wolnym,
bez opóźnień, z norm. rozkładem skł.
losowego, nie wykrywanie a-k rzędu
> 1, nie zawsze rozstrzyga

DF (Dickeya
– Fullera)

niestacjona
rność

niestatcjonarny z
pierw jedn δ = 0 /
stacjonarny δ < 0

∆y

t

  =   α   +

δy

t-1 

 + ε

t

DF = δ / błąd. stand. δ 
rozstrzygają wartości krytyczne
najczęściej w wersji ADF

LM

Autokorela
cję

Brak
autokorelacji /
występowanie
autokorelacji

Niemożność stosowania w przypadku małych prób.
1. model MNK, wyznaczenie reszt 2. dodanie p –
dodatkowych zmiennych będących opóźnieniami
oszacowanych reszt. Rozstrzyga Chi^2 (<0,05 -
autokorelacja)

VIF (en)
CIW (pl)

Współlinio
wość

CIW = 1 – brak
CIW > 5 –
poważnie
zakłócająca
interpretację

VIF   (β^

j

)   =

1 /   (1   –   R

i

2

)

dla   każdej
zmiennej

1. dla każdej objaśniającej – model,
w którym jest objaśnianą. 2. z
otrzymanego współczynnika
obliczyć CIW

White'a

Heteroske
dastycznoś
ć

Homoskedastycz
ność /
heteroskedastycz
ność

1.   Model   MNK,   wyznaczenie   reszt   2.   zmienna
objaśniana kwadrat reszt z MNK wobec zmiennych
objaśniających,   ich   kwadratów   oraz   iloczynów.
Decyzja   na   podstawie   Chi^2   (<0,05   –
heteroskedastyczność)

CRDW /
kointegracji

Kointegrac
ji

Reszty
niestacjonarne /
kombinacja
dwóch
zmiennych
stacjonarna

Y

t

  = β

0

  + β

1

X

 + ε

Gdy CRDW > od ok. 0,5 – istnieje
stacjonarna   kombinacja   dwóch
zmiennych niestacjonarnych