4.06.2012 (WYKŁAD 7)
MODELOWANIE ZMIENNYCH JAKOŚCIOWYCH
Wybrane zagadnienia przy modelowaniu których stosowane są zmienne jakościowe:
1) Determinanty zatrudnienia bezrobotnych
2) modelowanie wyboru zawodu
3) czynniki determinujące decyzje konsumentów
4) kondycja finansowa przedsiębiorstw
5) identyfikacja zmiany trendu określonej zmiennej
Zmienne jakościowe w modelu mogą pełnić rolę zmiennych endogenicznych oraz zmiennych objaśniających.
W modelowaniu ekonometrycznym zmiennych jakościowych można wyróżnić dwa podstawowe podejścia:
Podejście 1:
Metody polegające na wyznaczaniu prawdopodobieństwa wystąpienia danej kategorii zmiennej jakościowej w zależności od określonych istotnych czynników.
Podejście 2:
Metody polegające na określeniu reguł postępowania mającego na celu przyporządkowanie obiektów do populacji odpowiadającej danej kategorii cechy/zmiennej.
Jakościowa zmienna endogeniczna reprezentowana jest przez sztuczną zmienną, która może:
- przyjmować przypisane jej wartości (zgodnie z przyjętą skalą pomiaru)
- stanowić zmienną o charakterze dychotomicznym czyli tzw. Zmienną zero - jedynkową
Do podstawowych modeli regresji, które wykorzystują zmienne zero - jedynkowe w roli zmiennych endogenicznych zalicza się:
- liniowy model prawdopodobieństwa, mający ścisły związek z funkcją dyskryminacyjną
Przykład zmiennej jakościowej przyjmującej różne wartości:
Przykład zmiennej dychotomicznej:
W przypadku, gdy zmienną endogeniczną modelu ekonometrycznego jest zmienna tzw. ukryta, czyli:
Zmienna ukryta - to taka zmienna, której wartości nie można bezpośrednio obserwować.
To stanowi podstawę do formułowania:
- modeli: logitowego
- oraz probitowego
UWAGA!!!
W ramach wykładu zostaną przedstawione modele, w których zmienna endogeniczna jest zmienną dychotomiczną.
MODELE Z DYCHOTOMICZNĄ ZMIENNĄ ENDOGENICZNĄ - WPROWADZENIE
Przypomnijmy, że Y oznacza zero - jedynkową zmienną losową:
O następującym rozkładzie prawdopodobieństwa:
gdzie:
Zakładając, że zmienna Y przyjmuje wartość 1 (wariant występuje) lub wartość 0 (wariant nie występuje) można zbudować model opisujący oczekiwane wartości zmiennej Y.
Wartość oczekiwaną zmiennej Y można zapisać jako:
Model przyjmuje następującą postać:
Poszczególne elementy modelu stanowią:
W modelu danym jako:
UWAGA !!!
Wartość oczekiwana zmiennej endogenicznej z definicji jest prawdopodobieństwem realizacji danego wariantu.
Wielkość prawdopodobieństwa p zależy od realizacji zmiennych objaśniających.
Model o postaci:
Teoretyczne wartości prawdopodobieństw po oszacowaniu modelu:
UWAGA !!!
W zależności od typu funkcji F można wyróżnić kilka rodzajów modeli.
LINIOWY MODEL PRAWDOPODOBIEŃSTWA
Procedura szacowania parametrów modelu z wykorzystaniem MNK:
Krok 1:
Metoda MNK szacowana jest regresją dana jako:
Krok 2:
Obliczane są wagi dane jako:
Krok 3:
Szacowane jest MNK równanie regresji dane jako:
Wady modelu:
Wada 1:
Wartości wag danych formułą:
Mogą okazać się ujemne
Wada 2:
Składniki losowe nie mają rozkładu normalnego (danego w sposób oczywisty) pojawia się problem ze stosowaniem testów klasycznych istotności parametrów
Wada 3:
W wielu przypadkach wartość warunkowa:
Może się znaleźć poza przedziałem <0;1>
Liniowy model prawdopodobieństwa - wykres:
MODEL PROBITOWY
W modelu probitowym funkcja F jest dystrybuantą standardowego rozkładu normalnego N(0;1).
Model dany jest jako:
Stąd wartości prawdopodobieństwa p są wartościami dystrybuanty
w punktach:
Normitem nazywamy wartość funkcji odwrotnej do
, czyli
W praktyce przyjęto wartość tę nazywać profitem wartość daną jako:
Nazwa profit pochodzi od angielskiego określenia Probabilisty Unit = PROBIT
Zatem profitem nazywać będziemy wielkość daną jako:
Dokonywanie przekształcenia probitowego umożliwia badanie zależności między wartościami profitu (Pr) - zmiennej endogenicznej a zmiennymi objaśniającymi.
Najczęściej wykorzystywana jest zależność liniowa dana w postaci modelu ekonometrycznego jako:
Po oszacowaniu parametrów modelu oraz zbadaniu dopasowania można przystąpić do budowy prognoz profitów.
Miary dopasowania zostaną omówione w dalszej części wykładu.
Szacowanie parametrów modelu probitowego:
- uogólniona metoda najmniejszych kwadratów [UMNK]
- metoda największej wiarygodności - przypadku małej liczby obserwacji
W celu estymacji parametrów prawdopodobieństwa p zastępujemy częstościami względnymi uzyskanymi na postawie próby.
W modelu logitowym zakłada się, że funkcja prawdopodobieństwa jest funkcją rozkładu logistycznego.
Model logitowym można zapisać następująco:
Logitem, czyli funkcją odwrotną do funkcji F nazywać będziemy wyrażenie o następującej postaci:
Przekształcenie L sprawdza zależność prawdopodobieństwa (zmiennej endogenicznej) p od zmiennych objaśniających do postaci liniowej.
Szacowanie parametrów modelu logitowego:
- uogólniona metoda najmniejszych kwadratów [UMNK]
- metoda największej wiarygodności - przypadku małej liczby obserwacji
W celu estymacji parametrów prawdopodobieństwa p zastępujemy częstościami względnymi uzyskanymi na postawie próby.
[to samo tylko `probitowy']
Wektor ocen parametrów strukturalnych dla modelu probitowego uzyskany UMNK dany jest jako:
gdzie:
- wektor ocen parametrów strukturalnych modelu
UMNK
Model probitowy
- macierz realizacji zmiennych objaśniających
- wektor zaobserwowanych wartości zmiennej endogenicznej
Wektor zaobserwowanych wartości zmiennej endogenicznej składa się z zaobserwowanych profitów równych:
pi - jest częstością względną i-tej grupy
i = 1, ..., r, czyli
mi - liczba obserwacji w i-tej grupie, dla których zmienna endogeniczna przyjmuje wartość 1, czyli Y = 1
ni - liczba obserwacji w i-tej grupie
Macierz wagowa dana jest jako:
- macierz jest macierzą diagonalną, w której na głównej przekątnej znajdują się oszacowane wartości składników losowych, czyli:
dla i = 1, ..., r
gdzie:
- funkcja gęstości standaryzowanego rozkładu normalnego
Metody nieliniowe:
- metoda Raphsona - Newtona
- metoda Gaussa - Newtona
- metoda Marquandta
Przykład:
Su2 = 1,3 Su = 1,14
Wartości teoretyczne probitów:
Wartości teoretyczne prawdopodobieństw:
R2 = 0,95
Miary dopasowania:
Miara 1:
R2 - współczynnik korelacji między realizacjami empirycznymi zmiennej endogenicznej i realizacjami teoretycznymi zmiennej endogenicznej
Miara 2:
R2 Efrona bazuje na (...)
- resztowa suma kwadratów
Dla zero - jedynkowe zmiennej endogenicznej mamy:
stąd:
n - liczba wszystkich realizacji zmiennej endogenicznej y
m - liczba realizacji zmiennych endogenicznych przyjmujących wartości (...)
Miara 3:
Miary oparte na ilorazie wiarygodności
Pseudo R2 R2 McFaddena
Pseudo R2 =
gdzie:
LUR - maksimum funkcji wiarygodności
LR - maksimum funkcji wiarygodności przy maksymalizacji z warunkiem
, wówczas:
Miara pseudo R2 przyjmuje wartości z przedziału [0;1]
R2 McFaddena dana jest:
R2 McFaddena
Miara R2 McFaddena przyjmuje wartości z przedziału [0,1].
Miara 4:
R2 - rozważane jako proporcja trafnych i nietrafnych prognoz.
Zakładamy, że: