4.06.2012 (WYKŁAD 7)
MODELOWANIE ZMIENNYCH JAKOŚCIOWYCH
Wybrane zagadnienia przy modelowaniu których stosowane są zmienne jakościowe:
1) Determinanty zatrudnienia bezrobotnych
2) modelowanie wyboru zawodu
3) czynniki determinujące decyzje konsumentów
4) kondycja finansowa przedsiębiorstw
5) identyfikacja zmiany trendu określonej zmiennej
Zmienne jakościowe w modelu mogą pełnić rolę zmiennych endogenicznych oraz zmiennych objaśniających.
W modelowaniu ekonometrycznym zmiennych jakościowych można wyróżnić dwa podstawowe podejścia:
Podejście 1:
Metody polegające na wyznaczaniu prawdopodobieństwa wystąpienia danej kategorii zmiennej jakościowej w zależności od określonych istotnych czynników.
Podejście 2:
Metody polegające na określeniu reguł postępowania mającego na celu przyporządkowanie obiektów do populacji odpowiadającej danej kategorii cechy/zmiennej.
Jakościowa zmienna endogeniczna reprezentowana jest przez sztuczną zmienną, która może:
- przyjmować przypisane jej wartości (zgodnie z przyjętą skalą pomiaru)
- stanowić zmienną o charakterze dychotomicznym czyli tzw. Zmienną zero - jedynkową
Do podstawowych modeli regresji, które wykorzystują zmienne zero - jedynkowe w roli zmiennych endogenicznych zalicza się:
- liniowy model prawdopodobieństwa, mający ścisły związek z funkcją dyskryminacyjną
Przykład zmiennej jakościowej przyjmującej różne wartości:
Przykład zmiennej dychotomicznej:
W przypadku, gdy zmienną endogeniczną modelu ekonometrycznego jest zmienna tzw. ukryta, czyli:
Zmienna ukryta - to taka zmienna, której wartości nie można bezpośrednio obserwować.
To stanowi podstawę do formułowania:
- modeli: logitowego
- oraz probitowego
UWAGA!!!
W ramach wykładu zostaną przedstawione modele, w których zmienna endogeniczna jest zmienną dychotomiczną.
MODELE Z DYCHOTOMICZNĄ ZMIENNĄ ENDOGENICZNĄ - WPROWADZENIE
Przypomnijmy, że Y oznacza zero - jedynkową zmienną losową:

![]()
O następującym rozkładzie prawdopodobieństwa:
![]()
gdzie:
![]()
Zakładając, że zmienna Y przyjmuje wartość 1 (wariant występuje) lub wartość 0 (wariant nie występuje) można zbudować model opisujący oczekiwane wartości zmiennej Y.
Wartość oczekiwaną zmiennej Y można zapisać jako:
![]()
Model przyjmuje następującą postać:
![]()
Poszczególne elementy modelu stanowią:
W modelu danym jako:
![]()
UWAGA !!!
Wartość oczekiwana zmiennej endogenicznej z definicji jest prawdopodobieństwem realizacji danego wariantu.
Wielkość prawdopodobieństwa p zależy od realizacji zmiennych objaśniających.
Model o postaci:
![]()
Teoretyczne wartości prawdopodobieństw po oszacowaniu modelu:
![]()
![]()
UWAGA !!!
W zależności od typu funkcji F można wyróżnić kilka rodzajów modeli.
LINIOWY MODEL PRAWDOPODOBIEŃSTWA
Procedura szacowania parametrów modelu z wykorzystaniem MNK:
Krok 1:
Metoda MNK szacowana jest regresją dana jako:
![]()
Krok 2:
Obliczane są wagi dane jako:
![]()
Krok 3:
Szacowane jest MNK równanie regresji dane jako:
![]()
Wady modelu:
Wada 1:
Wartości wag danych formułą:
![]()
Mogą okazać się ujemne
Wada 2:
Składniki losowe nie mają rozkładu normalnego (danego w sposób oczywisty) pojawia się problem ze stosowaniem testów klasycznych istotności parametrów
Wada 3:
W wielu przypadkach wartość warunkowa:
![]()
Może się znaleźć poza przedziałem <0;1>
Liniowy model prawdopodobieństwa - wykres:
MODEL PROBITOWY
W modelu probitowym funkcja F jest dystrybuantą standardowego rozkładu normalnego N(0;1).
Model dany jest jako:
![]()
Stąd wartości prawdopodobieństwa p są wartościami dystrybuanty ![]()
w punktach:
![]()
![]()
Normitem nazywamy wartość funkcji odwrotnej do ![]()
, czyli ![]()
W praktyce przyjęto wartość tę nazywać profitem wartość daną jako:
![]()
![]()
Nazwa profit pochodzi od angielskiego określenia Probabilisty Unit = PROBIT
Zatem profitem nazywać będziemy wielkość daną jako:
![]()
Dokonywanie przekształcenia probitowego umożliwia badanie zależności między wartościami profitu (Pr) - zmiennej endogenicznej a zmiennymi objaśniającymi.
Najczęściej wykorzystywana jest zależność liniowa dana w postaci modelu ekonometrycznego jako:
![]()
Po oszacowaniu parametrów modelu oraz zbadaniu dopasowania można przystąpić do budowy prognoz profitów.
Miary dopasowania zostaną omówione w dalszej części wykładu.
Szacowanie parametrów modelu probitowego:
- uogólniona metoda najmniejszych kwadratów [UMNK]
- metoda największej wiarygodności - przypadku małej liczby obserwacji
W celu estymacji parametrów prawdopodobieństwa p zastępujemy częstościami względnymi uzyskanymi na postawie próby.
W modelu logitowym zakłada się, że funkcja prawdopodobieństwa jest funkcją rozkładu logistycznego.
Model logitowym można zapisać następująco:
![]()
Logitem, czyli funkcją odwrotną do funkcji F nazywać będziemy wyrażenie o następującej postaci:
![]()
Przekształcenie L sprawdza zależność prawdopodobieństwa (zmiennej endogenicznej) p od zmiennych objaśniających do postaci liniowej.
Szacowanie parametrów modelu logitowego:
- uogólniona metoda najmniejszych kwadratów [UMNK]
- metoda największej wiarygodności - przypadku małej liczby obserwacji
W celu estymacji parametrów prawdopodobieństwa p zastępujemy częstościami względnymi uzyskanymi na postawie próby.
[to samo tylko `probitowy']
Wektor ocen parametrów strukturalnych dla modelu probitowego uzyskany UMNK dany jest jako:
![]()
gdzie:

- wektor ocen parametrów strukturalnych modelu
UMNK
Model probitowy

- macierz realizacji zmiennych objaśniających

- wektor zaobserwowanych wartości zmiennej endogenicznej
Wektor zaobserwowanych wartości zmiennej endogenicznej składa się z zaobserwowanych profitów równych:
![]()
pi - jest częstością względną i-tej grupy
i = 1, ..., r, czyli
![]()
mi - liczba obserwacji w i-tej grupie, dla których zmienna endogeniczna przyjmuje wartość 1, czyli Y = 1
ni - liczba obserwacji w i-tej grupie
Macierz wagowa dana jest jako:

- macierz jest macierzą diagonalną, w której na głównej przekątnej znajdują się oszacowane wartości składników losowych, czyli:
![]()
dla i = 1, ..., r
gdzie:
![]()
- funkcja gęstości standaryzowanego rozkładu normalnego
Metody nieliniowe:
- metoda Raphsona - Newtona
- metoda Gaussa - Newtona
- metoda Marquandta
Przykład:
![]()
Su2 = 1,3 Su = 1,14
Wartości teoretyczne probitów:
![]()
Wartości teoretyczne prawdopodobieństw:
![]()
R2 = 0,95
Miary dopasowania:
Miara 1:
R2 - współczynnik korelacji między realizacjami empirycznymi zmiennej endogenicznej i realizacjami teoretycznymi zmiennej endogenicznej
Miara 2:
R2 Efrona bazuje na (...)
![]()
- resztowa suma kwadratów
Dla zero - jedynkowe zmiennej endogenicznej mamy:
![]()
stąd:
![]()
n - liczba wszystkich realizacji zmiennej endogenicznej y
m - liczba realizacji zmiennych endogenicznych przyjmujących wartości (...)
Miara 3:
Miary oparte na ilorazie wiarygodności
Pseudo R2 R2 McFaddena
Pseudo R2 = 
gdzie:
LUR - maksimum funkcji wiarygodności
LR - maksimum funkcji wiarygodności przy maksymalizacji z warunkiem ![]()
, wówczas:
![]()
Miara pseudo R2 przyjmuje wartości z przedziału [0;1]
R2 McFaddena dana jest:
R2 McFaddena 
Miara R2 McFaddena przyjmuje wartości z przedziału [0,1].
Miara 4:
R2 - rozważane jako proporcja trafnych i nietrafnych prognoz.
Zakładamy, że:
![]()
