background image

 

 

Łańcuchy Markowa 

 

Porównanie adekwatności Łańcuchów 

Markowa oraz modelu Mover-Stayer w 

kontekście wzorców zachowań kont 

kredytowych 

 

 

 

 

 

Szczepan Bujalski 

Paweł Elert 

background image

1 Wst

ęp Teoretyczny 

1.1 Istota 

Łańcuchów Markowa 

Pojęcie „Markowskość” – oznacza pewną formę zapominania o przeszłości procesu. 

Ściślej mówiąc: Stany przyszłe procesu, przy tak ustalonym stanie teraźniejszym, nie zależą 

od przeszłości, a jedynie od stanu teraźniejszego. Matematycznie właściwość tą zapisujemy 

jako: 

 

(

) (

)

n

n

n

n

X

X

P

X

X

X

X

X

P

|

,...,

,

,

|

1

2

1

0

1

+

+

=

 

 

O Łańcuchach Markowa możemy też myśleć w następujący sposób: obserwując proces 

startujący z punktu x, jeżeli kiedyś jeszcze, wrócimy do tego punktu, to dalej będziemy 

obserwować taki sam proces jak od początku. 

1.2 Wykorzystanie 

Łańcuchów Markowa 

Analizując zachowanie się łańcuchów Markowa próbujemy zrozumieć strukturę przejść 

między poszczególnymi stanami. Zwykle interesuje nas, które stany łańcuch odwiedzi, czy 

zrobi to skończoną czy nieskończoną liczbę razy? Ostatecznym zaś celem jest znalezienie 

takiego rozkładu stacjonarnego, który opisywałby prawdopodobieństwa przebywania w 

danym stanie dla bardzo odległych czasów.  

Jednym z bardziej typowych zastosowań łańcuchów markowa jest teoria kojek. W 

symulacjach tych tworzymy niejako bufor, gdzie każda ilość elementów oczekujących 

odpowiada jednemu stanowi. W sposób ten możemy modelować między innymi obciążenie 

serwera, średni czas oczekiwania na obsługę przez klienta oraz niektóre systemy finansowe – 

na przykład: systemy wczesnego informowania o niewypłacalności  

2 Streszczenie 

artyku

łu 

 
Oryginalny tytuł opisanego przez nas artykułu to: 

„Testing the Adequacy of Markov Chain and Mover-Stayer as Representations of 

Credit Behavior”. 

Halina Frydman, Jarl G. KallBerg oraz Duen-li Kao 

New York University, Wrzesień 1984 

background image

2.1 Wprowadzenie 

Celem pracy jest porównanie trzech stochastycznych procesów – stacjonarnych oraz 

niestacjonarnych łańcuchów Markowa oraz jego proste rozszerzenie – model: „Mover-

Stayer”. Jako kryterium porównawcze autorzy przyjęli dopasowanie owych procesów do 

danych empirycznych.  

Stacjonarne łańcuchy Markowa były od dawna używane do modelowania zachowań 

kont kredytowych. W pierwszej pracy, opublikowanej w 1962, konta kredytowe podzielono 

na (n + 2) stany, w zależności od spłaty kredytów, tzn.: spłacone, bieżące, zaległe 1 miesiąc, 

..., zaległe (n – 1) miesięcy, zły dług. Zakładano, iż przejścia między poszczególnymi stanami 

odbywają się zgodnie z założeniami stacjonarnego modelu Markowa. Prawdziwość wniosków 

była zatem uzależniona od prawdziwości tego stwierdzenia. W literaturze naukowej, brak jest 

jednak odpowiednich prac badających adekwatność Łańcuchów Markowa w modelowaniu 

zachowań kont kredytowych. Celem tej pracy jest właśnie odpowiedź na pytanie: Czy 

Łańcuchy Markowa dobrze modelują proces w tej i podobnych dziedzinach? A może istnieją 

inne, „lepsze” modele, bardziej pasujące do danych empirycznych? 

Autorzy zwracają uwagę na dwa założenia modelu Markowa. Po pierwsze, zmiany w 

oprocentowaniu kredytów albo wzorców konsumpcyjnych mogą powodować zmianę procesu 

w czasie, inaczej nie stacjonarność. Po drugie, użytkownicy kont kredytowych 

najprawdopodobniej nie są homogeniczni. Możemy założyć, że pewna podgrupa 

użytkowników kont będzie preferować spłatę całego kredytu pod koniec miesiąca, podczas 

gdy inna podgrupa będzie spłacać jedynie minimalną wymaganą płatność, traktując kartę 

kredytową jako rodzaj krótkookresowej pożyczki. 

W pracy porównane zostały trzy modele. Stacjonarne Łańcuchy Markowa, które przez 

swoją prostotę traktowane są jako punkt odniesienia dla porównań, Nie stacjonarne Łańcuchy 

Markowa, zakładające nie stacjonarność procesu oraz proste rozszerzenie modelu Markova – 

model Mover-Stayer. Model ten zakłada podział populacji na dwie pod grupy: część mobilną, 

zachowującą się zgodnie z procesem Markowa oraz drugą niemobilną, nie zmieniająca nigdy 

stanu. 

Do porównania modeli użyto testów wiarygności oraz analizy residów. 

2.2 Dane i Modele 

Dane wykorzystane do badania zostały zebrane z 200 aktywnych, odnawialnych kont 

kredytowych, tzn. takich na których została odnotowana chociaż jedna transakcja w badanym 

okresie oraz pozostały aktywne do końca rozpatrywanego okresu. Dane dotyczą zachowania 

background image

się  płatności i zobowiązań na kontach kredytowych. Dla każdego z kont zostały zebrane 

następujące dane w okresie od września 1978 do maja 1981 : 

•  Bilans otwarcia 
•  Minimalna wymagana płatność 
•  Aktualna płatność 
•  Wielkość nowych zakupów 

Cztery pierwsze miesiące potraktowano jako okres „rozgrzewki”, aby być pewnym, iż 

wszystkie nowe konta mają już ustabilizowany wzorzec zachowania płatności. 

 

W celu modelowania dynamiki zachowania płatności badanych kont, wprowadzono 

następujące zmienne definiujące stan: 

•  Stan P (Paid up): konto na początku miesiąca jest zadłużone mniej niż $1 

•  Stan C (current): zadłużenie jest na nie mniejszym poziomie niż $1 i ostatnia płatność 

nie mniejsza niż wymagana 

•  Stan D (overdue): aktualna płatność (jeżeli taka jest) jest mniejsza niż wymagana 

Dla rozpatrywanych danych, minimalna wymagana płatność stanowiła odsetek zadłużenia, 

który rósł wraz ze wzrostem zadłużenia. W przypadku jeśli konto było zadłużone 4 miesiące, 

minimalna płatność wynosiła całość zadłużenia. 

W literaturze występują przykłady podobnych badań, w których rozpatruje się więcej 

możliwych stanów. W niniejszej pracy zdecydowano się na tylko trzy, wynika to z chęci 

skupienia się na jakościowych charakterystykach zachowań  płatności, a nie na predykcji 

przepływów pieniężnych. Drugim powodem jest załagodzenie sutków malej próby oraz 

ułatwienie porównania pomiędzy Łańcuchami Markowa, a modelem Mover-Stayer. 

W niniejszej pracy podjęto próbę porównania następujących modeli: 

•  Stacjonarne Łańcuchy Markowa 
•  Niestacjonarne Łańcuchy Markowa 
•  Model Mover-Stayer 

W literaturze zakłada się, iż stacjonarne łańcuchy Markowa dobrze modelują zachowanie 

płatności, dlatego też model ten jest traktowany jako swojego rodzaju benchmark. Jednakże 

autorzy sugerują,  że zmiany oprocentowania kredytów lub zmiany zachowań 

konsumpcyjnych, mogą prowadzić do zmienności procesu w czasie czyli niestacjonarności i 

sugerują, iż  takim przypadku lepszym do opisu procesu byłby model niestacjonarny.  

Ideą modelu Mover-Stayer jest zerwanie z założeniem, iż populacja jest homogeniczna. 

Zaklada się  iż populacja dzieli się na dwie grupy: „Movers”- tzn. jednostki, które dokonują 

background image

zmian zgodnie ze stacjonarnym Łańcuchem Markowa oraz „Stayers”- ci którzy nigdy nie 

zmieniają stanu (tylko w stanie P i C mogą być stayers, D nie gdyż w przypadku ciągłego 

zadłużenia konto jest likwidowane). 

 

 Dane 

użyte do modelowania mogą być traktowane jako 200 niezależnych realizacji 

jakiegoś nieznanego dyskretnego procesu stochastycznego {Z(j): j>=0} z miesięcznym 

odstępem czasu i przestrzenią stanów W= {P, C, D}. Dane można podsumować w 

następujący sposób: 

 

gdzie Z

l

(j) jest stanem konta l w chwili j dla j=1,…,J=16. 

 Następnie przedyskutowano estymację parametrów dla trzech rozpatrywanych 

procesów, bazujących na danych (1). Zapisano przestrzeń stanów procesów jako 

W={1,2…,w} a ich początkowy rozkład przez: 

 

Model A: Niestacjonarny Łańcuch Markowa 

Niech 

 

będzie macierzą przejść jedno-krokową. Wykorzystując podstawową  własność  Łańcuchów 

Markowa, j-krokowa macierz przejść P(0,j) dana jest następującym wzorem: 

 

Estymator największej wiarogodności P(j-1,j), 1≤j≤J bazujący na danych (1) dany jest 

następująco: 

 

Gdzie n

ik

(h,j) jest liczbą obserwacji w stanie k w chwili j, które były w stanie i w chwili h; 

n

i

(j) jest liczbą obserwacji w stanie i w chwili j. 

 

Model B: Stacjonarny Łańcuch Makowa 

 Macierz 

j-krokowa 

przejść tego łańcucha ma taką samą postać jak w przypadku 

niestacjonarnym (2). Jeżeli przyjmiemy P(j-1,j)=P dla 1≤j≤J, to estymator największej 

wiarogodności P wynosi: 

 

gdzie:  

background image

 = suma przejść ze stanu i do stanu w próbie 

 - suma wizyt stanu i 

 

Model C: Stacjonarny Mover-Stayer model 

Niech M = ||mik|| - macierz prawdopodobieństw przejść  dla „movers”, 

S=diag(s

1

,s

2

,…,s

w

) s

i

 – proporcja „stayers” w stanie i. J-krokowa macierz przejść tego modelu 

wygląda następująco: 

 

gdzie I jest macierzą jednostkową.  

Estymatory największej wiarogodności obliczane są następująco:  

Dla każdego i należącego do W, rozwiązywane jest następujące równanie dla m

ii

  

gdzie n

i

 liczba obserwacji, które pozostają w stanie i podczas badanego okresu. 

Wstawiając do poniższego wzoru obliczone m

ii

, wyliczamy m

ik

 dla k≠i iteracyjnie od k=1: 

 

Estymator s

i

 największej wiarogodności jest dany następująco: 

 

Można zauważyć, iż dla J dążącego do nieskończoności równanie (6) przyjmuje następującą 

postać: 

 

W związku z tym dla dużej próby, estymator m

ii

 największej wiarogodności dąży do 

poniższej wartości: 

 

Odpowiednio m

ik

 jest wyliczane z (7) i s

i

 = n

i

/n

i

(0) z (8) 

 

Skomplikowanie wzorów na estymatory jest spowodowane brakiem bezpośredniej 

obserwacji proporcji „stayers” w stanie i. Całkowita liczba kont, które pozostają w stanie i

background image

jest sumą dwóch rodzajów kont. Takich które są naprawdę stayers w stanie i oraz takich, które 

są movers ale pozostają w stanie i przez badany okres. 

 

2.3 Testy kompatybilno

ści i macierze residualne 

Niech n

i0,…,ij

  będzie liczbą razy wystąpienia historii (i

o

,…,i

J

) wśród n zaobserwowanych 

historii na danych (1), i

m

 należy do przestrzeni stanów W dla 0≤m≤J. Zakładając, iż 

indywidualne historie są niezależne od siebie, zmienne losowe 

 

mają rozkład wielomianowy z całkowitą liczbą procesów równą n oraz wielomianowe 

prawdopodobieństwa dane 

przez 

łączne rozkłady 

procesu {Z(j):j≥0} 

  

Rozkład wielomianowy umożliwia testowanie kompatybilności modelu z danymi. 

Funkcja wiarogodności obserwacji w (1) jest dana następująco: 

 

Maksimum funkcji (jeśli prawdopodobieństwa nie są ograniczone) jest dane przez: 

 

 

Maksimum funkcji wiarogodności przy założeniu,  że {Z(j): j≥0} jest stacjonarnym 

łańcuchem Markowa (model B), np. takich π

i0,…,iJ 

danych jako łączny rozkład Modelu B 

wylicza się, używając wzoru (4), następująco: 

 

Podobnie max funkcji wiarogodności dla modelu A oblicza się jako: 

 

Dla modelu C: 

 

Można zauważyć, iż stacjonarny model Markowa jest zagnieżdżony zarówno w Modelu A jak 

i C. W związku z tym formułuje się testy LR, dla testowania stacjonarnego łańcucha 

background image

Markowa przeciwko niestacjonarnemu oraz modelowi Mover-Stayer. Testy te wyglądają 

następująco: 

 

  

Macierz residuów  

 

Macierze residuów są drugim narzędziem porównawczym pomiędzy jakością modeli. 

Poniżej zdefiniujemy macierze residuów dla każdego modelu. Niech 

 

 

będzie macierzą przejść pomiędzy chwilami h i j. 

W przypadku niestacjonarnego Łańcucha Markowa, macierz residuów dana jest następująco: 

 

Dla stacjonarnego Łańcucha Markowa: 

 

Dla modelu Mover-Stayer: 

 

2.4 Wyniki 

Zaczniemy od skomentowania wyników estymacji dla modelu Mover-Stayer. Procent 

populacji niemobilnej będącej w stanie „Spłacony”, równy 

%

22

.

33

ˆ

=

P

S

jest dość wysoki, 

oznacza to, iż około 33% kont, będących aktywnymi w okresie „rozgrzewki” stało się po 

rozgrzewce nieaktywne. Procent populacji niemobilnej w stanie „Bieżący”, wynosi 5.12%. 

Uwzględnienie w modelu populacji niemobilnej, zaniża wartości oszacowań na diagonalnych 

macierzy przejść – w tym przypadku P-P oraz C-C – w stosunku do modelu Markova. Brak 

populacji niemobilnej, w stanie „Zaległy” - 

%

0

ˆ

=

D

S

, powoduje, że dolne wiersze macierzy 

P oraz M są identyczne. Fakt ten jest zgodny z charakterem danych, gdyż konta permanentnie 

zadłużone były zamykane i przez to nie uwzględnione w badaniu. 

Autorzy zwracają uwagę również na niedoszacowanie parametrów na diagonalnych 

macierzy przejść we wszystkich oszacowanych modelach. Zjawisko to dość często występuje 

w empirycznych pracach poświęconych Łańcuchom Markova. Analizując różnicę procentową 

w niedoszacowaniu pomiędzy modelami, dostrzeżemy że oba modele Markova mają podobny 

błąd. W modelu Mover-Stayer błędy te są jednak średnio o połowę mniejsze dla przejścia P-P 

background image

oraz o jedną czwartą mniejsze dla przejścia C-C oraz D-D, w porównaniu do Łańcuchów 

Markowa. 

 

Tabela 1 – Wyniki estymacji Parametrów metodą największej wiarygodności 

Model B: Stacjonarne Łańcuchy Markowa. 

Macierz przejścia jednokrokowego 

479

.

0

408

.

0

113

.

0

185

.

0

736

.

0

079

.

0

045

.

0

076

.

0

879

.

0

ˆ

=

P

 

Model C: „Mover-Stayer” 

Macierz przejścia populacji niemoblinej

Procent populacji niemobilnej 

479

.

0

408

.

0

113

.

0

196

.

0

720

.

0

084

.

0

063

.

0

107

.

0

830

.

0

ˆ

=

M

 

%

00

.

0

:

ˆ

%

12

.

5

:

ˆ

%

22

.

33

:

ˆ

D

C

P

S

S

S

 

background image

 

Tabela III 

Macierz Residuów, utworzona jako różnica wartości zaobserwowanej i wyestymowanej 

Okres Model 

Niestacjonarny Łańcuch 

Markowa 

Model B 

Stacjonarny Łańcuch 

Markowa 

Model C 

Mover-Stayer Model 

 

-.092 .034 0.058 

-.055 .040 .015 -.007 .005 .002 

(0, 

4) .071 -.071 .000 .038 .030 -.068 .017 .049 -.066 

 

.004 .099 -.103 .003 .172 -.175 -.013 .173 -.160 

 

-.206 .119 .087 -.205 .123 .082 -.111 .055 .056 

(0, 

8) .203  -.174 -.029 .167  -.151 -.016 .114  -.107 -.007 

 

-.084 .174  -.090 -.107 .188  -.081 -.148 .207  -.059 

 

-.321 .175 .146 -.315 .147 .168 -.195 .059 .136 

(0, 

12) 

.210  -.190 -.020 .208  -.213 .005  .136  -.156 .020 

 

-.100 .115 -.215 .103 .088 -.191 .046 .119 -.165 

 

-.242 .136 .106 -.223 .119 .104 -.090 .022 .068 

(0, 

16) 

.161  -.188 -.043 .179  -.135 -.044 .098  -.071 -.027 

 

.072 .021 -.093 .092 .003 -.095 .027 .039 .-066 

 

Test największej wiarygodności potwierdził wnioski płynące z analizy residuów przy 

założonym poziomie istotności 

%

1

=

α

. Nie odrzucono stacjonarnych łańcuchów Markowa 

na korzyść niestacjonarnych łańcuchów, odrzucono natomiast model stacjonarny na korzyść 

modelu Mover-Stayer 

3 Wnioski 

Analiza Residuów macierzy przejścia pokazuje, iż modele Markova znacznie zaniżają 

wartości macierzy przejść na diagonalnych. Różnica ta jest na tyle istotna, iż badania oraz 

poszukiwania lepszych modeli zdają się być uzasadnione. Zarówno testy wiarygodności jak i 

macierzy residuów pokazują, iż założenie heterogeniczności populacji ma dużo większe 

znaczenie niż założenie niestacjorności. Proste rozszerzenie modelu Markova, jakim jest 

model Mover-Stayer, lepiej zatem modeluje zachowania kont kredytowych niż model 

Markova. Wykorzystując model Mover-Stayer, należy pamiętać że uwzględnia on jedynie 

jeden prosty podział populacji, w rzeczywistości mogą być inne podziały.