background image

 

Prof. dr hab. inŜ. Jan T.Duda  

 

 

 

 

Kraków, grudzien 2004 

Katedra Analizy Systemowej i Modelowania Cyfrowego  
AGH, tel. 617-45-06 

 

Ekonometria – repetytorium 

 

1. Przedmiot i narz

ę

dzia ekonometrii 

 
Ekonometria
 – nauka o metodach badania ilościowych prawidłowości występujących w 
zjawiskach ekonomicznych
. Wykorzystuje do tego aparat rachunku prawdopodobieństwa i 
statystyki matematycznej oraz algebrę liniową (rachunek macierzowy)  
 
 
 
 
 
 
 
 
 
 
 
 
 

Rys.1. Ekonometryczne ujęcie zjawisk ekonomicznych 

 
Ekonometria zajmuje się poszukiwaniem zaleŜności ekonometrycznych f(X) (tj. 
deterministycznych powiązań ilościowych pomiędzy zmiennymi objaśniającymi i 
objaśnianymi) oraz analizą probabilistyczną składowej losowej e zmiennych objaśnianych. 
 
Literatura:  
1.

 

Henry Theil: Zasady ekonometrii, PWN, Warszawa, 1979 

2.

 

Zbigniew Pawłowski: Ekonometria, PWN, Warszawa 1969 

3.

 

Edward Nowak: Zarys metod ekonometrii – zbiór zadań, PWN, Warszawa 1994 

4.

 

John Freund Podstawy nowoczesnej statystyki, PWE, Warszawa 1968 

5.

 

G.E.P.Box, G.M.Jenkins: Analiza szeregów czasowych, PWN, Warszawa, 1983 

 

2. Podstawowe poj

ę

cia rachunku prawdopodobie

ń

stwa 

Literatura:  
1.

 

I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka – poradnik encyklopedyczny. Część 
szósta – Opracowanie danych doświadczalnych,. PWN, Warszawa 1986 

2.

 

Poradnik inŜyniera – Matematyka – Rozdziały XXXII i XXXIII  

3.

 

J.Greń: Statystyka matematyczna – modele i zadania, PWN, Warszawa 1982 

 
Definicje intuicyjne:  (Foralnie definicje moŜna znaleŜć np. w Poradniku 2) 

     Badane 
    zjawiska 
ekonomiczne
 

 

Zm.egzogeniczne X  

Wpływ otoczenia na proces 
opisują zmienne objaśniające  
(egzogeniczne)
 X 

Wpływ procesu na otoczenie 
opisują zmienne objaśniane  
(endogeniczne)
 Y: Y=f(X)+e 
e
 – reprezentacja losowości opisu 

 

Zm.endogeniczne: Y=f(X)+e  

 

Nieznane czynniki losowe v  

background image

 

Zdarzenie losowe: zdarzenie, którego zajście leŜy całkowicie lub częściowo poza zasięgiem 
kontroli.  
Definuje się: 
iloczyn zdarzeń A i B jako równoczesne wystąpienie zdarzenia A i zdarzenia B; (A*B) 
sumę (alternatywę) zdarzeń A, B, jako wystąpienie zdarzenia A lub zdarzenia B. (A+B) 
zdarzenie przeciwne do A 
– zdarzenie zachodzące wtedy gdy A nie zachodzi (

~

A) 

zdarzenie pewne – zachodzi zawsze (np. A+(

~

A));  

zdarzenie niemoŜliwe – nie zachodzi nigdy (np. A*(

~

A)); oznaczamy go symbolem 

 

zdarzenia rozłączne A, B – takie, Ŝe A*B jest zdarzeniem niemoŜliwym  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Rys.2. Graficzna ilustracja zdarzeń elementarnych i złoŜonych:  

koła- elementarne zdarzenia losowe, całe ramki – wszystkie zdarzenia moŜliwe  

 
 
Prawdopodobieństwo zdarzenia
 – liczba wyraŜająca stopień moŜliwości zachodzenia 
zdarzenia. Prawdopodobieństwo zdarzenia A czyli P(A) jest równe stosunkowi liczby 
przypadków sprzyjających zdarzeniu A (n

A

) do wszystkich przypadków moŜliwych (n): 

 

 

 

n

n

A

P

A

=

)

(

 

Wartość tak zdefiniowanego prawdopodobieństwa ilustrują stosunki pól figur (kół) 
reprezentujących zdarzenia A, B na rysunkach powyŜej, do pola całej ramki E.  
 
Właściwości prawdopodobieństwa: 
1.

 

Jeśli A, B, .. są zdarzeniami rozłącznymi (wykluczają się wzajemnie) to  

P(A lub B lub ..)=P(A)+P(B)+.. 

 

(patrz rysunek d) 

2.

 

Jeśli E jest zdarzeniem pewnym to  

P(E)=1  

 

 

 

 

(patrz rysunek e) 

Stąd wynika, Ŝe dla dowolnego zdarzenia A 
 

 

0

 P(A) 

 1 

   A 

~

nieA 

A i B 
A*B 

Zdarzenia rozłączne A, B 

Zdarzenie pewne E 

(suma wszystkich zdarzeń 
moŜliwych) 

(a) 

(b) 

 
A lub B 
(A+B) 

(c) 

(d) 

(e) 

A+(

~

A)=E 

background image

 

 

 

P(nieA)=1-P(A) 

 

 

 

(patrz rysunek a) 

Dla dowolnych zdarzeń A i B  
 

 

P(A lub B)=P(A)+P(B)-P(A i B)  

 

(patrz rysunki b, c) 

 
Prawdopodobieństwo warunkowe i prawdopodobieństwo całkowite:  
 
Mamy dwa zdarzenia losowe A i B. Niech P(B)>0. Jeśli zdarzenia A i B mogą występować 
równocześnie to moŜna mówić o prawdopodobieństwie zajścia zdarzenia A pod warunkiem, 
Ŝ

e zaszło zdarzenie B, co oznacza się symbolem P(A|B). W tym przypadku zbiór zdarzeń 

moŜliwych redukuje się do zdarzenia B, zatem (zgodnie z rys.2b) mamy: 
 
 

 

)

(

)

(

1

)

(

B

P

B

i

A

P

n

n

n

n

B

A

P

n

n

iB

A

B

iB

A

B

=

=

=

 

gdzie 

n

n

B

P

n

n

B

i

A

P

B

AiB

=

=

)

(

;

)

(

 

Prawdopodobieństwo warunkowe nazywane jest prawdopodobieństwem a posteriori (po 
uzyskaniu dodatkowej informacji) i na ogół róŜni się od P(A) zwanego prawdopodobieństwem 
a priori (określonym dla dowolnych warunków przy których zachodzi A).  
Jeśli w wyniku pewnego doświadczenia losowego realizuje się zawsze jedno z wzajemnie 
wykluczających się zdarzeń B

1

, B

2

, .. B

N

 (tzn. B

1

+ B

2

 +.. B

N

=E oraz B

1

*B

2

=

, B

i

*B

k

=

 dla 

kaŜdej pary zdarzeń B

i

, B

k

 i

k) to dla dowolnego zdarzenia A zachodzi równość: 

=

=

+

+

=

N

n

n

N

N

B

i

A

P

B

P

B

A

P

B

P

B

A

P

B

P

B

A

P

A

P

1

2

2

1

1

)

(

)

(

)

(

...

)

(

)

(

)

(

)

(

)

(

 

Jest to wzór na 

prawdopodobieństwo całkowite.  

Stosuje się go, gdy prawdopodobieństwa warunkowe P(A|B

n

) oraz prawdopodobieństwa P(A) 

albo P(B

n

) są łatwe do oszacowania lub znane. Prawdopodobieństwo wystąpienia zdarzenia B

gdy zaszło zdarzenie A liczy się ze wzoru Bayesa: 

;

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

1

A

P

AiB

P

A

P

B

P

B

A

P

B

P

B

A

P

B

P

B

A

P

A

B

P

n

n

n

N

i

i

i

n

n

n

=

=

=

=

 

 
Jeśli zdarzenie B nie wpływa na prawdopodobieństwo zdarzenia A to zdarzenia A, B są 
zdarzeniami niezaleŜnymi
. Wówczas obowiązuje zaleŜność: 

);

(

)

(

A

P

B

A

P

=

 zatem 

)

(

)

(

)

(

B

P

A

P

B

i

A

P

=

 

Zdarzenia A, B są zatem niezaleŜne, gdy mogą występować w róŜnych okolicznościach, a ich 
łączne wystąpienie jest tylko całkowicie przypadkowe. 

ZałoŜenie niezaleŜności zdarzeń jest 

często wykorzystywane w obliczeniach probabilistycznych. W ekonometrii mamy na ogół 
do czynienia ze zdarzeniami współzaleŜnymi, ale załoŜenie niezaleŜności pozwala dokonać 
zgrubnych oszacowań prawdopodobieństw iloczynu zdarzeń.  
 
Zmienne losowe: liczby charakteryzujące rezultat zjawiska losowego 
 
Zmienne losowe dyskretne – 
liczby losowe ze skończonego lub przeliczalnego zbioru 
wartości. Na ogół są to liczby całkowite symbolizujące rozwaŜane zdarzenia losowe, 
zliczające ich krotność itp.

  

Zmienne losowe ciągłe: liczby rzeczywiste o losowej wartości, charakteryzujące ilościowo 
zjawiska losowe: 
 

background image

 

Zdarzenia losowe odniesione do liczb losowych dotyczą wystąpienia określonych wartości 
zmiennych dyskretnych oraz wystąpienia wartości zmiennych ciągłych w określonych 
przedziałach. 
Prawdopodobieństwa takich zdarzeń charakteryzują rozkłady prawdopodobieństwa 
zmiennych losowych:  
Dystrybuantą rozkładu zmiennej losowej x
 nazywamy prawdopodobieństwo wystąpienia 
wartości x mniejszej niŜ argument dystrybuanty (załoŜona wartość zmiennej) X

F(X) = P(x < X

Dystrybuanta posiada następujące cechy: 
1.

 

F(-

)=0;  

2.

 

F(

)=1; 

3.

 

jest funkcją lewostronnie ciągłą i niemalejącą, tzn., jeśli X

1

<X

2

 to F(X

1

 F(X

2

)  

 
Dystrybuanta zmiennej losowej dyskretnej zmienia się skokowo w punktach 
odpowiadających kolejnym wartościom zmiennej.  
Rozkład prawdopodobieństwa takich zmiennych wygodniej jest charakteryzować podając 
wprost prawdopodobieństwa wystąpienia poszczególnych wartości p(x

i

). Nazywa się to 

krótko rozkładem prawdopodobieństwa zmiennych dyskretnych: 
 
 

f(x)={p(x

i

); i=1,2, ...,N}, gdzie N oznacza liczbę moŜliwych wartości zmiennej x 

 
W przypadku zmiennych losowych ciągłych
 (dokładnie – absolutnie ciągłych – patrz 
Poradnik [2]) rozkład opisuje się tzw. funkcją gęstości prawdopodobieństwa f(x), którą 
definiuje się jako pochodną dystrybuanty względem zmiennej x, tzn. w następujący sposób: 

 

)

(

)

(

)

(

lim

)

(

2

2

x

F

dx

d

x

x

F

x

F

x

f

x

x

o

x

=

+

=

 

Zgodnie z własnością (3) dystrybuanty funkcja f(x) jest nieujemna 
 
Uwaga !!
 Funkcja gęstości prawdopodobieństwa nie jest prawdopodobieństwem, ale pozwala 
obliczyć prawdopodobieństwo wystąpienia wartości X w zadanym przedziale x

1

, x

2

 z wzoru:  

 

 

=

2

1

)

(

)

(

2

1

x

x

dx

x

f

x

X

x

P

 

Wynika stąd, Ŝe  

=

X

dx

x

f

X

F

)

(

)

(

   

oraz    

 

=

1

)

(

dx

x

f

 

 
Parametry rozkładu prawdopodobieństwa jednowymiarowych zmiennych losowych: 
Rozkład prawdopodobieństwa zmiennej ciągłej charakteryzuje się przy pomocy parametrów 
zwanych momentami. Moment i-tego rzędu m

i

(x) definiuje się następująco: 

 

 

dx

x

f

x

x

m

i

i

=

)

(

)

(

 

Moment rzędu zerowego jest zawsze równy 1. 
 
Moment rzędu pierwszego zmiennej X nazywa się

 wartością oczekiwaną zmiennej losowej 

X, a operację jego obliczania oznacza się symbolem E(X).  

background image

 

Wartość oczekiwana jest teŜ nazywana wartością przeciętną zmiennej losowej lub nadzieją 
matematyczną.
  
 
Dla zmiennej losowej ciągłej
 wartość oczekiwaną wyraŜa wzór:  

dX

X

f

X

X

E

X

m

def

=

=

)

(

)

(

)

(

1

 

Dla zmiennej dyskretnej przyjmującej wartości x

 z prawdopodobieństwem p

i

 wartość 

oczekiwaną oblicza się ze wzoru: 

 

 

=

=

1

)

(

i

i

i

x

p

x

E

 

Właściwości wartości oczekiwanej: 
1.

 

KaŜda ograniczona zmienna losowa ma wartość oczekiwaną. 

2.

 

Wartość oczekiwana kombinacji liniowej zmiennych losowych jest kombinacją liniową 
ich wartości oczekiwanych  

)

(

...

)

(

)

(

)

...

(

2

2

1

1

2

2

1

1

N

N

N

N

x

E

a

x

E

a

x

E

a

x

a

x

a

x

a

E

+

+

+

=

+

+

+

 

3.

 

Jeśli 

x

1

 i 

x

2

 są niezaleŜnymi zmiennymi losowymi to  

)

(

)

(

)

(

2

1

2

1

x

E

x

E

x

x

E

=

 

 
Zmienna losowa ciągła 

x będąca odchyłką zmiennej losowej oryginalnej X od jej wartości 

oczekiwanej 

m

1

(

X) nazywa się zmienną losową scentrowaną: 

);

(

1

X

m

X

x

def

=

  

Oczywiście E(

x)=0 

 
Momenty wyŜszego rzędu moŜna obliczać dla oryginalnych zmiennych lub scentrowanych. 
Momenty dla zmiennych scentrowanych nazywa się momentami centralnymi.  
Centralny moment rzędu drugiego zmiennej nazywa się wariancją zmiennej 

2

x

σ

 

 

=

=

=

=

=

σ

dx

x

f

x

dX

X

f

X

E

X

x

E

x

m

X

E

X

m

X

)

(

)

(

)]

(

[

)

(

)

(

)]

(

[

2

2

2

2

2

2

 

 
Właściwości wariancji: 
1.

 

Znając pierwszy i drugi moment oryginalnej zmiennej losowej X moŜna obliczyć jej 
wariancję:  

)

(

)

(

)

(

)

(

2

1

2

2

2

2

X

m

X

m

X

E

X

E

X

=

=

σ

 

bo: 

)

(

)

(

)

(

)

(

2

)

(

)

(

)

(

)

(

)

(

2

)

(

)

(

)]

(

[

2

2

2

2

2

2

2

2

X

E

X

m

X

E

X

E

X

m

dX

X

f

X

E

dX

X

f

X

X

E

dX

X

f

X

dX

X

f

X

E

X

=

+

=

=

+

=

 

2.

 

Jeśli 

x

1

x

2

 ... 

x

N

 są niezaleŜnymi zmiennymi losowymi to  

2

2

2

2

2

2

2

1

2

1

2

2

2

1

1

]

)

[(

xN

N

x

x

N

N

a

a

a

x

a

x

a

x

a

E

σ

+

+

σ

+

σ

=

+

+

+

Κ

Κ

 

Odchyleniem średnim (standardowym) lub 

dyspersją 

σσσσ

 zmiennej losowej nazywamy 

pierwiastek arytmetyczny z jej wariancji

.  

Odchyleniem przeciętnym 

β

X

 zmiennej losowej X nazywamy wartość oczekiwaną modułu 

scentrowanej zmiennej

 x 

 
 

 

β

X

=E(|X-E(X)|) 

background image

 

 

 
 
Parametry pozycyjne rozkładu – kwantyle  

Kwantylem rzędu p zmiennej losowej x nazywamy taką wartość 

λ

p

 zmiennej, Ŝe  

 
 

 

 

P(

 

λ

p

 p   

P(

 

λ

p

 1-p 

 
Kwantyl rzędu p=1/2 nazywa się medianą (jest to wartość zmiennej losowej rozdzielająca jej 
zakres na dwie części o jednakowym prawdopodobieństwie wystąpienia p=0.5.  
Kwantyle rzędu p=1/4 i ¾ nazywają się odpowiednio kwantylem górnym i dolnym 
Kwantyle rzędu p=0.1, 0.2 ....0.9
 nazywa się decylami. 
 
Zmienną losową o wartości oczekiwanej 0 i wariancji 1 nazywamy zmienną losową 
standaryzowaną.
  
Jeśli mamy zmienną losową X o wartości oczekiwanej E(X) i dyspersji 

σ

X

 to odpowiadającą 

jej zmienną standaryzowaną x uzyskuje się przez przekształcenie 

 

 

 

X

X

E

X

x

σ

=

)

(

   

i odwrotnie, mając 

zmienną standaryzowaną x, np. odczytaną z tablic rozkładu, uzyskuje się 

zmienną X o zadanej : 

)

X

E

x

X

X

+

σ

=

  

 
 

Zmienne losowe wielowymiarowe  

Jeśli rozwaŜamy kilka zbiorów liczb losowych to mówimy o 

zmiennej losowej wielowymiarowej

Dystrybuantę zmiennej wielowymiarowej X=[X

1,

 X

2,

 ... X

N

 ] definiuje się jako 

prawdopodobieństwo zdarzenia polegającego na równoczesnym wystąpieniu wszystkich 
rozwaŜanych liczb losowych mniejszych od zadanych argumentów dystrybuanty [X

1,

 X

2,

 . X

N

 

F(X

1,

 X

2,

 ... X

N

)=P[(x

1

<X

1

) i (x

2

<X

2,

) ...i (x

N

<X

N

)] 

 
Wielowymiarowa zmienna losowa ma rozkład absolutnie ciągły jeśli istnieje taka funkcja  
f(x

1,

 x

2,

 ... x

N

 ) zwana 

wielowymiarową gęstością prawdopodobieństwa, Ŝe 

∫ ∫ ∫

=

1

2

2

1

2

1

2

1

.

)

,

,.

(

)

,

,

(

x x

x

N

N

N

N

dx

dx

dx

x

x

x

f

X

X

X

F

Κ

Κ

Λ

Κ

 

 
Zmienne losowe X

1,

 X

2,

 ... X

N

 są niezaleŜne, jeśli ich łączna dystrybuanta jest iloczynem 

dystrybuant poszczególnych zmiennych: 

 
F
(X

1,

 X

2,

 ... X

N

)=F(x

1

<X

1

)*F(x

2

<X

2,

)*...*F(x

N

<X

N

 

Zmienne losowe absolutnie ciągłe są niezaleŜne, jeśli ich wielowymiarowa funkcja gęstości 
prawdopodobieństwa jest iloczynem funkcji gęstości dla poszczególnych zmiennych: 
 
Rozkłady brzegowe i warunkowe zmiennych losowych wielowymiarowych 
Niech f(x

,

 y) oznacza dwuwymiarowy rozkład zmiennych xy.  

Rozkładami brzegowymi są funkcje: 

background image

 

=

.

)

,

(

)

(

dy

y

x

f

x

f

x

   

=

dx

y

x

f

y

f

y

)

,

(

)

(

  

Oczywiście, obie spełniają warunek podstawowy: 

=

1

dx

x

f

x

)

(

 i 

=

1

)

(

dy

y

f

y

 

 
Rozkładami warunkowymi są 
natomiast funkcje: 

=

=

=

dx

y

x

f

y

x

f

y

f

y

x

f

y

Y

x

f

y

x

)

,

(

)

,

(

)

(

)

,

(

)

(

0

0

0

0

0

 

oraz  

=

=

=

dy

y

x

f

y

x

f

x

f

y

x

f

x

X

y

f

x

y

)

,

(

)

,

(

)

(

)

,

(

)

(

0

0

0

0

0

 

 
Kowariancja zmiennych losowych X, Y – wartość oczekiwana iloczynu scentrowanych 
zmiennych x, y: 

cov(

X,Y)=E(x

y)=

)

(

)

(

)

(

)

,

(

)]

(

[

)]

(

[

Y

E

X

E

Y

X

E

dY

dX

Y

X

f

Y

E

Y

X

E

X

=

∫ ∫

 

Współczynnik korelacji 

ρρρρ

XY

 zmiennych X i Y to ich kowariancja przeliczona do zakr. [–1, 1]  

ρ

XY

=cov(X,Y)/(

σ

x

⋅σ

y

 
Współczynnik korelacji przyjmuje wartość 0 gdy zmienne X, Y są niezaleŜne i wartość 

±

1  

gdy są one 

zaleŜne liniowo (ale tylko liniowo np. X=a+bY, a, b stałe); 

Wynika to z następujących rachunków: 

cov(X

Y)=E(a

Y+b

Y

2

)-E(Y)

E(X)=a

E(Y)+b

E(Y

2

)-E(Y)

[a+b

E(Y)]= 

    =b

{E(Y

2

)-[E(Y)]

2

}=b

⋅σ

2

σ

2

X

=E[(a+b

Y)

2

]-[E(a+b

Y)]

2

=E(a

2

+2a

bY+b

2

Y

2

)-[a+b

E(Y)]

2

 

   =a

2

+2a

b

E(Y)+b

2

E(Y

2

)-a

2

-2a

b

E(Y)-b

2

[E(Y)]

2

=b

2

{E(Y

2

)-[E(Y)]

2

}=b

2

⋅σ

Y

2

 

Zatem 

σ

X

⋅σ

Y

=|b|

⋅σ

Y

, czyli  

ρ

XY

=cov(X

Y)/(

σ

X

⋅σ

Y)

=b/|b|= 

±

 
UWAGA !! 
Niezerowe, a nawet wysokie wartości współczynnika korelacji dwóch zmiennych 
losowych nie oznaczają związku przyczynowo-skutkowego między nimi, a jedynie 
współzaleŜność stochastyczną, czyli istnienie wspólnych przyczyn dla obu zjawisk 

 
Procesy stochastyczne 

 
Procesem stochastycznym nazywa się zmienną losową sparametryzowaną czasem (ogólnie – 
dowolną zmienną skalarną).  

Z=(X,t)=X

t 

 

Oznacza to, Ŝe 

kaŜdej chwili czasu t

o

 przypisuje się zbiór zmiennych losowych X

to

 (zwany 

zbiorem moŜliwych realizacji procesu Z w chwili 

t

o

), z jego wartością oczekiwaną E(

X

to

) i 

rozkładem prawdopodobieństwa f(

X

to

).  

background image

 

 
Proces stochastyczny jest zatem szczególnym przypadkiem wielowymiarowej zmiennej 
losowej i moŜna dla niego definiować wielowymiarowe rozkłady prawdopodobieństwa    
f(X

to

X

t1

, .. , X

tN

 ), a takŜe kowariancje cov(X

to

X

t1

) odpowiadające róŜnym t

o

t

1

 (zwane 

autokowariancjami lub funkcjami korelacyjnymi). Określa się je identycznie jak dla 
wielowymiarowych zmiennych losowych. Współczynnik korelacji odpowiadający dwóm 
róŜnym wartościom t, nazywa się współczynnikiem autokorelacji procesu.  
WaŜną klasą procesów stochastycznych są procesy stacjonarne.  
 
Proces stochastyczny jest 
stacjonarny w węŜszym sensie jeśli wszystkie jego rozkłady 
prawdopodobieństwa nie zaleŜą od czasu, a jedynie od róŜnic wartości t

o

, t

1

, .. , t

N

 dla 

których są definiowane.  
Zatem jednowymiarowe rozkłady prawdopodobieństwa zmiennych X

t

 dla kolejnych t są 

identyczne, czyli f(X

t

)=f(X), a rozkłady dwuwymiarowe f(X

t1

, X

t2

) zaleŜą tylko od róŜnicy 

czasów 

τ

=t

2

-t

1

, tzn. f(X

t1

, X

t2

) = f(X, 

τ

).  

TakŜe autokowariancja i współczynnik autokorelacji zaleŜą tylko od 

τ

. Nazywa się je funkcją 

korelacyjną K

X

(

τ

) i funkcją autokorelacji r(

τ

)

(

))

(

(

)

(

)

(

2

τ

τ

=

=

τ

t

t

t

t

def

X

x

x

E

X

E

X

X

E

K

2

2

2

)

(

))

(

(

)

(

)

(

σ

=

σ

=

τ

τ

τ

t

t

t

t

def

X

x

x

E

X

E

X

X

E

r

 

 

czyli    

 

2

)

(

)

(

σ

τ

=

τ

X

def

X

K

r

 

gdzie x

t 

oznacza proces scentrowany (tj. E(x)=0).  

Wartość funkcji autokorelacji w zerze wynosi zawsze 1, r(0)=1 
 
Proces stochastyczny jest stacjonarny w szerszym sensie jeśli istnieje jego wartość 
oczekiwana i jest ona stała w czasie, a funkcje korelacyjne zaleŜą tylko od przesunięcia 
czasu 

ττττ

 (nie zaleŜą od wartości t

o

, t

1

): 

m

X

(t)=E(X

t

)=m

X

=const 

 

 

 

K

X

(t

1

t

2

)=E(x

t1

x

t2

)=K

X

(

τ

 
Zatem procesy stochastyczne stacjonarne mają stałą wartość oczekiwaną, a relacje 
probabilistyczne między ich wartościami w róŜnych chwilach czasu są określone 
(deterministycznie) przez funkcję autokorelacji r(

τ

).   

Mówimy, Ŝe funkcja autokorelacji opisuje właściwości dynamiczne procesu 
stochastycznego stacjonarnego
, natomiast jego właściwości chwilowe (statyczne) 
charakteryzuje funkcja gęstości prawdopodobieństwa, czyli rozkład prawdopodobieństwa 
 
Im wolniej maleje funkcja autokorelacji, tym mniej losowe są zmiany w czasie procesu, tzn. 
zmiany te są powodowane głównie wewnętrzną inercją procesu, a nie czynnikami losowymi.  
 
Transformata Fouriera funkcji autokorelacji nazywa się funkcją gęstości widmowej mocy 
procesu 
lub spektrum procesu 
 
UWAGA:  
Funkcje analogiczne jak funkcja korelacyjna mogą być definiowane dla dwu róŜnych 
procesów stochastycznych stacjonarnych przesuniętych względem siebie w czasie.  

background image

 

Modelowe rozkłady prawdopodobieństwa 

 
Szereg zjawisk losowych moŜna opisać rozkładami prawdopodobieństwa, których gęstości są 
stosunkowo prostymi funkcjami analitycznymi zmiennej losowej.  

 

Modelowe rozkłady prawdopodobieństwa dla zmiennych dyskretnych (I.E. Brontsztejn, 

K.A.Siemeindiajew: Matematyka – poradnik encyklopedyczny. Część szósta – 
Opracowanie danych doświadczalnych,. PWN, Warszawa 1986, str.782) 

1.

 

RozwaŜmy zdarzenie losowe (zwane sukcesem) występujące w pewnym procesie 
losowym ze stałym prawdopodobieństwem p>0. Prawdopodobieństwo nie wystąpienia 
sukcesu wynosi (1-p).  
Jeśli przeprowadzimy n niezaleŜnych doświadczeń, to liczba sukcesów S

n

 jest liczbą 

losową o rozkładzie dwumianowym

k

n

k

n

p

p

k

n

k

S

P





=

=

)

1

(

)

(

 

 

wartość oczekiwana E(S

n

)=n

p;  

 

wariancja 

2
Sn

σ

=n

p

(1-p

 
2.

 

Prawdopodobieństwo łącznej liczby wystąpień X pewnego rzadkiego zdarzenia (o 
małym prawdopodobieństwie) oblicza się z rozkładu Poissona, który jest przybliŜeniem 
rozkładu dwumianowego dla 

n

 i 

0

p

 ale tak, Ŝe 

0

>

λ

p

n

.  

λ

λ

=

=

e

k

k

X

P

k

!

)

(

 

wartość oczekiwana E(X)= 

λ

;  

 

wariancja 

λ

=

σ

2

X

  

Rozkład ten jest w praktyce stosowalny juŜ dla n rzędu kilkudziesięciu, przy 

λ

<10.  

Przykładem zmiennej X moŜe być liczba klientów zainteresowanych - w pewnym 
przedziale czasu - luksusowym artykułem w sklepie odwiedzanym przez wielu klientów 
zainteresowanych na ogół innymi artykułami (np. w kiosku). MoŜna go wykorzystać do 
oceny opłacalności zamawiania takich artykułów.  
 

3.

 

RozwaŜmy sytuację jak w (1), ale gdy interesuje nas prawdopodobieństwo zdarzenia 
polegającego na wystąpieniu 

serii k sukcesów, po których następuje brak sukcesu. 

Zakładając niezaleŜność kolejnych prób uzyskuje się wyraŜenie zwane 

rozkładem 

geometrycznym dyskretnej zmiennej losowej X wyraŜającej długość serii niezaleŜnych 
sukcesów o jednakowym prawdopodobieństwie wystąpienia: 

)

1

(

)

(

p

p

k

X

P

k

=

=

 

wartość oczekiwana 

p

p

S

E

n

=

1

)

(

;  

 

wariancja 

2

2

)

1

(

p

p

X

=

σ

  

 
Modelowe rozkłady prawdopodobieństwa dla zmiennych ciągłych
 (I.E. Brontsztejn, 

K.A.Siemeindiajew: Matematyka – poradnik encyklopedyczny. Część szósta – 
Opracowanie danych doświadczalnych,. PWN, Warszawa 1986, str.783 i dalsze) 

 
1.

 

Rozkład wykładniczy określa rozstęp czasowy x pomiędzy wystąpieniami zdarzenia 
którego prawdopodobieństwo zaleŜy tylko od przedziału czasu w którym się go oczekuje, 
a nie zaleŜy od czasu trwania procesu losowego (np. czas pomiędzy nadejściem dwu 
kolejnych klientów, czas pomiędzy awariami urządzenia) 

background image

 

10 

<

=

0

0

0

)

(

x

gdy

x

gdy

e

a

x

f

ax

 

<

=

0

1

0

0

)

(

x

dla

e

x

dla

x

F

ax

 

 

wartość oczekiwana E(x)=1/a; wariancja 

2

2

1

a

X

=

σ

 

Jest to ciągły odpowiednik rozkładu geometrycznego, gdy x=k

⋅δ

t, a=(1-p)/

δ

t, 1-p=a

⋅δ

t

δ

t

0. (1-p) – prawdopodobieństwo wystąpienia zdarzenia 

 

2.

 

Rozkład równomierny ma zmienna losowa x, gdy moŜe przyjmować z tym samym 
prawdopodobieństwem dowolną wartość z przedziału [a-b, a+b], b>0 i nie występuje poza 
tym przedziałem: 



+

+

=

]

,

[

0

]

,

[

2

1

)

(

b

a

b

a

x

gdy

b

a

b

a

x

gdy

b

x

f

 

 
 
 
 
 

 

wartość oczekiwana E(x)=a; wariancja 

3

2

2

b

X

=

σ

 

Rozkład równomierny przypisuje się zmiennym losowym, których wartości są naturalnie 
ograniczone i wynikają z oddziaływania pewnego czynnika o czysto losowym charakterze 
i ograniczonej „sile”. Przykładowo, taki rozkład moŜe mieć kwota wydawana przez 
jednego klienta w małym sklepie spoŜywczym lub kiosku.  
 
 

3.

 

Rozkład normalny czyli rozkład Gaussa: dla zmiennej X o wartości oczekiwanej m=E(X
i dyspersji 

σ

 (oznaczany symbolem 

N(m

σσσσ

)): 





σ

π

σ

=

2

2

2

)]

(

[

exp

2

1

)

(

X

E

X

X

f

 

 

Dla zmiennej standaryzowanej x rozkład Gaussa N(0, 1) ma postać 





π

=

2

exp

2

1

)

(

2

x

x

f

 

i w tej postaci jest on dostępny w tablicach i generatorach liczb 
Dystrybuanta rozkładu Gaussa jest funkcją nieanalityczną zapisywaną w postaci: 





+

=





π

+

=





π

=

x

x

x

x

erf

dt

t

dt

t

x

F

2

1

2

1

2

exp

2

2

1

2

1

2

exp

2

1

)

(

2

2

 

 

gdzie 

erf(x) (error function – funkcja błędu) jest definiowana jako  

 

( )

π

=

=

x

x

dt

t

x

x

t

P

x

erf

2

exp

2

1

])

,

[

2

(

)

(

 

 

Wartości funkcji 

erf(x) dla x=1/

2

, 2/

2

, 3/

2

 (czyli w otoczeniu wartości 

oczekiwanej o szerokości 

σσσσ

, 2

⋅⋅⋅⋅σσσσ

, 3

⋅⋅⋅⋅σσσσ

), wynoszą:  

F(x) 

f(x) 

Dystrybuanta i gęstość rozkładu równomiernego 

a+b 

a-b 

x=a 

background image

 

11 

erf(1/

2

)=0.6827=68.3% 

 

 

erf(2/

2

)=0.9545=95.5% 

 

 

erf(3/

2

)=0.9973=99.7% 

 

 

erf(4/

2

)=0.9999=99.99% 

Jak widać, zmienne losowe o rozkładzie normalnym praktycznie mieszczą się w zakresie (m-
3

⋅⋅⋅⋅σσσσ

, m+3

⋅⋅⋅⋅σσσσ

) (z prawdopodobieństwem 99.7%)Jest to tzw. zasada trzech sigm.  

 
UWAGA !!! Wartość erf(x) wylicza w MATLABie funkcja o nazwie erf()
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rys. 3. Rozkład Gaussa N(0,1) dla standaryzowanej zmiennej losowej x 

 
UZUPEŁNIENIE: Zasada trzech sigm stosuje się dla liczb losowych o dowolnym 
rozkładzie.  
Ujmuje to ogólnie nierówność Czebyszewa.  Niech x oznacza zmienną losową o dowolnym 
rozkładzie z ograniczoną wartością oczekiwaną E(x) i ograniczoną wariancją 

σ

2

. Wówczas  

(

)

2

1

)

(

k

k

x

E

x

P

σ

>

  

Zatem, dowolna zmienna losowa mieści się w zakresie trzech sigm z prawdopodobieństwem 
co najmniej 90%. 

 

Rozkład normalny mają zmienne losowe, których wartości są zaleŜne od wielu czynników, 
przy czym kaŜdy z nich indywidualnie ma mały wpływ na tę wartość.
 Z taką sytuacją mamy 
bardzo często do czynienia w praktyce, w tym równieŜ w ekonometrii, dlatego rozkład 
normalny odgrywa bardzo waŜną rolę w zastosowaniach rachunku prawdopodobieństwa i w 
statystyce matematycznej.  

-3

-2

-1

0

1

2

3

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

f(x)

background image

 

12 

Formalnie ujmują to tzw. twierdzenia graniczne (patrz I.E. Brontsztejn, K.A.Siemeindiajew: 
Matematyka – poradnik encyklopedyczny. Część szósta – Opracowanie danych 
doświadczalnych,. PWN, Warszawa 1986, Poradnik inŜyniera – Matematyka – Rozdział 
XXXII).  
 
 
1. Twierdzenie Lindberga-Leviego
: Niech x

1,

 x

2

x

3,

 ... x

n,

 będzie ciągiem niezaleŜnych 

zmiennych losowych, o jednakowym rozkładzie, posiadających wartość oczekiwaną m i 
wariancję 

σ

2

. Wtedy dla kaŜdego rzeczywistego X spełniona jest relacja:  

dy

y

X

n

m

n

x

P

X

n

k

k

n





π

=

<

σ

=

2

exp

2

1

lim

2

1

 

Oznacza to, Ŝe suma n takich zmiennych przy duŜej liczbie składników n ma rozkład zbliŜony 
do normalnego z 

wariancją równą n

⋅⋅⋅⋅σσσσ

2

 i wartością oczekiwaną równą 

n

⋅⋅⋅⋅

m.  

 
MoŜna pokazać, Ŝe jeśli liczby x

1,

 x

2

x

3,

 ... x

n

 mają rozkład równomierny to juŜ dla n 

zbliŜonych do 10 uzyskuje się praktycznie rozkład normalny.  
 
2. Twierdzenie Lapunowa 
mówi, Ŝe 

suma zmiennych x

1,

 x

2

x

3,

 ... x

n

 

zmierza do rozkładu 

normalnego takŜe wówczas, gdy mają one róŜne rozkłady, róŜne wartości oczekiwane m

k

 i 

wariancje 

2
k

σ

, ale muszą mieć odpowiednio silnie ograniczone momenty centralne rzędu 

trzeciego b

k

=E(|x

k

m

k

|

3

), tak aby spełniony był następujący warunek: 

 

 

0

lim

3

1

=

σ

=

n

k

k

n

b

;  

gdzie    

=

σ

=

σ

n

k

k

1

2

 jest dyspersją sumy zmiennych. 

Wartość oczekiwana m rozkładu sumy takich liczb jest oczywiście sumą m

k

 dla k=1, 2, ..n.  

 
Z powyŜszego wynika, Ŝe 

suma niezaleŜnych zmiennych losowych o dowolnych 

symetrycznych rozkładach (czyli o zerowych b

k

, ale posiadających ograniczone wartości 

oczekiwane i ograniczone wariancje), 

zmierza do rozkładu normalnego. Oczywiście, 

zbieŜność jest w tym przypadku wolniejsza niŜ dla liczb z Twierdzenia Lindberga-Leviego. 
 
3.Lokalne twierdzenie graniczne Moivre’a-Laplace’a: 

Rozkład dwumianowy o ustalonym 

prawdopodobieństwie sukcesu p 

zmierza do rozkładu normalnego, gdy liczba prób n 

rośnie do nieskończoności.  
Liczbę sukcesów S

n

 w takiej sytuacji moŜna obliczać jako zmienną losową (ciągłą) o 

rozkładzie normalnym z wartością oczekiwaną m=n

p i wariancją 

σ

2

= n

p

(1-p). Formalnie 

zapisuje się to w postaci: 

dy

y

b

p

p

n

p

n

S

a

P

b

a

n

n





π

=



2

2

1

1

2

exp

)

(

lim

 

 

background image

 

13 

Twierdzenie to stosuje się juŜ dla n rzędu kilkudziesięciu. Pozwala ono oszacować przedziały 
np. liczby sztuk S

n

 pewnego artykułu (o stałym popycie) sprzedanych w ciągu dnia, z 

wykorzystaniem tablic funkcji błędu erf(x) pakietu MATLAB,  

gdzie 

)

1

(

2

p

p

n

d

x

=

d - promień przedziału S

n

 wokół wartości oczekiwanej m=n

p

Przykładowo, dla p=0.02 i n=50 (jeden dzień) mamy E(S

n

)=1, 

σ

Sn

=0.99, co daje 

P(S

n

[0,2])

0.68.  

Dla n=300 (tydzień) mamy E(S

n

)=6, 

σ

Sn

=2.43, co daje P(S

n

[4,8])

0.59 oraz 

P(S

n

[0,12])

0.986, czyli, Ŝe sprzedaŜ tygodniowa praktycznie nie przekroczy 12 sztuk.  

 
W analizie danych wykorzystuje się prawa wielkich liczb.  
P

RAWO WIELKICH LICZB

 Chinczyna (Poradnik inŜyniera – Matematyka str.1072)  

Niech x

1,

 x

2

x

3,

 ... x

n

 oznacza ciąg niezaleŜnych liczb losowych o jednakowym rozkładzie i 

ograniczonej wartości oczekiwanej E(x)=m. Wtedy dla dowolnej liczby dodatniej 

ε

 zachodzi 

równość: 

0

1

lim

1

=





ε

=

m

x

n

P

n

k

k

n

  

 
Jeśli dodatkowo niezaleŜne liczby losowe x mają skończoną wariancję to słuszne jest  

MOCNE PRAWO WIELKICH LICZB

które mówi, Ŝe średnia arytmetyczna ciągu niezaleŜnych 

liczb losowych o ograniczonej wartości oczekiwanej i wariancji zmierza z 
prawdopodobieństwem 1 do ich wartości oczekiwanej
.  

1

)

(

1

lim

1

=

=

=

x

E

x

n

P

n

k

k

n

 

 

4.  ELEMENTY STATYSTYKI MATEMATYCZNEJ 

 
Literatura:  

1.

 

J.Greń: Statystyka matematyczna – modele i zadania, PWN, Warszawa 1982 

2.

 

"Ekonometria. Metody i analiza problemów ekonomicznych". Pod red. K. Jajugi; Wydawnictwo 
AE we Wrocławiu, Wrocław 1999.  

3.

 

I.E.  Brontsztejn,  K.A.Siemeindiajew:  Matematyka  –  poradnik  encyklopedyczny.  Część 
szósta – Opracowanie danych doświadczalnych,. PWN, Warszawa 1986 

4.

 

Poradnik inŜyniera – Matematyka – Rozdział XXXIII  

5.

 

Edward Nowak: Zarys metod ekonometrii – zbiór zadań, PWN, Warszawa 1994 

6.

 

John Freund Podstawy nowoczesnej statystyki, PWE, Warszawa 1968 

 
Pojęcia podstawowe statystyki (wg J.Greń: Statystyka matematyczna) 
 
Metody statystyki stosuje się w ekonometrii w celu badania właściwości probabilistycznych 
zmiennych ekonometrycznych. Zmienne te reprezentują pewne cechy badanej zbiorowości, 
czyli populacji generalnej. Poddawane analizie dane (liczby losowe) są widziane jako losowa 
próba populacji generalnej
. Aby wynik badania był miarodajny, naleŜy zadbać o 

background image

 

14 

reprezentatywność próby. Uzyskuje się ją przez odpowiedni dobór (losowanie, rejestrację) 
elementów próby z populacji generalnej.  
Losowe wartości cechy w próbie o liczności n traktuje się jako jedną wartość n-wymiarowego 
wektora losowego
. Zbiór wszystkich moŜliwych wartości tej cechy w próbie o liczności n 
nazywa się przestrzenią próby.  
Rozkład populacji, to rozkład wartości badanej cechy w populacji generalnej. Zwykle zakłada 
się, Ŝe rozkład populacji jest zbliŜony do pewnego rozkładu modelowego (patrz poprzedni 
rozdział).  
Na podstawie zebranych danych losowych moŜna obliczać statystyki z próby, czyli dowolne 
funkcje zebranych zmiennych losowych. Statystyki są takŜe zmiennymi losowymi.  
Takimi statystykami mogą być zaleŜności pozwalające na oszacowanie parametrów 
rozkładów prawdopodobieństwa badanych cech populacji generalnej. Nazywa się je 
estymatorami parametrów rozkładów. Wynikiem zastosowania estymatora jest estymata 
poszukiwanego parametru rozkładu. 
Estymator nieobciąŜony – estymator a pewnego parametru 

α

 spełniający równość E(a)= 

α

co oznacza, Ŝe estymator szacuje wartość 

α

 bez błędu systematycznego, a więc pozwala 

znaleźć faktyczną wartość parametru.   
Estymator zgodny 
– estymator a pewnego parametru 

α

 spełniający warunek: 

 

 

 

1

)

(

lim

=

ε

<

α

n

n

a

P

 

tzn, estymator, który jest stochastycznie zbieŜny do wartości parametru. Gdy uŜywa się 
estymatora zgodnego, to zwiększanie liczności próby zmniejsza błąd estymacji. 
Ogólnie, estymator zgodny moŜe być obciąŜony, a estymator nieobciąŜony moŜe nie być 
zgodny.  
Estymator efektywny – estymator o moŜliwie małej wariancji. 
 
Badania statystyczne zmiennych ekonometrycznych obejmują: 
1.

 

analizę losowości zmiennych i określenie ich rozkładu prawdopodobieństwa; 

2.

 

obliczanie czyli estymację parametrów tych rozkładów; 

3.

 

weryfikację hipotez statystycznych dotyczących rozkładów populacji generalnej 

 

Analiza losowości zmiennych i określenie ich rozkładu prawdopodobieństwa 

 
Podstawowe estymatory rozkładów zmiennych losowych 

 

1. Zgodnie z prawem wielkich liczb, jeśli cecha x populacji generalnej jest zmienną losową o 
ograniczonej wariancji 

σσσσ

2

 i ograniczonej wartości oczekiwanej m, a ciąg wartości x

1, 

x

2, ...

x

n

 

tej cechy w próbie jest ciągiem niezaleŜnych liczb losowych, to estymatorem zgodnym, 
nieobciąŜonym i najefektywniejszym wartości m=E(x) jest jej

 średnia arytetyczna:

 

E(x)=

 

=

=

n

k

k

x

n

x

1

1

 

Ś

rednia arytmetyczna liczb o rozkładzie normalnym ma rozkład normalny o wartości 

oczekiwanej m (takiej jak liczby uśredniane) i wariancji  

n

xs

σ

=

σ

2

 

Jeśli uśredniane liczby mają rozkład inny niŜ normalny to rozkład średniej arytmetycznej 

zmierza (dla n zmierzającego do nieskończoności) do rozkładu normalnego 

)

,

(

n

m

N

σ

 

(patrz Twierdzenie Lindberga-Leviego
 

background image

 

15 

1. Zgodnie z prawem wielkich liczb, jeśli cecha x populacji generalnej jest zmienną losową o 
ograniczonej wariancji 

σσσσ

2

 i ograniczonej wartości oczekiwanej m, a ciąg wartości x

1, 

x

2, ...

x

n

 

tej cechy w próbie jest ciągiem niezaleŜnych liczb losowych, to estymatorem zgodnym, 
nieobciąŜonym i najefektywniejszym wartości m=E(x) jest jej

 średnia arytetyczna:

 

E(x)=

 

=

=

n

k

k

x

n

x

1

1

 

Ś

rednia arytmetyczna liczb o rozkładzie normalnym ma rozkład normalny o wartości 

oczekiwanej m (takiej jak liczby uśredniane) i wariancji  

n

xs

σ

=

σ

2

 

2. 

Estymatorem zgodnym, nieobciąŜonym i najefektywniejszym wariancji cechy x na 

podstawie ciągu wartości x

1, 

x

2, ...

x

n

 tej cechy w próbie o własnościach jak wyŜej, jest 

ś

redniokwadratowa odchyłka od wartości średniej obliczana wg wzoru

:

 

=

=

=

=

σ

=

n

k

k

n

k

k

x

n

n

x

n

x

x

n

s

m

x

E

1

2

2

1

2

2

2

2

1

1

1

1

1

)

(

)

(

]

)

[(

 

Występująca w mianowniku róŜnica (n-1) powoduje, Ŝe estymator jest nieobciąŜony. Wynika 
ona z faktu, Ŝe dane w liczbie n zostały juŜ wykorzystane do obliczenia wartości średniej. 
Zatem liczba jeszcze nie wykorzystanych danych wynosi (n-1).  
Formalnie moŜna to wykazać wychodząc z zaleŜności:  

=

=

=

=

n

k

k

n

k

k

x

E

M

n

x

E

M

x

x

E

M

m

x

E

1

2

2

1

2

2

}

)

{(

}

{

1

}

)

(

{

1

]

)

[(

 

gdzie M jest nieznanym jeszcze dzielnikiem estymatora.  
Ze wzorów podanych w poprzednim rozdziale wynika, Ŝe:  

2

2

2

}

{

m

x

E

x

k

+

=

σ

,  

 

2

2

2

2

2

}

{

m

n

m

x

E

x

xs

+

=

+

=

σ

σ

 

Po podstawieniu do wzoru wyŜej mamy:  

2

2

1

2

2

2

2

2

2

)

1

(

)

1

(

1

]

)

[(

x

x

n

k

x

x

m

n

n

n

M

n

m

n

m

M

m

x

E

σ

σ

σ

σ

σ

=





=





+

=

=

=

 

Wynika stąd, Ŝe aby uzyskać toŜsamość, M powinno być równe (n-1). 
Dzielenie przez n daje zatem błąd estymatora (obciąŜenie) jakkolwiek pozostaje on zgodny.  
Dla duŜych n moŜna ten błąd zaniedbać i dzielić przez n.  

=

=

=

n

k

k

n

k

k

x

x

n

x

x

n

s

1

2

2

1

2

2

1

1

)

(

)

(

 

Estymata wariancji obliczona jak wyŜej dla liczb o rozkładzie normalnym ma rozkład 

χ

2  

(chi-kwadrat) – patrz I.E. Brontsztejn, K.A.Siemeindiajew: Matematyka – poradnik 
encyklopedyczny. Część szósta.  
 

Zmienna losowa 

η

 ma rozkład 

χ

2

 

k stopniach swobody, gdy gęstość 

)

(

)

(

χ

η

n

p

 wyraŜa 

się wzorem 

 

 

 

 

 

1

2

2

2

)

(

2

2

2

)

(

Γ

=

k

k

k

k

k

e

p

χ

χ

η

 

Suma kwadratów N niezaleŜnych liczb losowych o rozkładzie normalnym N(0,1) ma rozkład 

χ

2

 

N-1 stopniach swobody. Zatem  

background image

 

16 

  

 

 

α

χ

χ

σ

η

=

=

<

<

b

a

N

d

p

a

s

N

b

s

N

P

)

(

)

1

(

)

1

(

)

1

(

2

2

2

 

 
4.Estymatorem kowariancji dwóch zmiennych losowych x, y jest wyraŜenie

:

 

=

=

=

n

k

k

k

xy

y

x

y

y

x

x

n

K

y

x

m

y

m

x

E

1

1

1

)

(

)

(

)

,

cov(

)]

(

)

[(

 

lub w przybliŜeniu (dla duŜych n

=

=

=

n

k

k

k

n

k

k

k

xy

y

x

y

x

n

y

y

x

x

n

K

1

1

1

1

)

(

)

(

 

 
Zachodzi równość: K

xy

=K

yx 

 
Analogicznie, dla wielowymiarowych zmiennych losowych X=[X

1

X

2

, .. X

M

], gdzie X

1

X

2

, .. 

X

M

 są wektorami kolumnowymi (o jednakowej długości) losowych wartości kolejnych cech w 

próbie, liczy się macierz kowariancji wg wzoru macierzowego: 

 

 

=

X

X

X

X

n

K

T

T

1

 

gdzie 

T

 oznacza transpozycję macierzy,

 jest wektorem wierszowym wartości średnich 

kolejnych wektorów X

1

X

2

, .. X

M, 

, zatem 

X

T

 (wektor kolumnowy) pomnoŜony przez 

 

(wektor wierszowy) daje macierz kwadratową o wymiarze MxM, czyli taką jak macierz K.  
 
Jeśli wektory X

1

X

2

, .. X

M

 są wektorami wierszowymi (takie są na ogół produkowane przez 

procedury pakietu MATLAB), to macierz kowariancji liczy się wg wzoru: 

 

 

T

T

X

X

X

X

n

K

=

1

 

Macierz kowariancji K jest symetryczna, tzn K

T

=

 
5.

Estymator funkcji autokowariancji i autokorelacji 

 
Jeśli ciąg liczb losowych jest uporządkowany wg czasu ich rejestracji, z jednakowym 
rozstępem czasowym 

∆∆∆∆

t między próbkami, czyli do kolejnych próbek moŜna przypisać 

czas liczony numerem kolejnym próbki

, to ciąg jest reprezentacją dyskretną procesu 

stochastycznego (albo inaczej – zdyskretyzowanym procesem stochastycznym).  
Jeśli badany proces stochastyczny jest stacjonarny, to estymatorem jego funkcji 
autokowariancji z rozstępem m (czyli z rozstępem czasowym 

ττττ

=m

⋅⋅⋅⋅∆∆∆∆

t) ma postać 

+

=

=

n

m

k

m

k

k

xn

x

x

x

x

m

n

m

R

1

1

1

)

(

)

(

)

(

 

Funkcję autokowariancji liczy się na ogół dla wystarczająco długich ciągów, aby moŜna było 
zastosować wzór: 

+

=

+

=

=

n

m

k

m

k

k

n

m

k

m

k

k

xn

x

x

x

m

n

x

x

x

x

m

n

m

R

1

2

1

1

1

)

(

)

(

)

(

 

Jeśli ciąg 

x

1, 

x

2, ...

x

n

 jest ciągiem niezaleŜnych liczb losowych reprezentujących stacjonarny 

proces stochastyczny, to 

>

=

σ

=

0

0

0

2

m

dla

m

dla

m

R

x

xn

n

)

(

lim

 

background image

 

17 

Estymatorem unormowanej funkcji autokowariancji (czyli autokorelacji) r

xn

(m) jest 

wyraŜenie 

 

2

x

xn

xn

s

m

R

m

r

)

(

)

(

=

 

Dyskusje ocen autokowariancji ciągu r

nm

 dla kolejnych m zawiera podręcznik 

[Mańczak Nahorski] str.66.  Dla duŜych n i duŜych m mamy:  

−∞

=

+

+

=

k

k

k

m

m

n

r

r

1

1

1

)

,

cov(

ρ

ρ

 

ρ

m

 – prawdziwa wartość funkcji 

Stąd wynika oszacowanie wariancji r

m

 

+

=

=

1

2

2

1

1

)

var(

k

k

m

n

r

ρ

  

 

 

 

(i) 

Jeśli proces x

i

 jest liniowy i spełnia warunki:  

−∞

=

=

k

k

n

k

n

a

x

ξ

 

−∞

=

<

k

k

a

2

 

−∞

=

<

k

k

|

|

 

−∞

=

<

k

k

a

k

2

|

|

 

to wielowymiarowy rozkład zmiennych 

)

,

0

(

)

(

W

N

r

n

n

m

m

ρ

.  

Dla duŜych n istotność funkcji autokorelacji moŜna badać metodą Boxa:  

1.

 

Zakładamy, Ŝe 

ρ

1

, ..., 

ρ

k

 są zerowe 

2.

 

obliczamy wariancje r

m

 ze wzoru (i) i sprawdzamy hipotezę j.w. dla m=1 

3.

 

jeśli naleŜy ją odrzucić przyjmujemy 

ρ

1

=r

1

 i sprawdzamy hipotezę dla m=2 

4.

 

w taki sam sposób sprawdzamy dla dalszych m  

 
Szeregi rozdzielcze i estymacja rozkładu prawdopodobieństwa 
 
Histogram  
a)

 

dzielimy przedział zmienności zbioru liczb x na pewną liczbę m podprzedziałów o 
szerokości 

x

i

. i grupujemy liczby w klasy takie, aby w i-tej klasie znalazły się wszystkie 

liczby x

k

 

(

]

.

,

.

i

i

i

i

x

x

x

x

+

5

0

5

0

 NaleŜy przy tym tak dobrać liczbę klas lub ich 

szerokości, aby w kaŜdej klasie znalazło się co najmniej 10 liczb Uzyskuje się w ten 
sposób 

szereg rozdzielczy zmiennej x.  

b)

 

dla kaŜdego przedziału liczymy wysokość słupka histogramu p

i

 wg wzoru: 

i

i

i

x

n

n

p

=

1

 

 

Wartość p

i

 jest estymatą prawdopodobieństwa P

i

{x 

(

]

.

,

.

i

i

i

i

x

x

x

x

+

5

0

5

0

c)

 

robimy wykres słupkowy wartości p

i

 względem 

i

x

i uzyskujemy histogram. 

Na tle histogramu wskazane jest wykreślenie przypuszczalnego rozkładu teoretycznego (lub 
zestawu rozkładów) populacji generalnej, z parametrami E(x) oraz s

2

 obliczonymi jak wyŜej.  

Jeśli danych jest wystarczająco duŜo, najwygodniej jest przyjąć stałą szerokość klas szeregu 
rozdzielczego. MoŜna do tego wykorzystać 

funkcję hist(x,k) z pakietu MATLAB. Tworzy 

ona szereg rozdzielczy wektora x z liczbą przedziałów k, a następnie wykreśla histogram dla 
liczności n

i

 próbek w podprzedziałach (a nie dla p

i

 jak zalecono w punkcie b) 

 
Histogram moŜna wykonać dla dowolnego zbioru liczb, ale ma on sens, gdy liczby te są 
liczbami losowymi. Sam kształt histogramu nie rozstrzyga kwestii losowości danych, 

background image

 

18 

jakkolwiek moŜe sugerować, Ŝe są lub nie są one losowe. Hipotezę losowości naleŜy przyjąć 
wcześniej na podstawie analizy przyczyn losowości danych, obecności pewnych oddziaływań 
deterministycznych, czy wreszcie przypuszczalnego rozkładu prawdopodobieństwa danych

Na ogół dla zmiennych ciągłych rozkład ten winien być zbliŜony do normalnego, w pewnych 
przypadkach – do równomiernego. Stwierdzenie duŜych rozbieŜności histogramu od takiej 
hipotezy moŜe być spowodowane: 
a)

 

niejednorodnością próbki, tzn. występowaniem kilku (np. dwóch) klas danych o róŜnych 
rozkładach; 

b)

 

zaleŜnością parametrów rozkładu (głównie wartości oczekiwanej) od pewnych czynników 
nielosowych (np. czasu lub zmiennych egzogenicznych) 

W przypadku (a) zbiór danych naleŜy rozdzielić na podzbiory jednorodne statystycznie.  
W przypadku (b) naleŜy znaleźć najpierw odpowiednie zaleŜności ekonometryczne badanej 
zmiennej (endogenicznej) od znanych czynników egzogenicznych, a następnie poddać 
analizie probabilistycznej odchyłki losowe danych od tych zaleŜności. Będzie to przedmiotem 
następnego rozdziału opracowania.  
 
Estymacja przedziałowa 
Jak, wspomniano, estymaty są liczbami losowymi o określonym rozkładzie 
scharakteryzowanym dyspersją i wartością oczekiwaną. W związku z tym wynik estymacji 
moŜna przedstawić jako estymatę wartości oczekiwanej parametru oraz przedział, w którym 
z zadanym prawdopodobieństwem – zwanym poziomem ufności – mieści się prawdziwa 
wartość parametru. Przedział taki nazywa się przedziałem ufności, sam sposób postępowania 
– estymacją przedziałową.  
Zwykle podaje się przedział ufności o szerokości 1

⋅σ

, 2

⋅σ

 lub 3

⋅σ

. Dla rozkładu normalnego 

estymatora odpowiada to poziomowi ufności odpowiednio: 68.3%, 95.5% i 99.7% 
 

Zgodność histogramu z załoŜonym rozkładem prawdopodobieństwa testuje się m.in. 

przy pomocy statystyki 

χ

2

 (kryterium 

χ

2

 Pearsona).  

Niech F(x) oznacza załoŜoną (teoretyczną) dystrybuantę zmiennej losowej xf(x) – funkcję 
gęstości prawdopodobieństwa, 

1

1

, ..., 

j

, ..., 

L

 ciąg rozłącznych przedziałów histogramu 

o wartości średniej x

j

n

j

 - liczbę danych w j-tym przedziale. Wówczas, dla N

→∞

 statystyka   

 

(

)

=

=



=

L

j

L

j

j

j

j

j

j

j

j

j

x

f

N

n

x

f

N

x

dF

N

n

x

dF

N

1

1

2

2

2

)

(

)

(

)

(

)

(

χ

 

ma rozkład 

χ

2

 

L-1

 

 stopniach swobody. W praktyce wystarcza, aby min

j

 N

 

f(x)

j

>10.  

 

5. Modele ekonometryczne 

 
Literatura:  

1.

 

Manikowski  A.,  Tarapata  Z.:  Prognozowanie  i  symulacja  rozwoju  przedsiębiorstwa. 
WSE Warszawa 2002 

2.

 

Pawłowski Z. " Zasady predykcji ekonometrycznej" PWN, Warszawa 1982.  

3.

 

Zeliaś A. "Teoria prognozy" PWE, Warszawa 1997.  

4.

 

Dittmann  P.,  Metody  prognozowania  sprzedaŜy  w  przedsiębiorstwie,  wyd.  6,  Wyd.  AE 
Wrocław, 2002. 

background image

 

19 

5.

 

Gajda  J.B.,  Prognozowanie  i  symulacja  a  decyzje  gospodarcze,  C.H.Beck  Warszawa, 
2001. 

6.

 

Radzikowska B. (red.), Metody prognozowania. Zbiór zadań, wyd. 3, Wyd. AE Wrocław, 
2001. 

7.

 

Zeigler B.P, Teoria modelowania i symulacji, PWN Warszawa, 1984. 

8.

 

K.  Molenda,  M.  Molenda,  Analiza  i  prognozowanie  szeregów  czasowych,  Placet, 
Warszawa 1999 

9.

 

E.  Nowak.  (red.)  Prognozowanie   gospodarcze.  Metody,  modele,  zastosowania, 
przykłady
. Placet  1998 

10.

 

Cieślak M. Prognozowanie gospodarcze. Wydawnictwo AE Wrocław, 1998.  

11.

 

Henry Theil: Zasady ekonometrii, PWN, Warszawa, 1979 

12.

 

Zbigniew Pawłowski: Ekonometria, PWN, Warszawa 1969 

6.

 

G.E.P.Box, G.M.Jenkins: Analiza szeregów czasowych, PWN, Warszawa, 1983 

 
Modelem ekonometrycznym nazywa się zaleŜność stochastyczną wartości oczekiwanych 
zmiennych endogenicznych od deterministycznych zmiennych egzogenicznych.  
Schemat ujęcia zagadnienia zilustrowano na Rys.1.  
 
Model ekonometryczny zapisuje się ogólnie w postaci: 

)

(

^

X

f

y

=

gdzie X jest wektorem wartości zmiennych, przyjętych jako istotnie oddziałujące na zmienną 
objaśnianą y. Zmienna objaśniająca y ma wartość:  

 

 

e

y

y

+

=

^

 

gdzie e jest błędem modelu spowodowanym z załoŜenia tylko czynnikami losowymi.  
 
Jeśli wektor X zawiera tylko zmienne egzogeniczne (zewnętrzne) przypisane do tej samej 
chwili czasu co zmienna endogeniczna, to model jest równaniem algebraicznym opisującym 
proces ekonomiczny w stanie wewnętrznej równowagi, a model nazywa się zaleŜnością 
statyczną
.  
Modele statyczne buduje się w celu znalezienia ilościowych i stałych w czasie powiązań 
zmiennych egzogenicznych z endogenicznymi.  
 
Jeśli co najmniej jedna spośród zmiennych X jest zmienną endogeniczną zarejestrowaną w 
poprzednich chwilach czasu, lub zmienne egzogeniczne brane są z wcześniejszych chwil 
czasu niŜ y
to model jest dyskretnym zapisem równania róŜniczkowego (czyli równaniem 
róŜnicowy) i opisuje przebieg zjawiska dynamicznego (uwarunkowanego wewnętrzną 
dynamiką badanego procesu ekonomicznego). Taki model nazywa się modelem dynamiki 
zjawiska
. Modele takie wykorzystuje się w ekonometrii głównie do prognozowania przebiegu 
zjawiska w przyszłości (matematyczne prognozowanie procesów ekonomicznych, np. cen, 
zapotzrzebowania itp.) 
 
W ekonometrii czynniki losowe odgrywają zwykle duŜą rolę, stąd konieczność poszukiwania 
raczej prostych zaleŜności f(X).  
 
W praktyce najczęściej stosuje się modele jednoczynnikowe, gdzie mamy tylko jedną 
zmienną objaśniającą. Opracowanie wiarygodnych modeli wieloczynnikowych jest zadaniem 
bardzo trudnym i wymaga często długotrwałych badań.  
 

background image

 

20 

Szczególnym przypadkiem modeli jednoczynnikowych są takie, gdzie jedyną zmienną 
objaśniającą jest czas t
. ZaleŜność ekonometryczną tego typu nazywa się często trendem, a 
wyliczanie odchyłek danych od takiej zaleŜności – ekstrakcją trendu. Formalnie, zaleŜność 
taka jest zaleŜnością statyczną, niemniej moŜe być (i często jest) wykorzystywana do analizy 
dynamicznego przebiegu zjawiska. W szczególności stosuje się takie modele do 
prognozowania zjawisk (tzw. modele Browna).  
 
Modele regresyjne, liniowe 
 
Bardzo waŜną grupę modeli ekonometrycznych stanowią modele liniowe o ogólnej postaci: 
 

A

U

X

u

a

y

n

K

k

kn

k

n

=

=

=

0

^

)

(

 

gdzie 

U

n

 jest wektorem wierszowym tzw. wejść uogólnionych [

u

0n

u

1n

, ..., 

u

Kn

], 

A – 

wektorem kolumnowym nieznanych współczynników modelu 

A=[a

0

a

1

, ..., 

a

K

].  

 
Wejścia uogólnione są to funkcje algebraiczne zmiennych objaśniającychzadane wraz ze 
wszystkimi koniecznymi współczynnikami
, tak aby mając wartości zmiennych X

n

 w 

kolejnych próbkach 

n=1..N, moŜna było obliczyć wszystkie wartości U

n

 dla 

n=1, ..N.  

Zatem, dane o wejściach X pozwalają obliczyć całą macierz 

U złoŜoną z wierszy U

n

. 

Niech 

^

,

Y

Y

oznaczają wektory kolumnowe wartości 

^

,

n

n

y

y

 dla n=1, .. NE – wektor 

kolumnowy kolejnych wartości zakłóceń e

1

,

 

e

2

, ..., e

N

. MoŜna ogólnie zapisać formuły: 

 

E

A

U

Y

+

=

;  lub 

E

Y

Y

+

=

^

 gdzie 

A

U

Y

=

^

 

 
W ekonometrii najczęściej wykorzystuje się takie modele bądź jako 

modele wieloczynnikowe 

liniowe, tj. biorąc U

 X

n

, lub jako 

modele jednoczynnikowe, w których wejścia u(x) są 

prostymi funkcjami, przewaŜnie jednomianami. W ostatnim przypadku mamy modele 
wielomianowe (najpopularniejsze).  
Postać wejść U oraz ich liczba to 

struktura modelu regresyjnegoStruktura modelu 

regresyjnego musi być ustalona arbitralnie. Mając tę strukturę naleŜy obliczyć parametry A. 
Wyznaczanie parametrów A nazywa się identyfikacją modelu. Realizuje się ją w następujący 
sposób: 
a)

 

Dokonuje się pomiarów w liczbie N>K+1, tak aby nadmiar danych w stosunku do liczby 
nieznanych współczynników pozwolił dobrać optymalne współczynniki 

b)

 

Definiuje się kryterium jakości modelu  

c)

 

Oblicza się wartości współczynników rozwiązując zadanie optymalizacji polegające na 
minimalizacji kryterium (b) 

Najprostszy algorytm uzyskuje się przyjmując jako kryterium (b) sumę kwadratów błędów 
modelu. Nazywa się to 

metodą najmniejszych kwadratów MNK.  

Takie zadanie ma rozwiązanie analityczne, tzn. optymalny wektor współczynników modelu 
wyraŜa się wzorem macierzowym:  

[

]

Y

U

U

U

A

T

T

=

1

 

UWAGA !!!  
Wyznaczone w powyŜszy sposób 

parametry A mają sens tylko wówczas, gdy macierz U jest 

dobrze uwarunkowana, tzn. wynik jej odwracania jest słabo zaleŜny od błędów 
numerycznych. 

Sprawdza się to procedurą svd() z biblioteki MATLAB. Uwarunkowanie nie 

zaleŜy od wartości wyjść procesu (i ich składnika losowego) ale tylko od struktury funkcji 

background image

 

21 

regresji i zmienności wejść (im mniejsza zmienność tym gorsze uwarunkowanie). 
Uwarunkowanie moŜna  zatem poprawić tylko przez zmianę struktury modelu lub zebranie 
bardziej zróŜnicowanych danych wejściowych.  
 
Warto podkreślić, Ŝe taki sam wzór określa współczynniki optymalnej aproksymacji dowolnej 
funkcji y(u) zadanej w N punktach. Model ekonometryczny ma być jednak zaleŜnością 
stochastyczną, a nie aproksymatą pewnej funkcji deterministycznej. Oznacza to, Ŝe błedy 
modelu chcemy interpretować jako spowodowane tylko czynnikami losowymi, a nie 
wynikające z arbitralnego doboru wartości funkcji.  
Aby uzyskany model mógł być interpretowany jako zaleŜność stochastyczna winny być 
spełnione
 następujące warunki (podane przez Gaussa) (patrz Z.Pawłowski: Ekonometria): 
a)

 

zmienne objaśniające X, a więc takŜe U winny być nielosowe (czyli dokładnie znane), i U 
nie mogą być liniowo współzaleŜne (ogólnie – macierz U musi być dobrze 
uwarunkowana, co jest konieczne, aby obliczenia dawały sensowne rezultaty) 

b)

 

 składnik losowy e zmiennej objaśnianej musi mieć zerową wartość oczekiwaną E(e)=0, i 
skończoną oraz stałą wariancję (niezaleŜną od czasu przypisanego do kolejnych danych)  

c)

 

ciąg {e

n

, n=1,2, ..N}musi być ciągiem niezaleŜnych liczb losowych 

d)

 

składnik losowy e nie moŜe być skorelowany ze zmiennymi objaśniającymi 
uwzględnionymi w modelu.  

Jeśli te załoŜenia są spełnione to estymatory A współczynników modelu są zgodne i 
nieobciąŜone, a ich macierz kowariancji wyraŜa się prostym wzorem: 
 
 

 

 

 

2

1

]

[

r

T

A

s

U

U

K

=

 

gdzie 

2

r

 oznacza estymatę wariancji reszt modelu.  

Pozwala to wyznaczać nie tylko samą funkcję regresji, ale takŜe przedziały ufności dla tej 
funkcji oraz prognoz zmiennej y, regresji w oparciu o oceny wariancji funkcji regresji 

2
ym

s

 i 

wariancji przewidywanej zmiennej objaśnianej 

2
y

s

, które oblicza się ze wzorów:  

 

 

 

T
n

A

n

ym

u

K

u

s

=

2

;  

2

2

2

r

ym

y

s

s

s

+

=

 

 
Model jednoczynnikowe wielomianowe mają wejścia uogólnione o postaci: 

u

0n 

≡≡≡≡

 1; (stała modelu) 

u

1n

= x

n 

u

2n

= (x

n

)

......... 

 

u

Kn

= (x

n

)

K

 

 
Model z ograniczeniami równościowymi [Pawłowski str.120] 

BA=C    

B – znana macierz, C – znany wektor, A – wektor współczynników oryginalnych.  
Zmodyfikowany wektor parametrów wyraŜa się wzorem: 

[

]

C

H

A

HB

I

A

+

=

*

 

gdzie  

1

1

1

]

)

(

[

]

[

=

T

T

T

T

B

U

U

B

B

U

U

H

 

Macierz kowariancji ma postać: 
 

[

]

[

]

2

1

]

[

*

r

T

T

A

s

HB

I

U

U

HB

I

K

=

 

background image

 

22 

 
Funkcje korelacyjne a zaleŜności regresyjne  
 

W przypadku szeregów czasowych, stosowaną powszechnie analizę współczynnika 

korelacji zmiennych losowych moŜna łatwo rozszerzyć, badając korelacje szeregów 
przesuniętych względem siebie w czasie, czyli funkcje korelacyjne. Dla szeregów X

Nd

={x

1

, .. 

x

N-d

}, Y

N

={y

d+1

, .. y

N

}przesuniętych o d próbek definiuje je formuła:  

+

=

=

=

N

d

n

sr

d

n

sr

n

x

y

def

yxd

d

N

N

sr

d

N

sr

N

def

yxd

x

x

y

y

s

s

d

N

R

x

X

E

y

Y

E

x

X

y

Y

E

R

1

*

2

2

)

)(

(

1

1

}

)

{(

}

)

{(

)}

)(

{(

 

       (1) 

+

=

=

N

d

n

sr

d

n

x

x

x

d

N

s

1

2

)

(

1

+

=

=

N

d

n

sr

n

y

y

y

d

N

s

1

2

)

(

1

   

 

 

(2) 

 

gdzie s

x

, s

y

,

y

x

y

sr

x

sr

 oznaczają dyspersje, wartości oczekiwane i średnie ciągów X

Nd

 i Y

N

.  

Wzór (1) moŜna zastosować dla dowolnych ciągów, ale funkcja R

yxd

 jest miarodajna, gdy 

są one stacjonarnymi szeregami czasowymi [6].  

Przyjmijmy, Ŝe szeregi Y

N

X

Nd

 mają zerowe wartości średnie (y

sr

=0, x

sr

=0) (co moŜna 

zawsze uzyskać prowadząc analizy dla szeregów scentrowanych) i są powiązane liniową 
funkcją regresji:  

n

d

n

n

z

ax

y

+

=

d

n

n

ax

y

=

ˆ

 

 

 

 

 

 

(3) 

gdzie z

n

 są próbkami zakłócenia, 

n

yˆ

- wartością oczekiwaną E{y

n

} (zaleŜną liniowo od x

n-d

). 

Jeśli zakłócenia z

n

 mają rozkład normalny z zerową wartością oczekiwaną oraz stałą wariancją 

(niezaleŜną od n), i nie są skorelowane z poprzednimi wartościami (E{z

n

z

n

m

}=0 dla m

 

>0) i ze 

zmienną x (E{z

n

x

n

d

}=0), to optymalny, zgodny i nieobciąŜony estymator  współczynnika a 

wyraŜa się wzorem wynikającym z metody najmniejszych kwadratów [Paw]:  

 

*

*

2

1

1

2

1

yxd

x

y

yxd

x

y

s

N

d

n

d

n

n

N

d

n

d

n

R

s

s

R

s

s

s

x

y

x

a

=

=

=

+

=

+

=

   

 

 

 

(4) 

Dyspersję s

e

 błędów zaleŜności (3) wyraŜa wzór:  

2

*

1

2

*

1

2

)

(

1

)

(

1

)

(

1

yxd

y

N

d

n

d

n

yxd

x

y

n

N

d

n

d

n

n

def

e

R

s

x

R

s

s

y

d

N

ax

y

d

N

s

=

=

=

+

=

+

=

 

 

(5) 

a dyspersja współczynnika a obliczonego ze wzoru (4) wynosi:  

d

N

R

s

s

d

N

s

s

s

x

s

yxd

x

y

x

e

e

N

d

n

d

n

a

=

=

=

+

=

2

*

1

2

)

(

1

1

1

   

 

 

 

(6) 

Miarą zasadności stosowania modelu regresyjnego (3) jest statystyka Studenta (t) jego 

współczynnika a:  

2

*

*

)

(

1

yxd

yxd

a

def

a

R

d

N

R

s

a

t

=

=

 

 

 

 

 

(7) 

Wynika stąd teŜ zaleŜność między statystyką Studenta i współczynnikiem korelacji, którą 

wykorzystuje się do testowania istotności korelacji [A.Manikowski, Z.Tarapata: 
Prognozowanie i symulacja rozwoju przedsiębiorstwa. WSE Warszawa 2002 (str. 172)]:  

2

2

*

2

a

a

yxd

t

d

N

t

R

+

=

 

 

 

 

 

(7a) 

background image

 

23 

Dla odpowiednio długich, nieskorelowanych ciągów (N-d

 

>30) statystyka t

a

 ma rozkład 

Gaussa N(0,1) [Pa]. Uzyskanie wartości t

a

>3 oznacza zatem, Ŝe zaleŜność (3) jest istotna na 

poziomie istotności 0.3%. Zatem, jeśli R

yxd 

 0, to wykazanie tego wymaga ciągu o długości  

(

)

1

)

(

9

2

*

>

yxd

R

d

N

    

 

 

 

 

(8) 

Bardziej praktyczną miarą przydatności modelu jest jednak stopień redukcji niepewności 

informacji o wartościach y

n

 uzyskiwanych wg wzoru (3) względem oceny trywialnej, jaką 

daje średnia wartość y

sr

 szeregu Y

N

 . Zgodnie ze wzorem (5) miarę tę wyraŜa formuła:   

2

*

)

(

1

yxd

y

e

R

s

s

=

 

 

 

 

 

 

(9) 

Jeśli szeregi Y

N

X

N-d

 są stacjonarne, to dla odpowiednio duŜych wartości N, np. 

spełniających relację (8), uzyskuje się 

*
yxd

R

R

yxd

 =const, s

y

σ

y

s

x

σ

x

s

e

σ

e

 oraz: 

2

1

/

yxd

y

e

R

=

σ

σ

,   

 

 

 

 

(10) 

gdzie 

σ

x

σ

y

σ

e

 są stałymi odchyleniami standardowymi zmiennych xy i błędów modelu (3),  

Wówczas właściwości prognoz uzyskiwanych przez zastosowanie modelu (3), t.j.  

  

n

d

n

ax

y

=

+

ˆ

 

 

 

 

         (11) 

moŜna miarodajnie ocenić wg wzoru (9), a istotność zaleŜności (3) – wg. wzoru (8).  
W przeciwnym wypadku ekstrapolacja zawarta w formule predyktora (11) moŜe wprowadzać 
znaczący błąd, większy niŜ wynikałoby to ze wzoru (9), szczególnie dla małych N.  

Modele regresyjne dynamiki procesów (modele ARMAX) 

WaŜną rolę odgrywają regresyjne, liniowe modele dynamiki procesów wynikające z równań 
róŜnicowych opisujących przebieg procesu w dyskretnych chwilach czasu:  

n

K

k

k

n

j

J

j

m

j

n

j

I

i

i

n

i

n

z

z

x

y

y

+

γ

+

β

+

α

=

=

=

=

1

1

1

 

gdzie pierwszą sumę nazywa się członem autoregresyjnym (AR), a sumy druga i trzecia są 
ś

rednimi ruchowymi (moving average MA) dla zmiennych egzogenicznych X (np. sterowań 

branych z zadanym opóźnieniem m próbek) oraz zakłóceń z (zakłocenia z są z załoŜenia 
ciągiem niezaleŜnych liczb losowych o zerowej wartości oczekiwanej
.   
Modele takie omawia obszernie monografia G.E.P.Box, G.M.Jenkins: Analiza szeregów 
czasowych
, PWN, Warszawa, 1983.  
W pakiecie MATLAB są procedury do identyfikacji współczynników modeli ARMAX.  
 
W przypadku, gdy wejścia są nieznane (np. gdy interesują nas przebiegi wejść zakłócających 
widzianych jako efekt czynników wyłącznie losowych), stosuje się model ARMA: 

n

K

k

k

n

j

I

i

i

n

i

n

z

z

y

y

+

γ

+

α

=

=

=

1

1

 

Jest on często stosowany do prognozowania takich zakłóceń (jako alternatywa dla model 
Browna).  

UWAGA !!! W modelu ARMA (a tak

Ŝ

e ARMAX) zakłada si

ę

Ŝ

e zakłócenia z maj

ą

 

warto

ść

 oczekiwan

ą

 zerow

ą

.  Je

ś

li nie jest to spełnione, a w szczególno

ś

ci, gdy 

warto

ść

 ta jest zmienna, lepiej zastosowa

ć

 model ARMA dla ró

Ŝ

nic wyj

ść

 y i 

zakłóce

ń

. Taki model nazywa si

ę

 modelem ARIMA (scałkowany model ARMA) 

 

background image

 

24 

Z drugiej strony, pomijając drugą sumę modelu ARMAX uzyskuje się model dynamiki 
procesu dla przypadku, gdy mamy słabe zakłócenia zewnętrzne, a  reprezentuje szumy 
pomiarowe. Taki model identyfikuje się metodą analizy regresji, biorąc jako wejścia 
uogólnione u wektor:   

u

n

=[y

n-1,  

y

n-2

, ... y

n-I

,  x

n-1-m

,  x

n-2-m

, ... x

n-J-m 

]  

oraz jako wejście ciąg:  

y

n

=[y

n,  

y

n-1

, ... y

n-I+1

].  

Wektor współczynników:  

A=[

α

1

α

2

, ...

α

I

,

 

β

1

β

2

, ...

β

J

]; 

Procedura identyfikacji moŜe dalej przebiegać jak dla modeli statycznych, jakkolwiek lepsze 
rezultaty daje metoda zmodyfikowana, zwana metodą zmiennych instrumentalnych (IV). Jest 
ona omówiona np. w podręczniku: A.Niederliński: Komputerowe systemy sterowania.  
W pakiecie MATLAB jest procedura do identyfikacji współczynników modelu tą metodą 
(funkcja iv()).  

 

Modelowanie charakterystyk statycznych metodą analizy regresji  

(Uzupełnienie [Duda 2003]) 

Modele  statyczne  buduje  się  w  celu  znalezienia  ilościowych  i  stałych  w  czasie  powiązań 
zmiennych  wejściowych  z  wyjściowymi.  Jeśli  czynniki  losowe  odgrywają  duŜą  rolę,  zaleca 
się poszukiwanie raczej prostych zaleŜności f(U).  

Bardzo waŜną grupę modeli statystycznych procesów stanowią zaleŜności liniowe (ze 

względu na nieznane parametry) o ogólnej postaci: 

A

U

a

y

n

K

k

n

kn

k

n

Φ

=

ϕ

=

=

0

^

)

(

   

 

 

 

(1.6.3) 

gdzie 

ϕ

n

 jest wektorem wierszowym tzw. wejść uogólnionych [

ϕ

0n

ϕ

1n

, ..., 

ϕ

Kn

], A – 

wektorem kolumnowym nieznanych współczynników modelu A=[a

0

a

1

, ..., a

K

].  

Wejścia  uogólnione  są  to  funkcje  algebraiczne  zmiennych  objaśniających,  zadane  wraz  ze 
wszystkimi  koniecznymi  współczynnikami,  tak  aby  mając  wartości  zmiennych  U

n

  w 

kolejnych próbkach n=1..N, moŜna było obliczyć wszystkie wartości 

ϕ

n

 dla n=1, ..N. Zatem, 

dane  o  wejściach  U  pozwalają  obliczyć  całą  macierz 

Φ

  złoŜoną  z  wierszy 

ϕ

n

.  Zakres 

zmienności  poszczególnych  kolumn  macierzy 

Φ

  wyznacza  N-wymiarowe  pole  korelacji 

modelu. 

Niech 

^

Y

Y

oznaczają wektory kolumnowe wartości 

^

,

n

n

y

y

 dla n=1, .. NZ – wektor 

kolumnowy kolejnych wartości zakłóceń z

1

,

 

z

2

, ..., z

N

:  

Z

A

Y

+

Φ

=

;  lub 

Z

Y

Y

+

=

^

 gdzie 

A

Y

Φ

=

^

   

 

(1.6.4) 

W sterowaniu najczęściej wykorzystuje się takie modele bądź jako modele wieloczynnikowe 
liniowe,  tj.  biorąc 

ϕ

n

=f(U

n

),  lub  jako  modele  jednoczynnikowe,  w  których  wejścia 

ϕ

n

(u)  są 

prostymi funkcjami (przewaŜnie jednomianami) jednej zmiennej wejściowej.  

Postać  wejść 

Φ

  oraz  ich  liczba  to  struktura  modelu  regresyjnego,  która  musi  być 

ustalona  arbitralnie

.  Mając  tę  strukturę  naleŜy  obliczyć  parametry  A.  Wyznaczanie 

parametrów A nazywa się identyfikacją modelu. Jest ona realizowana w następujący sposób: 
d)

 

rejestruje się pomiary wejść i wyjść w liczbie N>K+1, tak aby nadmiar danych w stosunku 
do liczby nieznanych współczynników pozwolił dobrać optymalne współczynniki A 

e)

 

definiuje się kryterium jakości modelu  

f)

 

oblicza  się  wartości  współczynników  rozwiązując  zadanie  optymalizacji  polegające  na 
minimalizacji kryterium (b),  

g)

 

przy pomocy testów statystycznych usuwa się z modelu mało istotne składniki.  

background image

 

25 

Najprostszy  algorytm  identyfikacji  uzyskuje  się  przyjmując  jako  kryterium  (b)  sumę 

kwadratów  błędów  modelu.  Nazywa  się  to  metodą  najmniejszych  kwadratów  MNK.  Takie 
zadanie ma rozwiązanie analityczne, tzn. optymalny wektor współczynników modelu wyraŜa 
się wzorem macierzowym ([Mań79], [MaN81], [Gór97]):  

[ ]

Y

A

T

T

Φ

Φ

Φ

=

1

 

 

 

 

 

(1.6.5) 

Wzór ten moŜna zapisać w postaci splotowej:  

GY

A

=

  

 

 

 

 

(1.6.5a) 

gdzie 

[ ]

T

T

def

G

Φ

Φ

Φ

=

1

  jest  macierzą,  której  wiersze  są  odpowiedziami  impulsowymi  filtru 

przekształcającego ciąg Y na współczynniki jego aproksymaty minimalnokwadratowej.  
Zostanie wykazane w dalszej części tego rozdziału, Ŝe suma elementów wierszy k=0, 1, ....K 
macierzy G spełnia równości: 

 

 

=

=

N

n

on

g

1

1     oraz   

=

=

N

n

kn

g

1

0  dla k=1, ...K   

 

 

(1.6.5b) 

NaleŜy  zwrócić  uwagę,  Ŝe  wyznaczone  wg  wzoru  (1.6.5)  parametry  A  mają  sens  tylko 
wówczas,  gdy  macierz 

Φ

  jest  dobrze  uwarunkowana,  tzn.  wynik  jej  odwracania  jest  słabo 

zaleŜny  od  błędów  numerycznych  (patrz  rozdz.3.2).  Uwarunkowanie  nie  zaleŜy  od  wartości 
wyjść  procesu  (i  zakłóceń)  ale  tylko  od  struktury  funkcji  regresji  i  zmienności  wejść  (im 
mniejsza  zmienność  tym  gorsze  uwarunkowanie).  MoŜna  je  zatem  poprawić  tylko  przez 
przeskalowanie (normalizację) wejść uogólnionych lub zmianę struktury modelu, lub zebranie 
bardziej  zróŜnicowanych  danych  wejściowych.  Dokładność  obliczeń  moŜna  równieŜ 
zwiększyć stosując tzw. faktoryzację pierwiastkową i przekształcenie Hausholdera [Nied85].    

Wzór  (1.6.5)  jest  ogólną  formułą  minimalno-kwadratowego  dopasowania  danych  do 

załoŜonego  modelu,  a  więc  nie  zawsze  daje  wyniki  będące  estymatami  w  sensie 
statystycznym.  Określa  bowiem  równieŜ  współczynniki  optymalnej  aproksymacji  dowolnej 
funkcji y(u) zadanej w N punktach. Dla niektórych zastosowań poszukiwana zaleŜność (1.6.3) 
moŜe  spełniać  jedynie  rolę  aproksymaty  pewnej  złoŜonej  funkcji  w  polu  korelacji. 
Przykładem są zaleŜności wykorzystywane do iteracyjnej optymalizacji on-line omawiane w 
rozdz.3.5.3.2. W wielu przypadkach wymaga się jednak, aby model był adekwatny równieŜ w 
pewnym  otoczeniu  pola  korelacji.  Funkcja  (1.6.4)  musi  być  wówczas  zaleŜnością 
stochastyczną  co  oznacza,  Ŝe  błędy  modelu  winny  być  powodowane  tylko  czynnikami 
losowymi, bez znaczącego wpływu arbitralnego doboru struktury modelu.  

Model  (1.6.3)  o  współczynnikach  obliczonych  wg  wzoru  (1.6.5)  jest  zaleŜnością 

stochastyczną, jeśli spełnione są następujące warunki podane przez Gaussa (patrz [Paw69]): 

a)

 

zmienne  wejściowe  U,  a  więc  takŜe 

Φ

  muszą  być  nielosowe  (czyli  dokładnie 

znane), a macierz 

Φ

 musi być dobrze uwarunkowana,  

b)

 

składnik losowy z zmiennej wyjściowej musi mieć zerową wartość oczekiwaną 
E{z}=0,  i  skończoną  oraz  stałą  wariancję  (niezaleŜną  od  czasu  przypisanego 
do kolejnych danych)  

c)

 

ciąg {z

n

, n=1,2, ..N} musi być ciągiem niezaleŜnych liczb losowych 

d)

 

składnik  losowy  z  nie  moŜe  być  skorelowany  ze  zmiennymi  wejściowymi 
uwzględnionymi w modelu, tzn. 

0

}

{

=

Φ

Z

E

T

 .  

Jeśli spełnione jest załoŜenie (a), to błąd losowy współczynników wyraŜa się wzorem:  

Z

A

T

T

Φ

Φ

Φ

=

δ

1

]

[

   

 

 

 

(1.6.6) 

Wynika  stąd,  Ŝe  przy  spełnionym  załoŜeniu  (d)  estymator  (1.6.5)  jest  nieobciąŜony,  tzn.: 
E{

δ

A}=

 

0, a macierz kowariancji współczynników modelu wyraŜa ogólnie wzór:   

 

1

1

1

1

]

[

]

[

]

[

}

{

]

[

}

)

(

{

Φ

Φ

Φ

Φ

Φ

Φ

=

Φ

Φ

Φ

Φ

Φ

Φ

=

δ

δ

=

T

Z

T

T

T

T

T

T

T

def

A

K

Z

Z

E

A

A

E

K

     (1.6.7) 

background image

 

26 

 
gdzie K

Z

 oznacza macierz autokowariancji zakłóceń, która przy załoŜeniach (b) i (c)  wynosi 

2

z

I

σ

. Estymatę zgodną 

2

r

 wariancji 

2

z

σ

zakłóceń (wariancji reszt modelu) wyraŜa wzór:  

 

 

=

=

N

n

n

n

r

y

y

K

N

s

1

2

^

2

1

1

 

 

 

 

(1.6.8) 

Zatem,  jeśli  spełnione  są  załoŜenia  (a-d),  to  estymator  (1.6.5)  współczynników  modelu  jest 
zgodny i nieobciąŜony, a macierz kowariancji współczynników wyraŜa się prostym wzorem: 

 

 

 

 

2

1

]

[

r

T

A

s

K

Φ

Φ

=

 

 

 

 

 

(1.6.9) 

Jeśli  dodatkowo  zakłócenia  losowe  mają  rozkład  Gaussa,  to  wzór  (1.6.5)  daje 
najefektywniejsze estymaty współczynników modelu o przyjętej strukturze [Mań79].  

Wzór (1.6.8) daje estymator zgodny wariancji resztowej. MoŜna to wykazać, podobnie 

jak dla estymatora wariancji, wychodząc z zaleŜności:  

(

)

=

=

=

=

N

n

n

n

N

n

n

n

r

y

E

y

E

M

y

y

E

M

s

E

1

2

2

1

2

2

}

ˆ

{

}

{

1

}

)

ˆ

(

{

1

}

{

 

 

(1.6.9a)

 

gdzie M jest nieznanym jeszcze dzielnikiem estymatora.  
Ze wzorów podanych w rozdziale o rachunku prawdopodobieństwa wynika, Ŝe:  

2

2

2

~

}

{

n

z

n

y

y

E

+

=

σ

  

 

 

 

 

 (1.6.9b) 

2

2

2

~

}

ˆ

{

n

yn

n

y

y

E

+

=

σ

 

 

 

 

 

(1.6.9c) 

gdzie 

}

{

~

n

n

y

E

y

=

2
yn

σ

 oznacza wariancję modelu

.  

Pierwszy  składnik  po  prawej  stronie  wzoru  (1.6.9c)  jest  wartością  oczekiwaną  estymaty 
wariancji modelu. Błąd modelu dla n-tej obserwacji wejść uogólnionych 

ϕ

n

 wynosi (zgodnie z 

1.6.5b i 1.6.6): 

∑∑

=

=

=

=

=

Φ

Φ

Φ

=

N

i

i

ni

N

i

K

k

i

ki

nk

T

T

n

n

z

c

z

g

Z

y

1

1

0

1

]

[

ˆ

ϕ

ϕ

δ

   

 

(1.6.9d) 

Estymatę 

)

(

2

n

y

U

s

 wariancji modelu 

2
yn

σ

 dla obserwacji U

n

 moŜna obliczyć na dwa sposoby. 

Pierwszy, to wykorzystanie macierzy kowariancji współczynników (1.6.9):  

 

)

(

)

(

)

(

2

n

T

n

A

n

n

n

y

U

K

U

U

s

ϕ

ϕ

=

  

 

 

(1.6.9e) 

Jeśli K

Z

=

2

z

I

σ

, to jej wartość oczekiwana wynosi: 

{

}

2

2

1

2

2

]

[

}

{

z

n

z

T

n

T

n

yn

yn

s

E

σ

γ

σ

ϕ

ϕ

σ

=

Φ

Φ

=

=

   

 

(1.6.9f) 

gdzie 

T

n

T

n

def

n

ϕ

ϕ

γ

1

]

[

Φ

Φ

=

  są  współczynnikami  rozkładu  błędu  generowanego  przez 

zakłócenia dla poszczególnych obserwacji 

ϕ

n

 będących wierszami macierzy 

Φ

.  

Przykładowe  wartości  współczynników  filtrujących  g

kn

  i  rozkładu  g

n

  dla  100  obserwacji 

modelu wielomianowego 3. stopnia pokazano na rys.1.  

WykaŜemy, Ŝe   

=

+

=

N

n

n

K

1

1

γ

  

 

 

 

 

(1.6.9g) 

Niech f

ij

 oznacza ij-ty element macierzy F=[

Φ

T

Φ

]

-1

. Współczynnik 

γ

n

 wyraŜa wzór: 

background image

 

27 

[

]

[

]

[

]

[

]

[

]

[

]

+

+

+

=

=

+

+

+

=

KK

K

K

nK

nK

nK

n

K

n

nK

n

n

K

n

nK

n

n

n

n

nK

KK

K

K

nK

n

n

n

K

nK

n

n

n

K

nK

n

n

n

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

f

:

,

.

,

...

:

,

..

,

:

,

....

,

,

:

,

..

,

,

...

:

,

..

,

,

:

,

..

,

,

1

0

0

1

11

01

1

1

0

0

10

00

0

0

1

0

0

1

0

1

0

1

1

11

01

1

0

0

0

10

00

1

0

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

γ

 

co moŜna zapisać w skrócie:  

[

]

=

=

K

k

Kk

k

k

nk

nK

nk

n

nk

n

n

f

f

f

0

1

0

1

0

:

,

,..

...,

,

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

γ

   

 

(1.6.9g0) 

Zsumowanie elementów 

γ

n

 daje:  

=

=

=

=

=

=

K

k

Kk

k

k

N

n

nk

nK

N

n

nk

n

N

n

nk

n

N

n

n

f

f

f

0

1

0

1

1

1

1

0

1

:

,

,..

...,

,

ϕ

ϕ

ϕ

ϕ

ϕ

ϕ

γ

 

 

(1.6.9g1) 

Zwróćmy uwagę, Ŝe wektor wierszowy jest tu 

k-tym wierszem macierzy 

Φ

T

Φ

, natomiast 

wektor kolumnowy – to 

k-ta kolumna macierzy odwrotnej F, tj. [

Φ

T

Φ

]

-1

. Iloczyn skalarny 

takich wektorów 

musi być zawsze równy 1, co wynika z oczywistej relacji [

Φ

T

Φ

][

Φ

T

Φ

]

-1

=I. 

Zatem powyŜsza suma wynosi zawsze 

K+1, co jest wykazaniem zaleŜności (1.6.9g) !!!!.  

 
Wynika stąd ogólne twierdzenie algebry macierzowej: 
 

Ślad macierzy U*[U

T

U]

-1

U

T

 jest zasze równy rzędowi macierzy U 

 
 

W taki sam sposób wykazuje się zaleŜność (1.6.5b). 

 
Sposób drugi, to zastosowanie wzoru (1.6.9d).  

∑∑

=

=

=

=

=

Φ

Φ

Φ

=

N

i

i

ni

N

i

K

k

i

ki

nk

T

T

n

n

z

c

z

g

Z

y

1

1

0

1

]

[

ˆ

ϕ

ϕ

δ

 

Po podstawieniu wzorów (1.6.9b) i (1.6.9cb) do wzoru (1.6.9a) i uwzględnieniu (1.6.9f) oraz  
(1.6.9g) mamy:  

(

)

2

1

2

1

2

2

1

2

2

2

2

2

)

1

(

1

~

~

1

}

{

z

N

n

n

z

N

n

yn

z

N

n

n

yn

n

z

r

M

K

N

N

M

N

M

y

y

M

s

E

σ

γ

σ

σ

σ

σ

σ

=

=

=

+

=

=

=

=

 

Wynika stąd, Ŝe aby uzyskać estymator nieobciąŜony, M powinno być równe (N-K-1). 

Wzór (1.6.9) pozwala wyznaczyć przedziały ufności dla funkcji regresji oraz prognoz 

zmiennej  y,  w  oparciu  o  oceny  wariancji  funkcji  regresji 

2
ym

s

  i  wariancji  przewidywanej 

zmiennej objaśnianej 

2
y

s

, które oblicza się ze wzorów:  

background image

 

28 

 

2

2

2

r

ym

y

s

s

s

+

=

   

 

 

 

 

 

(1.6.10) 

 

20

40

60

80

100

0.04

0.06

0.08

0.1

0.12

0.14

n=1, ..., 100

γ

n

Rozklad bledow modelu w polu korelacji 

γ

n

(n)

20

40

60

80

100

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

n=1, ..., 100

g

k

,n

Odpowiedzi impulsowe MNK dla K=3, W =I

 

Uzyskanie  dobrych  wyników  modelowania,  szczególnie  poza  polem  korelacji, 

wymaga  trafnego  doboru  funkcji  regresji,  tj.  przekształceń 

ϕ

n

(U)  generujących  wejścia 

uogólnione,  a  takŜe  przyjęcia  odpowiedniej  liczby  członów  (K+1)  modelu  (1.6.3).  Dla 
procesów  wielowejściowych  dobór  przekształceń 

ϕ

  jest  na  ogół  trudnym  problemem, 

wymagającym  duŜego  doświadczenia,  intuicji  i  wiedzy  technologicznej.  Jeśli  rozbieŜności 
między  funkcją  regresji  pierwszego  rodzaju  a  modelem  są  duŜe,  to  formuła  (1.6.9)  jest 
nieadekwatna, a co za tym idzie oszacowania przedziałów ufności są niemiarodajne (na ogół 
zbyt  optymistyczne).  Z  drugiej  strony,  zastosowanie  zbyt  złoŜonej  funkcji  regresji  prowadzi 
często  do  złego  uwarunkowania  zadania  identyfikacji,  lub  powoduje  bardzo  niekorzystne 
właściwości  modelu  poza  polem  korelacji,  ujawniające  się  zwykle  szybkim  wzrostem 
wariancji  modelu  obliczanej  wg  (1.6.10).  Jest  to  typowy  efekt  nadparametryzacji  modelu, 
której skutkiem jest nadmierna wraŜliwość wyniku estymacji na zakłócenia.  

Podobne zaleŜności moŜna uzyskać dla uogólnionej MNK.  

WY

W

A

T

T

Φ

Φ

Φ

=

1

]

[

 

 

 

 

    (1.6.7) 

1

1

1

1

]

[

]

[

]

[

}

{

]

[

}

)

(

{

Φ

Φ

Φ

Φ

Φ

Φ

=

Φ

Φ

Φ

Φ

Φ

Φ

=

=

W

W

WK

W

W

W

Z

Z

WE

W

A

A

E

K

T

T

Z

T

T

T

T

T

T

T

T

def

A

δ

δ

      (1.6.7) 

Jeśli  jako  macierz  wagową  przyjmiemy  W

T

=a

(K

Z

)

-1

,  gdzie  a  jest  dowolną  stałą,  to 

współczynniki A nie zaleŜą od a, natomiast macierz K

A

 wyraŜa się wzorem:  

1

]

[

Φ

Φ

=

W

a

K

T

A

 

 

 

 

 

(1.6.9h) 

W  przypadku,  gdy  K

Z

  jest  diagonalna  macierz  W=diag(

)

/

2

zn

a

σ

.  Obliczymy  sumę  waŜonych 

kwadratów błędów modelu:  

 

 

=

=





=

=

N

n

zn

n

n

N

n

n

n

n

T

y

y

a

y

y

w

WE

E

1

2

^

1

2

^

σ

 

 

 

(1.6.8h) 

Podobnie jak we wzorach (1.6.8-1.6.9f) obliczymy wartość oczekiwaną tej sumy:  

background image

 

29 

=

=

=



=





=





=

N

n

zn

yn

zn

zn

N

n

zn

n

n

N

n

zn

n

n

T

a

y

E

y

E

a

y

y

a

WE

E

E

1

2

2

2

2

1

2

2

2

1

2

2

^

}

ˆ

{

}

{

}

}

{

σ

σ

σ

σ

σ

σ

  (1.6.9i) 

Estymatę 

)

(

2

n

y

U

s

  wariancji  modelu 

2
yn

σ

  dla  obserwacji  U

n

  moŜna  obliczyć  wg  macierzy 

kowariancji współczynników (1.6.9h):  

 

)

(

)

(

)

(

2

n

T

n

A

n

n

n

y

U

K

U

U

s

ϕ

ϕ

=

  

 

 

(1.6.9j) 

W rozwaŜanym przypadku jej wartość oczekiwana wynosi: 

{

}

2

1

1

1

2

2

]

[

]

[

}

{

zn

n

T

n

Z

T

n

T

n

T

n

yn

yn

K

W

a

s

E

σ

γ

ϕ

ϕ

ϕ

ϕ

σ

=

Φ

Φ

=

Φ

Φ

=

=

 

   (1.6.9k) 

gdzie 

T

n

T

n

def

n

ϕ

ϕ

γ

1

]

[

Φ

Φ

=

  są  współczynnikami  rozkładu  błędu  generowanego  przez 

zakłócenia dla poszczególnych obserwacji 

ϕ

n

, takimi samymi jak dla MNK – wzór (1.6.9f).  

Zatem, zgodnie ze wzorem (1.6.9g) mamy 

=

=

+

=

=



N

n

n

N

n

zn

yn

K

1

1

2

2

)

1

(

γ

σ

σ

   

 

 

(1.6.9l) 

Zatem  

)

1

(

}

{

=

K

N

a

WE

E

E

T

 

 

 

 

(1.6.9m) 

a więc estymatorem zgodnym stałej a jest  

=

=

=

N

n

n

n

n

T

y

y

w

K

N

K

N

WE

E

a

1

2

^

)

1

(

1

)

1

(

 

 

(1.6.9n) 

Macierz kowariancji zakłóceń naleŜy obliczać ze wzoru:  

=

Φ

Φ

=

N

n

n

n

n

T

A

y

y

w

K

N

W

K

1

2

^

1

)

1

(

1

]

[

 

 

 

 

 

(1.6.9o) 

Przykładowe współczynniki g

kn

 i rozkład błędów dla K=3 i N=100 pokazano na rysunku.  

 

2 0

4 0

6 0

8 0

1 0 0

1

2

3

4

5

6

7

8

9

1 0

1 1

n= 1 , ..., 1 0 0

γ

n

/w

n

R o zk la d  b le d o w  m o d e lu  w  p o lu  k o re la c ji  

γ

n

(n)/w

n

2 0

4 0

6 0

8 0

1 0 0

0

0 .0 5

0 .1

0 .1 5

0 .2

0 .2 5

0 .3

0 .3 5

0 .4

0 .4 5

0 .5

n = 1 , ..., 1 0 0

g

k

,n

O d p o w i e d zi  im p uls o w e  M N K  d la  K = 3 , W = I* 1 /n

 

W  celu  uzyskania  modelu  o  najkorzystniejszych  właściwościach  naleŜy 

wyspecyfikować  w  miarę  liczny  zbiór  wejść  uogólnionych,  a  następnie  wybrać  z  niego 
moŜliwie  mało  liczny  podzbiór  wejść  istotnych  w  sensie  statystycznym.  Suboptymalne 
procedury  wyboru  zwane  regresją  krokową  [MaN81]  (ang.  step-wize  regression)  są 
stosunkowo  łatwe  do  algorytmizacji.  Najprostsza  i  zwykle  wystarczająco  skuteczna  jest 
procedura odrzucania [MaN81], oparta na iteracyjnym testowaniu hipotezy H

o

 o nieistotności 

kolejnych współczynników a

j

 modelu:  

background image

 

30 

H

o

:  

E{a

j

}=0;   

H

1

:  

E{a

j

}

0;  

 

 

 

 

 

W  typowym  przypadku,  gdy  zakłócenia  z  mają  rozkład  normalny,  testowanie  hipotezy  H

o

 

opiera  się  na  statystyce  t  Studenta  [Mań79],  z  załoŜonym  poziomem  istotności  testu 

α

Funkcja  gęstości  prawdopodobieństawa  rozkładu  Studenta  i  związek  poziomu  istotności 

α

  z 

wartością krytyczną t

kr

 statyki mają postać [Gór97]:  

2

1

2

1

1

2

2

1

1

)

,

(

+





+

Γ

+

Γ

π

=

l

l

t

l

l

l

l

t

f

   

α

=

kr

kr

t

t

dt

l

t

f

)

,

(

1

 

 

(1.6.11) 

gdzie l>0 jest parametrem całkowitym (liczbą stopni swobody), 

Γ()

 - funkcją gamma Eulera.  

Niech s

aj

 oznacza estymatę dyspersji współczynnika a

j

, obliczonego w m-tej iteracji, w 

której model (1.6.3) zawierał (K

m

+1) członów (s

aj

.= 

Ajj

K

). Jeśli hipoteza H

jest prawdziwa, 

to iloraz t

j

a

j

/s

aj

 ma rozkład Studenta t o liczbie stopni swobody l=N-K

m

-1 [Mań79]. Zatem, 

rozpoczynając  od  nadmiarowego  (ale  zapewniającego  dobre  uwarunkowanie  zadania) 
zestawu  członów  równania  (1.6.3),  w  kolejnej  iteracji  oblicza  się  współczynniki  A  według 
wzoru (1.6.5) oraz wartości statystyki t

j

a

j

/s

aj

 dla kaŜdego członu obecnego w modelu. Jeśli 

spełniona jest relacja: 

 

kr

i

i

j

t

t

t

<

=

|

|

min

|

|

   

 

 

 

 

(1.6.12) 

to przyjmuje się hipotezę H

o

 dla j-tego członu równania, bo nie ma podstaw do jej odrzucenia 

(oznacza to załoŜenie a

j

=0, a więc usunięcie j-tego członu z równania), po czym rozpoczyna 

się następna iteracja. Procedura kończy się, gdy relacja (1.6.12) nie jest spełniona, co oznacza, 
Ŝ

e wszystkie składniki modelu są istotne na poziomie istotności 

α

.  

1.6.3. Modele regresyjne dynamiki procesów 

W  klasycznym  ujęciu  punktem  wyjścia  do  identyfikacji  dynamiki  procesu  SISO  jest  model 
dyskretny w postaci ARMAX (CARMA):  

n

K

k

k

n

j

J

j

m

j

n

j

I

i

i

n

i

n

z

z

u

y

y

+

γ

+

β

+

α

=

=

=

=

1

1

1

 

 

 

(1.6.13) 

gdzie  zakłócenia  z  są  z  załoŜenia  ciągiem  niezaleŜnych  liczb  losowych  o  zerowej  wartości 
oczekiwanej.  
Modele  takie  omawiają  obszernie  monografie  [BoJ83],  [MaN81]  i  [Nied85].  Procedury  ich 
identyfikacji  zawarte  są  w  pakietach  wspomagania  projektowania  układów  automatyki  (np. 
MATLAB).  
W przypadku, gdy wejścia są nieznane (np. gdy interesują nas przebiegi wejść zakłócających 
widzianych jako efekt czynników wyłącznie losowych), stosuje się model ARMA: 

n

K

k

k

n

j

I

i

i

n

i

n

z

z

y

y

+

γ

+

α

=

=

=

1

1

   

 

 

 

(1.6.14) 

Jest on często stosowany do prognozowania zakłóceń.  
NaleŜy  zaznaczyć,  Ŝe  w  modelu  ARMA  (a  takŜe  CARMA)  zakłócenia 

z  mają  z  załoŜenia 

wartość oczekiwaną zerową. Jeśli nie jest to spełnione, a w szczególności, gdy wartość ta jest 
zmienna, lepiej zastosować model ARMA dla róŜnic wyjść 

y i zakłóceń. Taki model nazywa 

się modelem ARIMA (scałkowany model ARMA) 

Z kolei, pomijając drugą sumę modelu ARMAX uzyskuje się model dynamiki procesu 

dla  przypadku,  gdy  mamy  słabe  zakłócenia  zewnętrzne,  a 

z  reprezentuje  szumy  pomiarowe. 

Taki model moŜe uwzględniać takŜe opóźnienie 

d. Identyfikuje się je metodą analizy regresji, 

biorąc jako wejścia uogólnione 

ϕ

 wektor:  

background image

 

31 

 

ϕ

n

=[y

n-1,  

y

n-2

, ... y

n-I

,  u

n-1-m-d

,  u

n-2-m-d

, ... u

n-J-m-d 

]  

 

 

(1.6.15) 

oraz jako wyjście ciąg: 

y

n

=[y

n,  

y

n-1

, ... y

n-I+1

].   

 

 

 

 

 

(1.6.16) 

Wektor współczynników ma postać: 

A=[

α

1

α

2

, ...

α

I

,

 

β

1

β

2

, ...

β

J

]    

 

 

 

 

(1.6.17) 

Procedura  identyfikacji  moŜe  dalej  przebiegać  jak  dla  modeli  statycznych,  z  macierzą 

Φ

 

zbudowaną z wierszy (1.6.15), ale wzór (1.6.5) daje obciąŜone estymaty współczynników A
gdyŜ zakłócenia z

n

 modelu (1.6.14) są skorelowane ze zmiennymi wejściowymi y

n-i

.  

Lepsze rezultaty moŜna uzyskać przez zastosowanie zmodyfikowanej procedury identyfikacji, 
zwanej  metodą  zmiennych  instrumentalnych  (IV)  [Nied85].  W  celu  wyznaczenia 
nieobciąŜonej  estymaty  współczynników  A  modelu  dynamicznego  definiuje  się  macierz  W 
zmiennych  instrumentalnych,  taką  aby  W  nie  była  skorelowana  z  zakłóceniami  z

n

,  a 

równocześnie była silnie skorelowana z wejściami uogólnionymi 

ϕ

, tj. : 

0

1

1

lim

=

+

Z

W

N

T

N

,    

0

1

1

lim

Φ

+

T

N

W

N

   

 

(1.6.18) 

Symbol  lim  oznacza  tu  granice  stochastyczne  [Nied85],  a  druga  macierz  musi  istnieć  i  być 
dobrze  uwarunkowana.  Jeśli  znana  jest  taka  macierz  W,  to  nieobciąŜonym  i  zgodnym 
estymatorem współczynników A jest formuła:  

Y

W

W

A

T

T

1

]

[

Φ

=

 

 

 

 

 

(1.6.19) 

Macierz W konstruuje się iteracyjnie, wychodząc od macierzy 

Φ

 i zamieniając występujące w 

niej  wartości  zakłócone  y

n-i

  ich  estymatami  uzyskanymi  w  poprzedniej  iteracji.  MoŜna 

wykazać,  Ŝe  jeśli  zakłócenia  wyjścia  obiektu  są  szumem  białym,  to  procedura  taka  jest 
zbieŜna [Nied85]. 
Dla  obiektów  z  opóźnieniem  wartość  d  dobiera  się  metodą  prób  tak,  aby  zminimalizować 
wariancję resztową modelu.  
 

 

Model dyskretny (1.6.14) winien być przekształcony do postaci ciągłej. Jest to moŜliwe, 

jeśli  wszystkie  pierwiastki  rzeczywiste  wielomianu  o  współczynnikach  (1, 

α

1

α

2

,  ...

α

I

)  są 

dodatnie.  Jeśli  występują  pierwiastki  ujemne,  to  model  nie  ma  odpowiednika  ciągłego,  co 
moŜe  być  spowodowane  zbyt  małą  częstotliwością  próbkowania,  pominiętą  nieliniowością, 
lub zbyt słabym pobudzeniem u obiektu w stosunku do zakłóceń.   
 

Od  lat  70.  rozwijane  są  takŜe  metody  identyfikacji  modeli  ciągłych  ([UnR87], 

[FBy84]). Punktem wyjścia jest równanie róŜniczkowe zwyczajne o postaci: 

z

z

u

y

y

K

k

k

n

j

J

j

j

j

I

i

i

i

+

γ

+

β

+

α

=

=

+

=

=

1

)

(

0

)

(

1

)

(

   

 

 

(1.6.20) 

które  splata  się  obustronnie  z  odpowiedzią  impulsową  g(t)  pewnego  filtru  określonego  na 
nośniku zwartym [0, T], tj. g(t)

0 dla t

[0, T] oraz g(t)= 0 dla t

[0, T].  

Jeśli  funkcja  g(t)  posiada  ciągłe  pochodne  do  J-tej  włącznie  dla  t

[0,  T],  to  wykorzystując 

właściwości splotu uzyskuje się model regresyjny w postaci:  

=

+

+

+

=

+

+

=

ϕ

γ

+

ϕ

β

+

ϕ

α

=

K

k

k

J

I

k

J

j

I

j

j

I

i

i

i

Y

1

1

0

1

1

^

   

 

 

(1.6.21) 

gdzie  

τ

τ

τ

=

T

def

d

t

y

g

Y

0

^

)

(

)

(

;  

τ

τ

τ

=

ϕ

T

i

def

i

d

t

y

g

0

)

(

)

(

)

(

; dla i=1,...., I;  

 

(1.6.22) 

τ

τ

τ

=

ϕ

+

+

T

j

def

I

j

d

t

u

g

0

)

(

1

)

(

)

(

 dla j=0, .....J;  

τ

τ

τ

=

ϕ

+

+

+

T

k

def

k

J

I

d

t

z

g

0

)

(

1

)

(

)

(

  

(1.6.23) 

background image

 

32 

Obliczając  numerycznie  wartości  powyŜszych  splotów  dla  odpowiednio  długiego  ciągu 
dyskretnych  wartości  t,  uzyskuje  się  wektor  Y  i  macierz 

Φ

  pozwalające  obliczyć 

współczynniki modelu ciągłego przy pomocy wzoru (1.6.5). Udoskonalone wersje tej metody 
omawiają prace [FBy84], [ByF92].  
 

W  prognozowaniu  zakłóceń  stochastycznych,  jako  alternatywę  dla  modeli  ARMA 

moŜna  wykorzystać  jednoczynnikowe  modele  statyczne,  w  których  jedyną  zmienną 
wejściową jest czas t (tzw. modele Browna). ZaleŜność tego typu nazywa się często trendem, 
a wyliczanie odchyłek danych od takiej zaleŜności – ekstrakcją trendu [DuK99a].  

Szczególne znaczenie dla syntezy klasycznych układów regulacji mają proste modele 

niskiego  rzędu  z  opóźnieniem.  Są  one  wyznaczane  przez  aproksymację  odpowiedzi  obiektu 
na  wymuszenie  skokowe,  modelem  liniowym  o  wymaganej  strukturze.  Identyfikacja  takich 
modeli  moŜe  być  realizowana  technikami  regresji  statycznej.  Jako  model  procesu  przyjmuje 
się teoretyczną odpowiedź układu, a zmienną niezaleŜną jest czas. Formalnie, prowadzi to do 
nieliniowego  zadania  optymalizacji.  JednakŜe  w  szczególnie  interesującym  przypadku,  gdy 
poszukuje  się  optymalnego  modelu  pierwszego  rzędu  z  opóźnieniem,  problem  moŜna 
sprowadzić  do  zadania  liniowo-kwadratowego  poprzez  przekształcenie  logarytmiczne 
wyjścia. Odpowiedź skokowa takiego obiektu ma bowiem postać:  

=

T

d

t

K

t

y

)

(

exp

1

(

)

(

ˆ

 

 

 

 

 

(1.6.24) 

gdzie K oznacza wzmocnienie, T – stałą czasową, d - opóźnienie.  
Stosując przekształcenie logarytmiczne, wzór (1.6.24) sprowadzamy do postaci:  

(

)

T

d

t

K

t

y

K

)

(

)

ln(

)

(

ˆ

ln

=

 

 

 

 

(1.6.25) 

W  wyniku  eksperymentu  uzyskujemy  ciąg  Y={y

1

,  y

2

,  y

p

,  ......,  y

N

,  .....,  y

ε

,  .....,  y

f

}  wartości 

wyjść  zarejestrowanych  w  chwilach  czasu  U

 

=  {t

1

,  t

2

,  t

p

,  ...,  t

N

,  ..,  t

ε

,  ..,  t

f

}  (niekoniecznie  z 

jednakowym  rozstępem).  Wartość  t

ε

  jest  czasem  po  którym  wyjście  nie  wykracza  poza 

przedział  K(1

±

 

ε

)  do  końca  okresu  obserwacji  t

f

,  gdzie 

ε

    jest  odpowiednio  małą  liczbą 

dodatnią  (np.  0.02).  Wartość  t

f 

  winna  być  istotnie  większa  niŜ  t

ε

  (około  5  krotna  wartość 

przewidywanej  stałej  czasowej).  Jeśli  wyjście  jest  silnie  zakłócone,  to  jako 

ε

  moŜna  przyjąć 

oszacowanie  błędu  standardowego  zakłócenia,  w  przedziale  (t

ε

,  t

f

)  przekroczenia  zakresu 

K(1

±

 

ε

) winny być tylko losowe, a ich liczba – rzędu 1/3 liczby danych w tym przedziale.  

Uśredniając  dane  {y

ε

,  .....,  y

f

}  oblicza  się  wzmocnienie  K,  a  następnie  wektor  wyjść 

Γ

pN

 

modelu dla chwil t

n

 z zakresu [t

p 

t

N

]:  

(

)

}

,....

:

)

(

{ln

N

p

n

t

y

K

n

def

pN

=

=

Γ

 

 

 

 

(1.6.26) 

Oczywiście, przekształcenie obejmuje równieŜ zakłócenia z

n

, będące róŜnicą między błędem 

estymacji  K  i  zakłóceniami  chwilowymi  wyjścia.  W  związku  z  tym  wartość  t

N

  musi  być 

odpowiednio  mniejsza  niŜ  t

ε

.  Zgodnie  ze  wzorem  (1.6.25)  elementy 

γ

n

  ciągu 

Γ

pN

    moŜna 

wyrazić zaleŜnością liniową:  

γ

n 

=a+b

 

u

n

 + z

n

  

 

 

 

 

(1.6.27) 

gdzie    

 

 

        

T

d

K

a

def

+

=

)

ln(

T

b

def

1

=

  

 

 

        (1.6.28) 

Wartości  współczynników  a  i  b  uzyskuje  się  metodą  analizy  regresji  liniowej  ze  wzoru 
(1.6.27), a następnie oblicza się parametry d i T ze wzoru (1.6.28). 
Czas t

ε

, jak równieŜ czas początkowy t

p

 naleŜy  dobrać tak,  aby błędy liniowej aproksymacji 

ciągu 

Γ

pN

    nie  były  duŜe,  np.  tak  aby  zminimalizować  wariancję  resztową  modelu,  a 

zakłócenia resztowe z

n

 nie wykazywały istotnego spadku ze wzrostem t

n

.   

background image

 

33 

ZESTAWIENIE FUNKCJI PAKIETU MATLAB, U

ś

YTECZNYCH W EKONOMETRII 

 
abs(x) – wartość bezwzględna zmiennej x lub długość wektora 
arx([y u],[na nb nd]) – identyfikacja wg.najmniejszych kwadratów modelu ARX ciągu y z 

wejsciem x; na – rząd mianownika, nb – rząd licznika, nd - opóźnienie  

arxmax([y u],[na nb nc nd]) – identyfikacja wg.najmniejszych kwadratów modelu ARMAX 

ciągu y z wejsciem x; na – rząd mianownika, nb – rząd licznika, nc – rząd modelu 
MA zakłócenia losowego, nd - opóźnienie  

bar(x,y) – rysowanie wykresu słupkowego (histogramu) elementów wektora y na pozycjach 

wskazanych przez wartości wektora x. 

chi2inv(p, lst_swob) – wartość chi2 na poziomie istotnosci p przy lst_swob stopni swobody 
cdf()   - róŜne funkcje rozkładu. 
cov(x) – wariancja wektora x; macierz kowariancji, gdy x jest macierzą, której wiersze są 

wektorami zmiennych losowych 

erf(x)  - funkcja błędu, tj. prawdopodobieństwo wystąpienia zmiennej losowej o rozkładzie 

normalnym w przedziale E(x)

±

x

⋅√

floor(x) – obcięcie liczy x do wartości całkowitej  
hist(y,n) – rysowanie histogramu szeregu rozdzielczego elementów wektora y w n 

jednakowych przedziałach; wywołanie: [y,x]=hist(y,n); powoduje tylko policzenie 
wektorów histogramu do narysowania funkcją bar(x,y); 

inv(A) – odwrócenie macierzy A (kwadratowej) 
iv([y u],[na nb nd],nf,mf) – identyfikacja morelu ARX metodą zmiennych instrumentalnych 
mean(x) – wartość średnia wektora x 
median(x) – mediana wektora x 
a=polyfit(x,y,n) – obliczenie współczynników wielomianu przybliŜającego 

minimalnokwadratowo zaleŜność wektora y od x; n – rząd wielomianu; a(1), a(2),  
... współczynniki wielomianu od najwyŜszej potęgi a(1) do stałej zapisanej jako a(n)  

rand – generator liczb losowych (niezaleŜnych) o rozkładzie równomiernym z zakresu [0, 1] 
randn - generator liczb losowych (niezaleŜnych) o rozkładzie normalnym standaryzowanym, 

czyli N(0,1)  

std(x) – odchylenie standardowe (dyspersja) elementów wektora x 
svd(A) – dekompozycja singularna macierzy A (sprawdzanie dopuszczalności odwracania 

macierzy) 

xcorr(x) – podaje (m.innymi) funkcje autokorelacji wektora x (nieunormowaną) 
 

Dodatkowe informacje o funkcji uzyskuje się komendą MATLABa: 
help nazwa  

background image

 

34 

Teskt programu do badania rozkładów zmiennych (Rys.3-6) 

% ============= Przetwarzanie danych 

ekonometrycznych============== 
clear min t tt syg ws hsyg wsyg wsred wsred2 wfilt wfilt2 wsred2sh 
wfilt2sh aa okno; 
Tf=10; Tsr=2*Tf; Tsrd=Tsr; dt=1; 
ldan=256; ldan=ldan*2+Tsrd; Sig=1;  
normalny=1; 
% -------- generowanie sygnalu o rozkl.rownomiernym ---------- 
if(normalny==0) 
 for(i=1:ldan) syg(i)=Sig*(rand-0.5)*sqrt(12); end 
else 
 % ------ generowanie sygnalu o rozkl.normalny --------------- 
 for(i=1:ldan) syg(i)=Sig*randn; end 
end 
% =============== Koniec przygotowania danych =============== 
% ============== Przetwarzanie wlasciwe 
============================= 
% ----- Symulacja sygnalow niskoczestotliwosciowych wsred --- 
Tsr=Tsrd,; Sum=0; ld=1; sygf=syg(1); clear okno;  
for(i=1:ldan) 
 Sum=Sum+syg(i);  
 if(i>Tsr) Sum=Sum-okno(ld); ldusr=Tsr; else ldusr=ld; end;   
 okno(ld)=syg(i);  
 if(ld==Tsr) ld=0; end; 
 ld=ld+1; 
 wsred(i)=Sum/ldusr; 
end 
Ldan=ldan;  
ww=syg(Tsr:Ldan); clear syg; syg=ww; ldan=length(syg); clear ww; 
ww=wsred(Tsr:Ldan); clear wsred; wsred=ww; clear ww; 
% ============ rysunki =================== 
for(niejednor=0:1) 
 if(niejednor==1)  
  for(i=1:ldan) wsred(i)=1+10*i/ldan+syg(i); end 
  syg(ldan/2:ldan)=3*syg(ldan/2:ldan);  
 end 
% ------- Normalizacja i centrowanie sygnalu --------------- 
 sum=0; Sum=0; for(i=1:ldan) sum=sum+wsred(i); Sum=Sum+syg(i); end; 
 sred=sum/ldan; Srsyg=Sum/ldan; 
 for(i=1:ldan)  t(i)=i-1; wsred(i)=wsred(i)-sred; syg(i)=syg(i)-
Srsyg; end;  
 Sig=std(syg); Sigs=std(wsred); 
% ----------------------------------------------------------  
 figure;  subplot(2,1,1) 
 plot(t,syg,'y',t,wsred,'b') 
 axis([0 max(t) min([min(syg) min(wsred)]) max([max(syg) 
max(wsred)])]) 
 
subplot(2,1,2)  
 plot(t,wsred,'b') 
 axis([0 max(t) min(wsred) max(wsred)]);  
xlabel(sprintf('Usrednianie')) 
 

background image

 

35 

% ======= histogram ===================== 
 podpis='abcd'; kk=1; 
 figure; 
 for(typ=0:1) 
  if(typ==0) hsyg=syg; Sigm=Sig; else  hsyg=wsred; Sigm=Sigs; end 
  clear ws nbar x dbar; 
  for(hist_rownom=0:1) 
   if(hist_rownom==1)  
    lbsr=lbar/2; smax=max(hsyg); smin=min(hsyg);  
    ds=(smax-smin)/(lbar+1); 
    s=smin+ds/2; smax=smax-ds/2;  
    for(i=1:lbar) ws(i)=s; s=s+ds; end 
    [nbar,x]=hist(hsyg,lbar); %<=== nbar liczba wart. x w przedz.ds 
    nbar=nbar/ldan/ds;        %<=== przelicz.czestosci na rozklad 
   else 
    lbmin=30; km=lbmin-2; 
    for(k=1:km) lbar=ldan/lbmin; if(lbar>=20) break; end; 
                lbmin=lbmin-1; 
    end 
    [nbar,x]=hist(hsyg,lbar); %<=== nbar l.wart. x w przedz.ds 
    k=0; s=0; xp=min(x); 
    for(i=1:lbar) 
     s=s+nbar(i); 
     if(s>=lbmin) 
      k=k+1; dbar(k)=s/ldan/(x(i)-xp); s=0;  
      ws(k)=(xp+x(i))/2; xp=x(i); 
     end 
    end  
    lbar=k; nbar=dbar; clear dbar; 
   end 
   for(i=1:lbar) fg(i)=exp(-((ws(i)/Sigm)^2)/2); end 
   fg=fg/Sigm/sqrt(2*pi); 
   subplot(2,2,hist_rownom+1+2*typ); 
   bar(ws,nbar); 
   hold on 
   plot(ws,fg,'r') 
   axis([min(ws)*1.05 max(ws)*1.05 0 max([max(fg) max(nbar)])]);  
   xlabel(sprintf('Rysunek %c',podpis(kk))); kk=kk+1; 
   clear x xs ws nbar fg; 
  end 
 end 
end 

background image

 

36 

 
 
 
 

Rys. 3 – 4 pokazują histogramy przykładowych danych losowych róŜnego typu. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rys.3. Histogramy 512 liczb losowych o rozkładzie równomiernym  
 

a) histogram z nierównymi przedziałami; b) histogram z przedziałami równymi  

 

c) histogram średnich z 20 próbek jak (a); d) histogram z przedziałami równymi jak (c) 

-1

0

1

0

0.1

0.2

0.3

0.4

Rysunek a

-1

0

1

0

0.1

0.2

0.3

0.4

Rysunek b

-0.4

-0.2

0

0.2

0

1

2

Rysunek c

-0.4

-0.2

0

0.2

0

1

2

Rysunek d

background image

 

37 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rys.4. Histogramy 512 liczb niejednorodnych losowych o rozkładzie równomiernym 

a)

 

histogram danych z dwiema róŜnymi wariancjami z nierównymi przedziałami;  

b)

 

jak (a) z przedziałami równymi; c) histogram danych z linioym wzrostem średniej – 
histogram nierównomierny jak (a); d) histogram danych jak (c)z przedziałami (b)  

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rys.5. Histogramy danych o rozkładzie normalnym jak na Rys.3.  

-4

-2

0

2

4

0

0.05

0.1

0.15

0.2

Rysunek a

-4

-2

0

2

4

0

0.05

0.1

0.15

0.2

Rysunek b

-5

0

5

0

0.05

0.1

Rysunek c

-5

0

5

0

0.05

0.1

Rysunek d

-2

-1

0

1

0

0.1

0.2

0.3

0.4

Rysunek a

-2

0

2

0

0.1

0.2

0.3

0.4

Rysunek b

-0.4 -0.2

0

0.2 0.4

0

0.5

1

1.5

2

Rysunek c

-0.5

0

0.5

0

0.5

1

1.5

2

Rysunek d

background image

 

38 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Rys.6. Histogramy danych o rozkładzie normalnym jak na Rys.4.  

 

-6

-4

-2

0

2

0

0.1

0.2

Rysunek a

-5

0

5

0

0.05

0.1

0.15

Rysunek b

-6

-4

-2

0

2

4

0

0.05

0.1

Rysunek c

-5

0

5

0

0.05

0.1

Rysunek d