background image

 

Analiza wariancji  

 

Cel analizy wariancji to porównanie średnich w kilku populacjach. Analiza wariancji została 

wymyślona  w  ramach  nauk  eksperymentalnych  (rolniczych).  Tam  była  wykorzystywane  do 

oceny,  czy  zastosowany  czynnik  (np.  nawóz  w  odpowiednich  porcjach)  zmieniał  wielkość 

wyników  (plonów).  W  ekonomii  analiza  wariancji  może  być  stosowana  do  porównywania 

choćby efektów  różnych strategii marketingowych. 

Model jednoczynnikowy ANOVA

 

W  podstawowym  przypadku  zakładamy,  że  u  próby  analizowanych  w  badaniu  pochodzi  z 

rozkładów normalnych N(

i

,

2

o być może różnych średnich (to będzie przedmiotem testu) 

ale o takich samych wariancjach. Liczebność poszczególnych prób wynosi 

i

n

 i zakładamy, 

że 

n

n

r

i

i

1

.  

Hipotez zerowa w teście przyjmuje postać: 

u

H

...

:

2

1

0

 

Hipoteza alternatywna powiada, że conajmniej dwie z pośród r średnich są różne. 

j

i

że

t

j

i

j

i

H

.

,

:

1

 

 

Oznaczmy  przez  y

ki 

obserwację  o  numerze  k  z  i-tej  próby.  Przyjmiemy,  że  obserwacje  są 

generowane następującym modelem: 

r

s

n

i

dla

y

i

si

s

si

,...,

2

,

1

;

,...,

2

,

1

gdzie: 

 - stała wartość, identyczna dla wszystkich grup, 

- nieznana stała opisująca wpływ i-tego poziomu czynnika na wartość zmiennej Y

si

  -  zmienna  losowa  opisująca  łączny  wpływ  innych  czynników  o  charakterze  losowym  na 

wartość zmiennej Y

Suma 

s

 jest wartością średniej w s-tej populacji. Jeśli prawdziwa jest hipoteza zerowa, 

czyli równe są wszystkie średnie, wówczas równe są również wszystkie  

.  

background image

 

W ramach testu zakładamy, że składniki losowe modelu w poszczególnych populacjach mają 

rozkłady  normalne o średniej równej zero, takiej  samej  wariancji (N(0;

)  )  i  nie  są  ze  sobą 

skorelowane tj. 

0

,

cov

'

,'

i

k

ki

 dla wszystkich k, i, k’, i’, przy czym k

k’

 

Przy  powyższych  założeniach  i  oznaczeniach  możemy  (podobnie  jak  w  przypadku  regresji 

linowej)  rozpisać zmienność (całkowitą) zmiennej Y. Zmienność całkowita jest sumą dwóch 

składników  sumy  objaśnionej  zmieniającym  się  czynnikiem  (modelem)  oraz  zmiennością 

resztową.  







r

i

n

k

ki

r

i

n

k

r

i

n

k

r

i

i

i

i

ki

ki

i

i

i

SSB

SSE

y

y

SST

y

y

n

y

y

y

y

SST

1

1

2

1

1

1

1

1

2

2

2

 

gdzie: 

Średnia ogólna:  



r

i

i

i

r

i

n

k

ki

n

y

n

y

n

y

i

1

1

1

1

1

 

 

Średnia grupowa: 

i

n

k

ki

i

i

y

n

y

1

1

 

 

SST – całkowita zmienność zmiennej Y, 

SSE – zmienność wewnątrzgrupowa, 

SSB – zmienność międzygrupowa. 

 

Jeśli hipoteza zerowa jest prawdziwa, wówczas zmienność międzygrupowa powinna być 

niewielka  w  porównaniu  do  zmienności  całkowitej  –  albo  równoważnie  do  zmienności 

wewnątrzgrupowej. 

Statystyka

MSE

MSB

F

 

gdzie: 

r

n

SSE

MSE

oraz

r

SSB

MSB

1

 

background image

 

Ma  przy  założeniu  słuszności  hipotezy  zerowej  rozkład  F-Snedecora  o  stopniach  swobody 

(licznika i mianownika) odpowiednio r-1 oraz n-r

 

W  przypadku,  gdy  średnie  w  porównywanych  populacjach  różnią  się  od  siebie,  wówczas 

liczniki  w  statystyce  testowej  F  będzie  znacznie  większy  od  mianownika,  statystyka  będzie 

przyjmować wartości znacznie większe od 1.

 

Obszar krytyczny wyznaczony jest z zależności: 

 

F

F

P

 

 

Uwaga. Analiza wariancji jest dość wrażliwa na naruszenie założeń związanych z równością 

wariancji. Konieczne jest sprawdzenie, czy wariancje w poszczególnych populacjach są takie 

same.  Służy  do  tego  np.  test  Bartletta,  Cochrana,  Hartleya.  Niewielkie  odstępstwa  od 

normalności rozkładów nie wpływają znacząco na rozkład statystyki F

 

 

Test Bartletta, test Hartleya (równość wariancji w populacjach) 

 
Służy do badania: HOMOSKEDASTYCZNOŚĆI (jednorodności wariancji w grupach) 
 
Hipoteza zerowa

2

2

1

2

1

.....

:

r

o

H

 

 

Hipoteza alternatywna: 

j

i

    

.

,

:

2

2

1

j

i

że

t

j

i

H

 

 
Sprawdzianem hipotezy zerowej jest statystyka: 

 

]

1

)

1

(

1

[

)

1

(

3

1

1

10

ln

1

r

n

n

r

M

r

i

i

 

 
przy czym: 

 

background image

 

r

i

i

i

s

n

MSE

r

n

M

1

2

log

)

1

(

log

)

(

 

 

gdzie: 

r

– liczba poziomów czynnika,   

n

– liczba replikacji (obserwacji) ogółem 

 

i

n

– liczba replikacji przy i-tym poziomie czynnika 

2

i

s

– wariancja przy i-tym poziomie czynnika (w każdej z grup) 

Jeśli  prawdziwa  jest  hipoteza  zerowa,  wówczas  rozkład  statystyki 

  zmierza  do  rozkładu  Chi 

kwadrat z r-1 stopniami swobody. 

Wartość  krytyczna 

2

  wyznacza  prawostronny  obszar  krytyczny  tj. 

)

(

2

P

.  W 

przypadku,  gdy 

2

  odrzucamy  hipotezę  zerową.  Wówczas  nie  możemy  korzystać  z 

analizy wariancji. 

 

Jeśli wylosowane próby są równoliczne 

r

n

n

n

....

2

1

  i ponadto, spełnione są założenia 

jak  w  teście  Bartleta,  wtedy  możemy  zastosować  test  Hartleya.  Postać  hipotez:  zerowej  i 

alternatywnej są takie same jak poprzednio. Statystyka testowa ma postać: 

 

 

2

2

min

max

i

i

i

i

S

S

H

 

Wartości  krytyczne  testu  Hartleya  są  dostępne  w  programach  statystycznych.  Obszar 
krytyczny jest prawostronny. 
 

Testy post hoc. 

 

Odrzucenie  hipotezy  zerowej  w  teście  analizy  wariancji  oznacza  stwierdzenie,  że  niektóre  z 
pośród badanych populacji różnią się średnimi. Nie mniej jednak nie wiadomo, które z pośród 
średnich  są  statystycznie  od  siebie  różne.  Testy  post  hoc  służą  do  wskazania  tych  par  średnich, 

które istotnie się od siebie różnią. 
Hipoteza zerowa w teście ma postać:  

'

0

:

s

s

H

 

Statystyka testowa ma postać: 

 

background image

 

__

'

__

__

n

MSE

y

y

HSD

s

s

 

Gdzie 

__

n

  to  średnia  harmoniczna  liczebności  przypadającej  na  każdy  badany  czynnik  (każdą 

populację).  Jeśli  prawdziwa  jest  hipoteza  zerowa,  statystyka  HSD  ma  rozkłada  Tukeya.  Jest  on 

tablicowany. Zależy od liczby stopni swobody r oraz n-r. 
 

 

Przykład anova 

Pewna  korporacja  finansowa  celem  poprawy  wyników  postanowiła  przeszkolić  doradców 

finansowych.  Zaproponowano  4  rodzaje  szkoleń  i  na  każde  z  nich  skierowano  po  11 
pracowników.  W  ciągu  kolejnego  miesiąca  po  kursie  postanowiono  zweryfikować  wyniki 
poszczególnych  przeszkolonych  grup.  Zebrano  dane  opisujące  wartość  aktywów  klientów 

pozyskanych przez doradców. Zostały one zestawione w tabeli: 
 

I szkolenie 

28,2 ,36.1,26.8,28,25.1,27.8,33.3,26.5,31.6,32.4,29 

II szkolenie 

29.6,27.1,34.7,24.3,29.6,33.9,26.9,33.2,32.3,24.9,31.8 

III szkolenie 

30.9,24.5,37.4,29.6,27.4,29.1,33,28.6,31.1,27.4,27.7 

IV szkolenie 

30.8,29.6,35.4,34.9,50,28.5,32.5,30.6,37.5,35.8,39.9 

 

Dane znajdują się w pliku: dane_kurs1 
Ocenić czy wszystkie rodzaje kursów dają takie same efekty. 
Rozwiązanie: 

1.  Szkicujemy wykres pudełkowy dla poszczególnych kategorii (ocenimy poziom oraz 

zmienność poszczególnych grup) 

2.  Naszkicujemy wykresy kwanty-kwantyl (ocenimy normalność rozkładów wyników w 

grupach) 

3.  Przeprowadzamy formalne testy: normalności Shapiro-Wilka, oraz na 

heteroskedastyczność  

4.  Jeśli spełnione są założenia przeprowadzamy test ANOVA 
5.  Jeśli odrzucimy hipotezę zerową przeprowadzamy testy post hoc. Oceniamy, które 

średnie się różnią. 

 

background image

 

 

Dwuczynnikowa analiza wariancji MANOVA 

 

Dwuczynnikowa analiza wariancji.  
Należy  zbadać  wpływ  dwóch  czynników  A  oraz  B,  o  charakterze  jakościowym  na  poziom 
zmiennej  Y.  Pierwszy  czynnik  przyjmuje  u  poziomów,  drugi  przyjmuje  p  poziomów.  Daje  to 

razem up grup zbiorowości. Z każdej zbiorowości pobieramy próbę o liczebności k – obserwacji,  
 

Interakcje: 

Jeżeli  zmiana  średniej  wynikająca  ze  zmiany  jednego  czynnika  zależy  od  poziomu  drugiego 
czynnika – mówimy, że między czynnikami zachodzi interakcja. 

 
Przykład: zarobki w grupach zawodowych w wybranych regionach. 
Dane w plikach: 

Zarobki 1 
Zarobki 2. 
Narysować wykresy interakcji i zinterpretować je. 

 

Wykres średnich i przedz. ufności (95,00%)

Zmn8

 region środkowy  
 region północny

mat-inf

biol

fiz

soc

inż

Zmn6

45

50

55

60

65

70

W

a

rt

o

śc

i

 

Wykres średnich i przedz. ufności (95,00%)

Zmn8

 Zmn7
 region środkowy
 Zmn7
 region północny

mat

biol

fiz

soc

inż

Zmn6

40

45

50

55

60

65

70

75

80

85

90

W

ar

toś

ci

 

 

 

 

W  przypadku,  gdy  występują  interakcje  nie  ma  sensu  sprawdzać  jak  wpływa  poziom 

wybranego  czynnika  na  średnią.  W  takiej  sytuacji  wpływ  ten  nie  jest  stały  i  zależy  od 

poziomu drugiego czynnika. 

 

background image

 

 

 

 
Przypadek 1. (k=1) Brak interakcji 

Rozważany model: 
 

p

r

u

s

dla

y

sr

r

s

sr

,...,

2

,

1

;

,...,

2

,

1

 

gdzie:  

 - stała wartość, identyczna dla wszystkich grup, 

- nieznana stała opisująca wpływ i-tego 

poziomu  czynnika  A  na  wartość  zmiennej  Y

r

  - 

wpływ  r-tego  poziomu  czynnika  B, 

sr

  - 

zmienna losowa opisująca łączny

  wpływ  innych czynników o charakterze  losowym  na wartość 

zmiennej Y

Rozważane hipotezy – oceniane osobno: 

)

...,

,

1

(

0

:

0

u

s

H

s

A

 

)

...,

,

1

(

0

:

0

p

r

H

r

B

 

Suma 

s

  jest wartością średniej w s-tej populacji. Jeśli prawdziwa jest hipoteza zerowa, 

czyli równe są wszystkie średnie, wówczas równe są również wszystkie  

s

 

W  przypadku  tego  modelu  całkowita  zmienność  zmiennej  Y  tj.  SST  rozkłada  się  na  sumę 

trzech składników:  

STT = SSB

A

 + SSB

+ SSE 

Gdzie:  SSB

A

  to zmienność międzygrupowa czynnika ASSB

B

 – zmienność międzygrupowa 

czynnika B, SSE – zmienność międzygrupowa 

Statystyka testowa służąca weryfikacji pierwszej z hipotez ma postać: 

MSE

MSB

F

A

 

gdzie: 

)

1

)(

1

(

1

p

u

SSE

MSE

oraz

u

SSB

MSB

A

A

 

Jeśli  prawdziwa  jest  hipoteza  zerowa  statystyka  ta  ma  rozkład  F  z  (u-1)  oraz  (u-1)(p-1) 

stopniami swobody. 

Zweryfikujemy drugą z hipotez przy pomocy statystyki: 

background image

 

MSE

MSB

F

B

 

gdzie: 

)

1

)(

1

(

1

p

u

SSE

MSE

oraz

p

SSB

MSB

B

B

 

Jeśli  prawdziwa  jest  hipoteza  zerowa  statystyka  ta  ma  rozkład  F  z  (p-1)  oraz  (u-1)(p-1) 

stopniami swobody. 

Zbiory krytyczne w obu przypadkach są prawostronne. Odrzucamy hipotezę zerową, jeśli F 

testowe jest większe od wartości krytycznej 

F

 

Przykład „Czas wykonania” lub szkolenia 

 

 

background image

 

Przypadek 2. (k>1) 

Zakładamy  teraz,  że  w  każdej  podklasie  znajduje  się  k  obserwacji  (k>1).  Łącznie 

dysponujemy puk obserwacjami.  

Rozważany model może być zapisany następująco: 

 

sri

sr

r

s

sri

X

 

Gdzie: 

 - stała wartość, identyczna dla wszystkich grup, 

- nieznana stała opisująca wpływ 

i-tego poziomu czynnika A na wartość zmiennej Y

r

 - 

wpływ r-tego poziomu czynnika B, 

sr

 

określa  wspólny  wpływ  zmiennej  A  na  poziomie  s  oraz  zmiennej  B  na  poziomie  r

 

sr

  - 

zmienna losowa opisująca łączny

  wpływ  innych czynników o charakterze losowym  na wartość 

zmiennej Y

  

Hipotezy zerowe przyjmują postać: 

)

...,

,

1

(

0

:

0

u

s

H

s

A

 

)

...,

,

1

(

0

:

0

p

r

H

r

B

 

)

...,

,

1

;

..,

,

1

(

0

:

)

(

0

p

r

u

s

H

sr

AxB

 

Wszystkie hipotezy weryfikujemy oddzielnie.  

 

Statystyki testowe uzyskamy po rozłożeniu zmienności całkowitej SST na składowe: 

STT = SSB

A

 + SSB

+ SSB

AB

 +SSE 

gdzie:  SSB

A

    to  zmienność  między  poziomami  czynnika  A,  SSB

B

  –  zmienność  między 

poziomami czynnika B, SSB

AB

 zmienność wynikająca z interakcji między czynnikami, SSE – 

zmienność wewnątrzgrupowa (suma kwadratów reszt). 

 

„Statystyka dla interakcji” 



1

1

)

(

2

1

1



p

u

y

y

y

y

k

MSB

r

i

oj

s

j

io

ij

AxB

 

I dalej: 

MSE

MSB

F

AxB

 

background image

 

10 

Która to statystyka, przy założeniu prawdziwości hipotezy zerowej ma rozkład F Snedecora o 

(u-1)(p-1) oraz up(k-1). 

 

Statystyka dla 

A

H

0

 

MSE

MSB

F

A

gdzie: 

1

)

(

1

2

__

u

y

y

pk

MSB

u

s

s

A

)

1

(

)

(

1

1

1

2

__



k

up

y

y

MSE

u

s

p

r

k

i

sr

sri

 

Ma przy założeniu hipotezy zerowej ma rozkład F Snedecora o (u-1) oraz up(k-1) stopniach 

swobody. 

Statystyka dla 

B

H

0

 

MSE

MSB

F

B

gdzie: 

1

)

(

1

2

__

u

y

y

uk

MSB

p

r

r

B

)

1

(

)

(

1

1

1

2

__



k

up

y

y

MSE

u

s

p

r

k

i

sr

sri

 

Ma przy założeniu hipotezy zerowej ma rozkład F Snedecora o (p-1) oraz up(k-1) stopniach 

swobody. 

 

background image

 

11 

Przykład: 

W zadaniu zestawiono wydatki w zależności od  

1. Sprawdzenie założeń: normalność (test Shapiro-Wilka), homoskedastyczność 

2. Wykresy dla średnich – wzrokowa ocena interakcji 

3. Test dla interakcji 

4. Test pełny 

5. wnioski