background image

1

ANALIZA WARIANCJI
.

background image

2

Definicja

Analiza wariancji jest procedurą - opartą na teście 

istotności - służącą do oceny tego, czy więcej 
niż dwie średnie z prób różnią się pod względem 
wartości średnich populacji, z których pochodzą. 

Analiza ta polega na podziale wariancji ogółem na 

części składowe.

Często oznaczana jest ona skrótem ANOVA, 

pochodzącym od angielskiej nazwy metody – 
Analysis of Variance

background image

3

Założenia podziału wariancji

A

x

C

x

B

x

Wariancja 

wewnątrz

grup

Wariancja

między

grupami

background image

4

Model matematyczny 
jednoczynnikowej analizy wariancji

 

x

ij 

=  + 

i

 + 

ij

gdzie:
x

ij

 – pojedynczy j-ty pomiar i-tego obiektu

  -  ogólna średnia z populacji generalnej

i

 – wpływ badanego czynnika

ij 

– odchylenie losowe pomiaru (błąd) o 

średniej równej zero i rozkładzie  normalnym

background image

5

Wymagania dotyczące 
danych

Aby wyniki uzyskane za pomocą analizy 

wariancji były wiarygodne, dane na podstawie 

których jest wyliczana ANOVA muszą być:

-

homogeniczne

-

addytywne

-

„normalne”

Homogeniczność (jednorodność) zakłada, że 

wariancje dla poszczególnych obiektów będą 

zbliżone.

Addytywność różnic

 oznacza, że wartość 

i

 

jest stała dla danego poziomu/wariantu 

czynnika i nie zależy od wielkości .

background image

6

Wymagania dotyczące 
danych c.d.

W przybliżeniu można przyjąć, że warunek stałości 

wariancji jest spełniony, gdy stosunek wariancji 

maksymalnej do minimalnej nie jest większy jak 

3:1

Normalność rozkładu oznacza, że czynnik 
losowy 

ij

 

w równaniu ma rozkład normalny, 

co w praktyce oznacza (przy stałej wielkości 

średniej ogólnej i stałej wartości wpływu badanego 

czynnika), że rozkład pomiarów dla danego 

obiektu jest zgodny z rozkładem normalnym.

background image

7

Etapy obliczeń w analizie wariancji

1.Sprawdzenie założeń ANOVA.
2.Postawienie hipotezy zerowej.
3.Wyznaczenie sum kwadratów 

odchyleń dla źródeł zmienności.

4.Wyznaczenie średnich kwadratów 

odchyleń (wariancji).

5.Weryfikacja hipotezy zerowej testem F.
6.Ewentualne badanie istotności różnic 

między średnimi obiektowymi.

background image

8

Hipotezy w analizie 
wariancji

Hipoteza zerowa – Wszystkie średnie 

obiektowe (w grupach) są takie same.
H

o

: μ

1

 = μ

2

 = ….= μ

i

 =....= μ

k

 

Hipoteza alternatywna –

H

1

: Przynajmniej jedna średnia różni 

się 

 od innych.

background image

9

Tabela analizy wariancji

Rodzaj 

zmien-

ności

Liczba

stopni

swob.

l.s.s.

Suma 

kwadrató

w różnic

Wa-

rian-

cja

F

emp

F

0,05

F

0,01

Obiekt
y

k-1

s

o

2

s

o

2

/s

E

2

Błąd

k(n-1)

s

E

2

Ogółe

m

kn-1

Liczba stopni swobody (l.s.s.)
stanowi mianownik poszczególnych
wariancji składowych.
W obliczeniach suma liczb stopni 
swobody poszczególnych wariancji 
składowych musi dać liczbę stopni 
swobody ogółem.

Suma kwadratów różnic –  jest licznikiem 
poszczególnych wariancji składowych. Podobnie jak 
liczba stopni swobody suma kwadratów różnic obiektów 
i błędów musi dać sumę kwadratów różnic dla ogółem.  

Wariancja składowa – jest ilorazem sumy kwadratów różnic i liczb
stopni swobody dla poszczególnych rodzajów zmienności.
W tabeli ANOVA nie wyliczamy wariancji dla ogółem.

F

emp

 jest ilorazem S

2

 obiektów i S

2

 błędu. Jego wartość określa

stosunek zmienności wynikającej z różnic pomiędzy
obiektami do zmienności przypadkowej (błędu).

Wartości krytyczne odczytów z tablic dla określonych poziomów
istotności α. Są one potrzebne do porównania ich z wartością
empiryczną testu w celu wyciągnięcia wniosków.

W poszczególnych wierszach tej kolumny
opisane są wariancje składowe.
Obiekty opisują zmienność między 
badanymi 
średnimi.
Błąd opisuje zmienność przypadkową 
(losową) 
wewnątrz obiektów.
Ogółem jest sumą obu wyżej wymienionych 
zmienności.

background image

10

Wnioskowanie w analizie 
wariancji

Podobnie, jak w innych testach istotności, na podstawie 

analizy wariancji można odrzucić H

0

 lub stwierdzić brak 

podstaw do jej odrzucenia. Oznacza to, że wnioski mogą 
w zależności od wartości F

emp

 być tylko dwóch rodzajów:

A)

Ponieważ F

emp

 > F

0,05

 (F

0,01

), dlatego odrzucamy H

0

 na 

korzyść H

1

 i z prawdopodobieństwem popełnienia błędu 

mniejszym niż 0,05 (0,01) stwierdzamy, że istnieją 
istotne (wysoce istotne) różnice między badanymi 
średnimi. Oznacza to, że wśród tych średnich są co 
najmniej dwie, które na 95 % (99 %) różnią się.

B)

Ponieważ F

emp

 ≤ F

0,05

 , dlatego brak jest podstaw do 

odrzucenia H

0

. Oznacza to, że nie mamy przynajmniej 

95 % (99%) pewności, że istnieją co najmniej dwie 
średnie, które się różnią.

background image

11

Przykład
W doświadczeniu wazonowym (liczba powtórzeń n = 4) 
zbadano wpływ nawożenia gleby różnymi mikroelementami na 
plon nasion gorczycy z wazonu. Badano następujące obiekty 
(k=6): 
A-kontrola (bez nawożenia); B-Mn; C-Mn+B; D- Cu; E-Mo; F-
Cu+Mo.

    Plon nasion gorczycy [g/wazon]

Pow

-

tórz

enie

Obiekty 

A

B

C

D

E

F

1

44

33

44

68

63

64

316

2

59

19

40

66

49

73

306

3

60

49

45

70

59

77

360

4

41

71

31

64

71

67

345

204

172

160

268

242

281

1327

51,0

43,0

40,0

67,0

60,5

70,2

55,3

x

k

x

x

n

x

n

k

background image

12

 

76537

4

281

242

268

160

172

204

3

78823

67

59

44

2

73372

4

6

1327

1

2

2

2

2

2

2

2

2

2

2

2

2

2

n

Σx

Σ

 Obiekty

...

Σ x

Σ

 Ogół

 

n

k

Σx

Σ

 Poprawka 

n

k

n

k

n

k

Rodzaj

zmienności

l.s.s

Suma 

kwad-

ratów

Średni

kwadrat

F

emp

F

0,05

F

0,01

Obiekty

(Mikroelemen

ty)

k-1=
6-1=5

3-1=

3165

633

4,98

**

2,77 4,25

Błąd

k(n-1)=
6(4-

1)=18

2-3=

2286

127

Ogółem

kn-1=
24 
-1=23

2-1=

5451

background image

13

Wniosek

Ponieważ F

emp

 > F

0,01

 , dlatego odrzucamy H

0

 na korzyść H

i z 

prawdopodobieństwem popełnienia błędu mniejszym niż 0,01 

stwierdzamy, że istnieją wysoce istotne różnice między badanymi 

obiektami.

Porównania wielokrotne średnich

Procedura Tukeya

x

k

m

s

q

NIR

E

·

;

;

n

s

s

E

x

2

49

,

4

63

,

5

4

127

18

;

6

;

05

,

0

2

q

n

s

s

E

x

g

s

q

NIR

x

k

m

 

3

,

25

63

,

5

49

,

4

·

;

background image

14

Obiekty

(k)

Średni 

plon

(g/wazon

)

Grupy

jednorodn

e

F

70,2

a
ab
abc
abc
bc
c

D

67,2

E

60,5

A

51,0

B

43,0

C

40,0

Średnia

55,3

Wnioski: Obiekt F daje większy plon nasion niż obiekty B,C, a obiekt 
D daje większy plon niż obiekt C.

background image

15

NIR

0,05

background image

16

TESTY 
NIEPARAMETRYCZNE

background image

17

Właściwości testów i zastosowanie

 
Poznane 

dotychczas 

parametryczne 

testy 

statystyczne  odnosiły  się  do  takich  zmiennych, 
których  znajomość  kształtu  rozkładu  była  podana 
w  założeniach.  Często  jednak  zdarza  się,  że  nie 
znamy  kształtu  rozkładu  badanej  zmiennej  albo 
rozkład jest inny niż rozkład normalny, ewentualnie 
nie  są  spełnione  inne  warunki  (np.  stałość 
wariancji)  wymagane  do  użycia  określonego  testu 
parametrycznego.  Wtedy  możemy  zastosować 
procedury  nieparametryczne.  Stosujemy  je  także 
do  danych  w  skali  nominalnej  i  porządkowej  oraz 
dla grup o małej liczebności.

background image

18

Wady i zalety 
procedur

ZALETY

Nie potrzeba robić żadnych założeń dotyczących rozkładu 
badanej zmiennej losowej.

Są prostsze w użyciu.

Dobrze nadają się do oceny materiału niejednorodnego, 
pochodzącego z eksperymentów wieloletnich i wielokrotnych .

WADY

Są mniej mocne niż testy parametryczne. Jak wcześniej 
mówiliśmy, moc testu jest związana z możliwością przyjęcia 
hipotezy zerowej, gdy nie została ona odrzucona. Dla testów 
nieparametrycznych trudniej jest ustalić moc testu, dlatego dla 
wielu testów nie jest ona określona. W wypadku testów, dla 
których została określona, należy wykonać znacznie więcej 
obserwacji niż dla testów parametrycznych, aby moc testów była 
podobna. 

background image

19

RODZAJE TESTÓW NIEPARAMETRYCZNYCH

TESTY ZGODNOŚCI

Testami zgodności nazywamy testy służące 

do weryfikacji hipotez dotyczących typu 

rozkładu badanej cechy. Za pomocą  tych 

testów weryfikujemy hipotezę, że rozkład 

badanej cechy w próbie jest zgodny z 

określonym rozkładem teoretycznym 

(określonym w hipotezie H

o

). 

test 

test Kołmogorowa-Smirnowa

test Shapiro-Wilka

background image

20

TESTY NIEZALEŻNOŚCI

Zdarza  się  często,  że  badamy  populację  pod 

względem dwóch lub więcej cech, albo analizujemy 

dwie populacje względem tej samej cechy i chcemy 

się dowiedzieć, czy istnieje zależność między nimi. 

W  przypadku  gdy  sądzimy,  że  zależność  jest 

liniowa  możemy  wyliczyć  współczynnik  korelacji 

liniowej  Pearsona  i  sprawdzić  jego  istotność,  pod 

warunkiem  jednak,  że  próby  pochodzą  z  populacji 

normalnych i że są jednorodne. 
Nie zawsze jednak te warunki są spełnione i wtedy 

możemy 

stosować 

nieparametryczne 

testy 

niezależności: 

test 

2

test  korelacji rang Spearmana

background image

21

TESTY JEDNORODNOŚCI

 

Do 

tej 

grupy 

testów 

nieparametrycznych  należą  testy 
pozwalające  określić,  czy  pobrane 
próby 

pochodzą 

tej 

samej 

populacji, czy  są zróżnicowane.

Test Manna – Whitneya

Test kolejności par Wilcoxona

Test Kruskala-Wallisa

background image

22

Test 

2

 jako test zgodności

Pearson wprowadził kryterium - dzięki któremu możemy 

sprawdzić, czy badany rozkład nie odbiega od rozkładu 
teoretycznego i czy rozbieżność ta mieści się w 
granicach błędu losowego - za pomocą zmiennej losowej

k

i

i

i

i

E

E

O

1

2

2

)

(

                  gdzie: O

i 

- liczebności obserwowane

                    

        E

i

 - liczebności oczekiwane 

(teoretyczne)



k-1 liczbie stopni swobody (k- liczba 

badanych klas).

background image

23

Przykład

W doświadczeniu z grochem w pokoleniu F

 otrzymano 45 roślin o 

nasionach  okrągłych  i  1  roślin  o  nasionach  kanciastych.  Czy 

można  przyjąć,  że  kształt  nasion  grochu  dziedziczy  się  zgodnie  z   

prawem Mendla, zakładającym stosunek rozszczepień 3:1.

Hipotezy
H

0

: rozkład jest zgodny z rozkładem 3:1

H

1

: rozkład odbiega od rozkładu 3:1

Nasiona

okrągłe

Nasiona 

kanciast

e

Suma

O

45

12

57

E

42,75

14,25

57

3,841

2

0,05;1

χ

0,473

1

1

2

1

25

,

14

25

,

14

12

75

,

42

75

,

42

45

2

2

2

1

2

k

v

emp

k

i

i

E

i

E

i

O

Ponieważ 

2

emp

2

0,05  

hipotezy zerowej nie możemy odrzucić i 

stwierdzamy, że stosunek rozszczepień jest 3:1, czyli kształt 
nasion grochu dziedziczy się wg prawa Mendla.

background image

24

Test 2 jako test niezależności

 Postawmy hipotezę, że dwie zmienne jakościowe X i Y są wzajemnie 

niezależne. Dla sprawdzenia powyższej hipotezy dokonujemy  

równoczesnej oceny rozkładu liczebności w kategoriach badanych 

cech. Dane zestawione w dwukierunkowej tablicy tworzą tzw. 

tablicę wielodzielczą (kontygencji) o k - kolumnach i w - wierszach. 
Do weryfikacji H

0

 o niezależności zmiennych stosujemy statystykę:

 

ij

ij

1

1

1

1

E

O

n

 

1

1

2

2

k

i

w

j

ij

k

i

w

j

ij

ij

ij

O

n

O

O

E

gdzie

k

i

w

j

ij

E

ij

E

ij

O

obserwowane liczebność jednostek eksperymentalnych, 
mających jednocześnie właściwości x

i

 i y

j

 

oczekiwane liczebność jednostek eksperymentalnych, 
mających jednocześnie właściwości x

i

 i y

J

 

Statystyka ma rozkład 

2

 z liczbą stopni swobody 

k-1)(w-1)

background image

25

Przykład 

Zbadano wpływ oprysku środkami grzybobójczymi na zdrowotność 

jabłek. Wzięto dwie skrzynki, w każdej po 110 jabłek. Jedną opryskano 

środkiem grzybobójczym, a druga była kontrolą. Po pewnym czasie 

policzono jabłka zdrowe i porażone w każdej skrzynce, i w ten sposób 

uzyskano 

liczebności obserwowane

. Czy istnieje zależność między 

opryskiem a zdrowotnością jabłek?

Oprysk Kontrol

a

Suma

Zdrowe

100

70

170

(85)

(85)

Porażon
e

10

40

50

(25)

(25)

Suma

110

110

0

H

0

: brak zależności między opryskiem a zdrowotnością 

jabłek
H

1

: istnieje zależność między opryskiem a zdrowotnością 

jabłek

(W nawiasach podano liczebności oczekiwane)

background image

26

 

 

6,635

23,290

 

2

1

;

01

,

0

2

1

;

05

,

0

2

2

2

2

;

841

,

3

1

)

1

2

)(

1

2

(

)

1

)(

1

(

25

25

40

25

25

10

85

85

70

85

85

100

2

2

w

k

k w

E

E

O

emp

325

,

0

220

29

,

23

2

n

emp

Ponieważ 

2

emp

2

0,01  

hipotezę zerową na poziomie istotności 

0,01 odrzucamy i stwierdzamy, że oprysk ma wpływ na 

zdrowotność owoców.

Współczynnik współzależności Yula

background image

27

Test Spearmana jako test niezależności 
(korelacji nieparametrycznej)

  Test  ten  służy  do  badania  zależności  między  dwoma 

cechami jakościowymi lub ilościowymi X i Y, gdy istnieje 

możliwość  uporządkowania  obserwacji  empirycznych  w 

określonej 

kolejności 

(rangowania). 

Znajduje 

on 

zastosowanie, gdy liczba danych jest niewielka.

 

)

1

(

6

1

r

2

1

2

S

n

n

d

n

i

i

Jeżeli  współczynnik  r

s

  będzie  mały,  to  możemy  przypuszczać,  że 

zmienne  losowe  X  i  Y  są  niezależne,  jeżeli  natomiast  będzie  on 
bliski  +1  lub  -1,  to  można  przypuszczać,  że  istnieje  zależność 
liniowa. Hipotezę o braku zależności odrzucamy, gdy r

> r



n

r

s

- współczynnik korelacji rang Spearmana

d

i

 - różnice między rangami odpowiadających sobie

      wartości cechy x

i

 i y

i

n – liczba par obserwacji

background image

28

Przykład

U ośmiu (n=8) lisów (A, B,…, H) badano, czy istnieje zależność 
pomiędzy barwą futra a agresywnością lisów.
Klasyfikacje:
a) barwa futra                                              b) agresywność
   1-najładniejsze                                              1-agresywny
   8-najbrzydsze                                                8-spokojny

Lis Barw

a

Agresywnoś

ć

d

i

d

i

2

A

1

2

-1

1

B

2

1

1

1

C

3

3

0

0

D

4

6

-2

4

E

5

4

1

1

F

6

7

-1

1

G

7

8

-1

1

H

8

5

3

9

18

n

i

i

d

1

2

background image

29

643

,

0

786

,

0

214

,

0

1

504

108

1

)

1

8

(

8

18

6

1

)

1

(

6

1

8

;

05

,

0

2

2

1

2

S

n

i

i

S

r

n

n

d

r

Ponieważ  r

S  

r

S 0,05 

hipotezę zerową odrzucamy i stwierdzamy, 

że istnieje

zależność między barwą futra a agresywnością lisów. Związek 

ma charakter liniowy dodatni. 

H

0

: brak zależności między barwą futra a agresywnością lisów     

  
H

1

: istnieje zależność między barwą futra a agresywnością lisów 


Document Outline