Wykład 6 Analiza wariancji Testy nieparametryczne

background image

1

ANALIZA WARIANCJI
.

background image

2

Definicja

Analiza wariancji jest procedurą - opartą na teście

istotności - służącą do oceny tego, czy więcej
niż dwie średnie z prób różnią się pod względem
wartości średnich populacji, z których pochodzą.

Analiza ta polega na podziale wariancji ogółem na

części składowe.

Często oznaczana jest ona skrótem ANOVA,

pochodzącym od angielskiej nazwy metody –
Analysis of Variance

background image

3

Założenia podziału wariancji

A

x

C

x

B

x

Wariancja

wewnątrz

grup

Wariancja

między

grupami

background image

4

Model matematyczny
jednoczynnikowej analizy wariancji

x

ij

=  + 

i

+ 

ij

gdzie:
x

ij

– pojedynczy j-ty pomiar i-tego obiektu

 - ogólna średnia z populacji generalnej

i

– wpływ badanego czynnika

ij

– odchylenie losowe pomiaru (błąd) o

średniej równej zero i rozkładzie normalnym

background image

5

Wymagania dotyczące
danych

Aby wyniki uzyskane za pomocą analizy

wariancji były wiarygodne, dane na podstawie

których jest wyliczana ANOVA muszą być:

-

homogeniczne

-

addytywne

-

„normalne”

Homogeniczność (jednorodność) zakłada, że

wariancje dla poszczególnych obiektów będą

zbliżone.

Addytywność różnic

oznacza, że wartość 

i

jest stała dla danego poziomu/wariantu

czynnika i nie zależy od wielkości .

background image

6

Wymagania dotyczące
danych c.d.

W przybliżeniu można przyjąć, że warunek stałości

wariancji jest spełniony, gdy stosunek wariancji

maksymalnej do minimalnej nie jest większy jak

3:1

Normalność rozkładu oznacza, że czynnik
losowy

ij

w równaniu ma rozkład normalny,

co w praktyce oznacza (przy stałej wielkości

średniej ogólnej i stałej wartości wpływu badanego

czynnika), że rozkład pomiarów dla danego

obiektu jest zgodny z rozkładem normalnym.

background image

7

Etapy obliczeń w analizie wariancji

1.Sprawdzenie założeń ANOVA.
2.Postawienie hipotezy zerowej.
3.Wyznaczenie sum kwadratów

odchyleń dla źródeł zmienności.

4.Wyznaczenie średnich kwadratów

odchyleń (wariancji).

5.Weryfikacja hipotezy zerowej testem F.
6.Ewentualne badanie istotności różnic

między średnimi obiektowymi.

background image

8

Hipotezy w analizie
wariancji

Hipoteza zerowa – Wszystkie średnie

obiektowe (w grupach) są takie same.
H

o

: μ

1

= μ

2

= ….= μ

i

=....= μ

k

Hipoteza alternatywna –

H

1

: Przynajmniej jedna średnia różni

się

od innych.

background image

9

Tabela analizy wariancji

Rodzaj

zmien-

ności

Liczba

stopni

swob.

l.s.s.

Suma

kwadrató

w różnic

Wa-

rian-

cja

F

emp

F

0,05

F

0,01

Obiekt
y

k-1

s

o

2

s

o

2

/s

E

2

Błąd

k(n-1)

s

E

2

Ogółe

m

kn-1

Liczba stopni swobody (l.s.s.)
stanowi mianownik poszczególnych
wariancji składowych.
W obliczeniach suma liczb stopni
swobody poszczególnych wariancji
składowych musi dać liczbę stopni
swobody ogółem.

Suma kwadratów różnic – jest licznikiem
poszczególnych wariancji składowych. Podobnie jak
liczba stopni swobody suma kwadratów różnic obiektów
i błędów musi dać sumę kwadratów różnic dla ogółem.

Wariancja składowa – jest ilorazem sumy kwadratów różnic i liczb
stopni swobody dla poszczególnych rodzajów zmienności.
W tabeli ANOVA nie wyliczamy wariancji dla ogółem.

F

emp

jest ilorazem S

2

obiektów i S

2

błędu. Jego wartość określa

stosunek zmienności wynikającej z różnic pomiędzy
obiektami do zmienności przypadkowej (błędu).

Wartości krytyczne odczytów z tablic dla określonych poziomów
istotności α. Są one potrzebne do porównania ich z wartością
empiryczną testu w celu wyciągnięcia wniosków.

W poszczególnych wierszach tej kolumny
opisane są wariancje składowe.
Obiekty opisują zmienność między
badanymi
średnimi.
Błąd opisuje zmienność przypadkową
(losową)
wewnątrz obiektów.
Ogółem jest sumą obu wyżej wymienionych
zmienności.

background image

10

Wnioskowanie w analizie
wariancji

Podobnie, jak w innych testach istotności, na podstawie

analizy wariancji można odrzucić H

0

lub stwierdzić brak

podstaw do jej odrzucenia. Oznacza to, że wnioski mogą
w zależności od wartości F

emp

być tylko dwóch rodzajów:

A)

Ponieważ F

emp

> F

0,05

(F

0,01

), dlatego odrzucamy H

0

na

korzyść H

1

i z prawdopodobieństwem popełnienia błędu

mniejszym niż 0,05 (0,01) stwierdzamy, że istnieją
istotne (wysoce istotne) różnice między badanymi
średnimi. Oznacza to, że wśród tych średnich są co
najmniej dwie, które na 95 % (99 %) różnią się.

B)

Ponieważ F

emp

≤ F

0,05

, dlatego brak jest podstaw do

odrzucenia H

0

. Oznacza to, że nie mamy przynajmniej

95 % (99%) pewności, że istnieją co najmniej dwie
średnie, które się różnią.

background image

11

Przykład
W doświadczeniu wazonowym (liczba powtórzeń n = 4)
zbadano wpływ nawożenia gleby różnymi mikroelementami na
plon nasion gorczycy z wazonu. Badano następujące obiekty
(k=6):
A-kontrola (bez nawożenia); B-Mn; C-Mn+B; D- Cu; E-Mo; F-
Cu+Mo.

Plon nasion gorczycy [g/wazon]

Pow

-

tórz

enie

Obiekty

A

B

C

D

E

F

1

44

33

44

68

63

64

316

2

59

19

40

66

49

73

306

3

60

49

45

70

59

77

360

4

41

71

31

64

71

67

345

204

172

160

268

242

281

1327

51,0

43,0

40,0

67,0

60,5

70,2

55,3

x

k

x

x

n

x

n

k

background image

12

 

76537

4

281

242

268

160

172

204

3

78823

67

59

44

2

73372

4

6

1327

1

2

2

2

2

2

2

2

2

2

2

2

2

2

n

Σx

Σ

Obiekty

...

Σ x

Σ

Ogół

n

k

Σx

Σ

Poprawka

n

k

n

k

n

k

Rodzaj

zmienności

l.s.s

Suma

kwad-

ratów

Średni

kwadrat

F

emp

F

0,05

F

0,01

Obiekty

(Mikroelemen

ty)

k-1=
6-1=5

3-1=

3165

633

4,98

**

2,77 4,25

Błąd

k(n-1)=
6(4-

1)=18

2-3=

2286

127

Ogółem

kn-1=
24
-1=23

2-1=

5451

background image

13

Wniosek

Ponieważ F

emp

> F

0,01

, dlatego odrzucamy H

0

na korzyść H

1

i z

prawdopodobieństwem popełnienia błędu mniejszym niż 0,01

stwierdzamy, że istnieją wysoce istotne różnice między badanymi

obiektami.

Porównania wielokrotne średnich

Procedura Tukeya

x

k

m

s

q

NIR

E

·

;

;

n

s

s

E

x

2

49

,

4

63

,

5

4

127

18

;

6

;

05

,

0

2

q

n

s

s

E

x

g

s

q

NIR

x

k

m

3

,

25

63

,

5

49

,

4

·

;

background image

14

Obiekty

(k)

Średni

plon

(g/wazon

)

Grupy

jednorodn

e

F

70,2

a
ab
abc
abc
bc
c

D

67,2

E

60,5

A

51,0

B

43,0

C

40,0

Średnia

55,3

Wnioski: Obiekt F daje większy plon nasion niż obiekty B,C, a obiekt
D daje większy plon niż obiekt C.

background image

15

NIR

0,05

background image

16

TESTY
NIEPARAMETRYCZNE

background image

17

Właściwości testów i zastosowanie


Poznane

dotychczas

parametryczne

testy

statystyczne odnosiły się do takich zmiennych,
których znajomość kształtu rozkładu była podana
w założeniach. Często jednak zdarza się, że nie
znamy kształtu rozkładu badanej zmiennej albo
rozkład jest inny niż rozkład normalny, ewentualnie
nie są spełnione inne warunki (np. stałość
wariancji) wymagane do użycia określonego testu
parametrycznego. Wtedy możemy zastosować
procedury nieparametryczne. Stosujemy je także
do danych w skali nominalnej i porządkowej oraz
dla grup o małej liczebności.

background image

18

Wady i zalety
procedur

ZALETY

Nie potrzeba robić żadnych założeń dotyczących rozkładu
badanej zmiennej losowej.

Są prostsze w użyciu.

Dobrze nadają się do oceny materiału niejednorodnego,
pochodzącego z eksperymentów wieloletnich i wielokrotnych .

WADY

Są mniej mocne niż testy parametryczne. Jak wcześniej
mówiliśmy, moc testu jest związana z możliwością przyjęcia
hipotezy zerowej, gdy nie została ona odrzucona. Dla testów
nieparametrycznych trudniej jest ustalić moc testu, dlatego dla
wielu testów nie jest ona określona. W wypadku testów, dla
których została określona, należy wykonać znacznie więcej
obserwacji niż dla testów parametrycznych, aby moc testów była
podobna.

background image

19

RODZAJE TESTÓW NIEPARAMETRYCZNYCH

TESTY ZGODNOŚCI

Testami zgodności nazywamy testy służące

do weryfikacji hipotez dotyczących typu

rozkładu badanej cechy. Za pomocą tych

testów weryfikujemy hipotezę, że rozkład

badanej cechy w próbie jest zgodny z

określonym rozkładem teoretycznym

(określonym w hipotezie H

o

).

test

test Kołmogorowa-Smirnowa

test Shapiro-Wilka

background image

20

TESTY NIEZALEŻNOŚCI

Zdarza się często, że badamy populację pod

względem dwóch lub więcej cech, albo analizujemy

dwie populacje względem tej samej cechy i chcemy

się dowiedzieć, czy istnieje zależność między nimi.

W przypadku gdy sądzimy, że zależność jest

liniowa możemy wyliczyć współczynnik korelacji

liniowej Pearsona i sprawdzić jego istotność, pod

warunkiem jednak, że próby pochodzą z populacji

normalnych i że są jednorodne.
Nie zawsze jednak te warunki są spełnione i wtedy

możemy

stosować

nieparametryczne

testy

niezależności:

test 

2

test korelacji rang Spearmana

background image

21

TESTY JEDNORODNOŚCI

Do

tej

grupy

testów

nieparametrycznych należą testy
pozwalające określić, czy pobrane
próby

pochodzą

z

tej

samej

populacji, czy są zróżnicowane.

Test Manna – Whitneya

Test kolejności par Wilcoxona

Test Kruskala-Wallisa

background image

22

Test 

2

jako test zgodności

Pearson wprowadził kryterium - dzięki któremu możemy

sprawdzić, czy badany rozkład nie odbiega od rozkładu
teoretycznego i czy rozbieżność ta mieści się w
granicach błędu losowego - za pomocą zmiennej losowej

k

i

i

i

i

E

E

O

1

2

2

)

(

gdzie: O

i

- liczebności obserwowane

E

i

- liczebności oczekiwane

(teoretyczne)

o



k-1 liczbie stopni swobody (k- liczba

badanych klas).

background image

23

Przykład

W doświadczeniu z grochem w pokoleniu F

otrzymano 45 roślin o

nasionach okrągłych i 1 roślin o nasionach kanciastych. Czy

można przyjąć, że kształt nasion grochu dziedziczy się zgodnie z

prawem Mendla, zakładającym stosunek rozszczepień 3:1.

Hipotezy
H

0

: rozkład jest zgodny z rozkładem 3:1

H

1

: rozkład odbiega od rozkładu 3:1

Nasiona

okrągłe

Nasiona

kanciast

e

Suma

O

45

12

57

E

42,75

14,25

57

3,841

2

0,05;1

χ

0,473

1

1

2

1

25

,

14

25

,

14

12

75

,

42

75

,

42

45

2

2

2

1

2

k

v

emp

k

i

i

E

i

E

i

O

Ponieważ

2

emp

<

2

0,05

hipotezy zerowej nie możemy odrzucić i

stwierdzamy, że stosunek rozszczepień jest 3:1, czyli kształt
nasion grochu dziedziczy się wg prawa Mendla.

background image

24

Test 2 jako test niezależności

Postawmy hipotezę, że dwie zmienne jakościowe X i Y są wzajemnie

niezależne. Dla sprawdzenia powyższej hipotezy dokonujemy

równoczesnej oceny rozkładu liczebności w kategoriach badanych

cech. Dane zestawione w dwukierunkowej tablicy tworzą tzw.

tablicę wielodzielczą (kontygencji) o k - kolumnach i w - wierszach.
Do weryfikacji H

0

o niezależności zmiennych stosujemy statystykę:

 

ij

ij

1

1

1

1

E

O

n

1

1

2

2

k

i

w

j

ij

k

i

w

j

ij

ij

ij

O

n

O

O

E

gdzie

k

i

w

j

ij

E

ij

E

ij

O

obserwowane liczebność jednostek eksperymentalnych,
mających jednocześnie właściwości x

i

i y

j

oczekiwane liczebność jednostek eksperymentalnych,
mających jednocześnie właściwości x

i

i y

J

Statystyka ma rozkład 

2

z liczbą stopni swobody

k-1)(w-1)

background image

25

Przykład

Zbadano wpływ oprysku środkami grzybobójczymi na zdrowotność

jabłek. Wzięto dwie skrzynki, w każdej po 110 jabłek. Jedną opryskano

środkiem grzybobójczym, a druga była kontrolą. Po pewnym czasie

policzono jabłka zdrowe i porażone w każdej skrzynce, i w ten sposób

uzyskano

liczebności obserwowane

. Czy istnieje zależność między

opryskiem a zdrowotnością jabłek?

Oprysk Kontrol

a

Suma

Zdrowe

100

70

170

(85)

(85)

Porażon
e

10

40

50

(25)

(25)

Suma

110

110

0

H

0

: brak zależności między opryskiem a zdrowotnością

jabłek
H

1

: istnieje zależność między opryskiem a zdrowotnością

jabłek

(W nawiasach podano liczebności oczekiwane)

background image

26

 

 

6,635

23,290

 

2

1

;

01

,

0

2

1

;

05

,

0

2

2

2

2

;

841

,

3

1

)

1

2

)(

1

2

(

)

1

)(

1

(

25

25

40

25

25

10

85

85

70

85

85

100

2

2

w

k

k w

E

E

O

emp

325

,

0

220

29

,

23

2

n

emp

Ponieważ

2

emp

>

2

0,01

, hipotezę zerową na poziomie istotności

0,01 odrzucamy i stwierdzamy, że oprysk ma wpływ na

zdrowotność owoców.

Współczynnik współzależności Yula

background image

27

Test Spearmana jako test niezależności
(korelacji nieparametrycznej)

Test ten służy do badania zależności między dwoma

cechami jakościowymi lub ilościowymi X i Y, gdy istnieje

możliwość uporządkowania obserwacji empirycznych w

określonej

kolejności

(rangowania).

Znajduje

on

zastosowanie, gdy liczba danych jest niewielka.

)

1

(

6

1

r

2

1

2

S

n

n

d

n

i

i

Jeżeli współczynnik r

s

będzie mały, to możemy przypuszczać, że

zmienne losowe X i Y są niezależne, jeżeli natomiast będzie on
bliski +1 lub -1, to można przypuszczać, że istnieje zależność
liniowa. Hipotezę o braku zależności odrzucamy, gdy r

S

> r

S



n

r

s

- współczynnik korelacji rang Spearmana

d

i

- różnice między rangami odpowiadających sobie

wartości cechy x

i

i y

i

n – liczba par obserwacji

background image

28

Przykład

U ośmiu (n=8) lisów (A, B,…, H) badano, czy istnieje zależność
pomiędzy barwą futra a agresywnością lisów.
Klasyfikacje:
a) barwa futra b) agresywność
1-najładniejsze 1-agresywny
8-najbrzydsze 8-spokojny

Lis Barw

a

Agresywnoś

ć

d

i

d

i

2

A

1

2

-1

1

B

2

1

1

1

C

3

3

0

0

D

4

6

-2

4

E

5

4

1

1

F

6

7

-1

1

G

7

8

-1

1

H

8

5

3

9

18

n

i

i

d

1

2

background image

29

643

,

0

786

,

0

214

,

0

1

504

108

1

)

1

8

(

8

18

6

1

)

1

(

6

1

8

;

05

,

0

2

2

1

2

S

n

i

i

S

r

n

n

d

r

Ponieważ r

S

> r

S 0,05

hipotezę zerową odrzucamy i stwierdzamy,

że istnieje

zależność między barwą futra a agresywnością lisów. Związek

ma charakter liniowy dodatni.

H

0

: brak zależności między barwą futra a agresywnością lisów


H

1

: istnieje zależność między barwą futra a agresywnością lisów


Document Outline


Wyszukiwarka

Podobne podstrony:
wyklad 8 Analiza wariancji ANOVA PL
Wyklad 9 statystyka testy nieparametryczne
Test-kolokwium 1-wykład sem6 wariant1, Geodezja, Fotogrametria, Testy
wyklad 10 analiza wariancji
Wykład 5 Testy nieparametryczne dla dwóch prób niezależnych (U Manna Whitneya, Kołmogorowa Smirnow
wyklad10 testy nieparametryczne
Metodologia z elelmentami statystyki dr Grzegorz Sędek wykład 17 Analiza wariancji Porównan
Metodologia z elelmentami statystyki dr Grzegorz Sędek wykład 15b Analiza wariancji
Metodologia z elelmentami statystyki dr Grzegorz Sędek wykład 20 Analiza wariancji w schema
Metodologia z elelmentami statystyki dr Grzegorz Sędek wykład 20a Analiza wariancji z powta
WYKLAD ANALIZA MATEMATYCZNA
testy nieparametryczne
Opis analizowanych wariantów inwestycji
Wykład analiza do zal 5
Jednoczynnikowa analiza wariancji

więcej podobnych podstron