background image

 

 

Korelacja i 
regresja

 

background image

 

 

TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI

• Związek funkcyjny

 – każdej wartości jednej zmiennej 

niezależnej odpowiada tylko jedna wartość zmiennej 
zależnej

Wzór na obwód kwadratu

Wzór na objętość kuli

X

4

0

10

20

30

40

50

0

2

4

6

8

10

12

[cm]

[cm]

0

1000

2000

3000

4000

5000

0

2

4

6

8

10 12

[cm]

[cm

3

]

3

3

4

X

Y

X - długość boku

X - promień kuli

background image

 

 

TYPY ZWIĄZKÓW MIĘDZY ZMIENNYMI

• Związek statystyczny

 – określonym wartościom 

zmiennej niezależnej odpowiadają określone średnie 
wartości zmiennej zależnej

72

,

87

15

,

4

wiek

wzrost

cm

wzrost

2

,

129

72

,

87

10

15

,

4

Wzrost w tej grupie dzieci zwiększa się średnio o 4,15 cm rocznie

Błąd standardowy estymacjiS

e

=12,72

Przewidywane wartości zmiennej WZROST różnią się od średnich 

empirycznych przeciętnie o 12,72cm

Przewidywany wzrost 10-latka w tej grupie dzieci:

background image

 

 

STATYSTYCZNE METODY ANALIZY KIERUNKU I 

KSZTAŁTU POWIĄZAŃ MIEDZY ZMIENNYMI

 Regresja liniowa

 – liniowa zależność miedzy dwoma zmiennymi ilościowymi

•Regresja wielokrotna

 – oddziaływanie wielu zmiennych na jedną 

zmienną zależną ilościową (relacje między zmiennymi liniowe)

 Regresja krzywoliniowa

 – nieliniowe relacje między zmiennymi

•Regresja logistyczna

 – wpływ zmiennych ilościowych na 

zmienną zależną dychotomiczną

 Analiza kanoniczna

 – powiązania miedzy zbiorami zmiennych 

ilościowych

 Analiza log-liniowa

 – powiązania miedzy zbiorami zmiennych 

jakościowych

background image

 

 

MIARY ZWIĄZKÓW MIĘDZY ZMIENNYMI

Siła związku

• Współczynniki korelacji

• Pearsona
• Spearmana

Kształt związku

• Równania regresji

• Tau Kendalla
• Gamma

background image

 

 

 

SIŁA ZWIĄZKU

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

[m m ]

[m m ]

Mała siła związku między 
dwiema zmiennymi. Danej 
wartości jednej zmiennej 
odpowiada szeroki zakres 
wartości drugiej zmiennej.

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[m m ]

[m m ]

[m m ]

Duża siła związku między 
dwiema zmiennymi. Danej 
wartości jednej zmiennej 
odpowiada niewielki zakres 
wartości drugiej zmiennej.

background image

 

 

KSZTAŁT ZWIĄZKU

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100110120130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100110120130 [dni]

[mm]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[d n i]

[m m ]

4 0

5 0

6 0

7 0

8 0

9 0

1 0 0 1 1 0 1 2 0 1 3 0

[d n i]

[m m ]

Związki prostoliniowe

Związki krzywoliniowe

Korelacja dodatnia

Korelacja ujemna

background image

 

 

ZWIĄZKI

PROSTOLINIOW

E

background image

 

 

 

SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI

Współczynnik korelacji liniowej Pearsona

Jest współczynnikiem parametrycznym

Teoretycznie rozkłady wartości jednej obu zmiennych musza być 
zgodne z rozkładem normalnym. Odstępstwa od tej zasady nie maja 
jednak większego wpływu na wartość współczynnika korelacji. 

Przyjmuje wartości od -1 do 1 

Jego znak wskazuje na kierunek zależności

Oznacza się go literą 

r

Ma zastosowanie wyłącznie do danych w skali interwałowej i 
ilorazowej

Na jego wartość duży wpływ maja obserwacje odstające 

Dotyczy wyłącznie liniowej zależności miedzy zmiennymi

Znaczne różnice w kształcie obu rozkładów mogą wpływać na jego 
wartość.

background image

 

 

 

SIŁA ZWIĄZKU MIĘDZY DWIEMA ZMIENNYMI

Współczynnik korelacji liniowej Pearsona

Istotność współczynnika korelacji Pearsona bada się odpowiedni test, który 
pozwala ocenić, czy korelacja stwierdzona na podstawie próby jest 
przypadkowa, czy też odzwierciedla prawidłowości istniejące w populacji. H

0

 

zakłada, że współczynnik korelacji Pearsona nie różni się istotnie od zera.

Wartość wsp. korelacji

Siła związku

Poniżej 0,20

Korelacja bardzo słaba

Między 0,20 i 0,39

Korelacja słaba

Między 0,40 i 0,69

Korelacja 
umiarkowana

Między 0,70 i 0,89

Korelacja silna

Powyżej 0,89

Korelacja bardzo silna

background image

 

 

WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA

Przykład 21

Badano związek między różnymi pomiarami biometrycznymi u biegusów 
płaskodziobych
Otrzymano następujące wartości współczynnika korelacji. Kolorem 
czerwonym zaznaczono współczynniki istotnie różne od 0.

dzió

b

sko

k

skrzydł

o

cięża

r

dziób

1,00

skok

0,47

1,0

0

skrzydł
o

0,40 0,3

3

1,00

ciężar

0,31

0,1

7

0,28

1,00

Stwierdzono umiarkowane skorelowanie długości dzioba z długością skoku i 
długością skrzydła oraz słabą korelację pomiędzy długością dzioba i ciężarem 
ciała, długością skoku i długością skrzydła oraz długością skrzydła i ciężarem 
ciała.
Nie stwierdzono zależności między długością skoku i ciężarem ciała (r=0,17; 
t=1,32; p=0,19)

background image

 

 

PORÓWNANIE DWÓCH WSPÓŁCZYNNIKÓW KORELACJI LINIOWEJ 

PEARSONA

Ma zastosowanie w sytuacji, gdy chcemy sprawdzić czy siła związku dwóch 
zmiennych w dwóch różnych populacjach jest taka sama. 

Przykład 22

Współczynniki korelacji między wysokością i pierśnicą sosen rosnących na 
dwóch różnych siedliskach wynoszą odpowiednio: 0,83 (n=123) i 0,71 
(n=94). Należy sprawdzić czy siła związku między pierśnicą i wysokością 
sosen zależy od typu siedliska.

H

0

: siła związku jest taka sama

H

A

: siła związku nie jest taka sama

Do wykonania testu potrzebne są wartości współczynników korelacji i 

liczebności prób

siedlisko 1 siedlisko 

2

r

0,83

0,71

n

123

94

p = 0,0315

Siła związku między wysokością i 
pierśnicą sosen rosnących na dwóch 
siedliskach różni się istotnie (p<0,05).

Zależność między wysokością i 
pierśnicą sosen zależy od typu siedliska 
(p<0,05).

Istnieje także test porównujący 
wiele współczynników korelacji.

background image

 

 

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Współczynnik korelacji Spearmana

Jest nieparametrycznym odpowiednikiem współczynnika korelacji 
Pearsona

Obliczany jest w nie w oparciu o wartości pomiarów, a o ich rangi

Współczynnik tau Kendalla

Jego wartość obliczana jest na podstawie różnicy między 
prawdopodobieństwem tego, że dwie zmienne układają się w tym samym 
porządku, a prawdopodobieństwem, że ich uporządkowanie się różni.

 

Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności 

Wskazuje na zgodność uporządkowania dwóch zbiorów

Przyjmuje wartości od -1 do 1. Jego znak wskazuje na kierunek zależności 

Jego znak wskazuje na kierunek zależności

Mogą być stosowane do danych w skali porządkowej 

Współczynnik Gamma

Odpowiednik współczynnika tau Kendalla dla danych z bardzo dużą liczbą par wiązanych

Zalecane do prób o małej liczebności 

background image

 

 

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Przykład 23

Badano związek między różnymi pomiarami biometrycznymi u 10 biegusów 
zmiennych.
Otrzymano następujące wartości współczynnika korelacji Spearmana. 
Kolorem czerwonym zaznaczono współczynniki istotnie różne od 0.

dzió
b

skrzydł
o

cięża
r

dziób

1,00

skrzydł

o

0,97

1,00

ciężar

0,35

0,39

1,00

Stwierdzono istotną statystycznie bardzo silną korelację między długością 
dzioba i skrzydła (r

s

=0,97; p<0,05). Nie stwierdzono zależności między 

długością skrzydła i ciężarem ciała (r

s

=0,39; p>0,05) oraz długością dzioba i 

ciężarem ciała (r

s

=0,35; p>0,05). 

background image

 

 

NIEPARAMETRYCZNE WSPÓŁCZYNNIKI KORELACJI

Przykład 24

Badano czy międzysezonowe zmiany liczebności u 3 gatunków siewkowców 
przebiegają podobnie. Otrzymano następujące wartości współczynnika 
korelacji tau Kendalla. Kolorem czerwonym zaznaczono współczynniki istotnie 
różne od 0.

Biegus 
krzywodziob
y

Biegus 
rdzawy

Krwawodzió
b

Biegus 
krzywodzioby

1,00

Biegus rdzawy

0,51

1,00

Krwawodziób

-0,45

-0,14

1,00

Stwierdzono istotną statystycznie umiarkowaną korelację między zmianami 
liczebności biegusa rdzawego i krzywodziobego (tau Kendalla=0,51; p<0,05). 
Nie stwierdzono zależności między zmianami liczebności krwawodzioba i obu 
gatunków biegusów (tau Kendalla=-0,45; p>0,05 i tau Kendalla=-0,14; 
p>0,05)).

background image

 

 

KORELACJA WIELOKROTNA

Do oceny siły związku między więcej niż dwoma zmiennymi służą 
współczynniki korelacji wielokrotnej. Przyjmują one wartości od 0 (brak 
związku) do 1 (związek doskonały).

Stosuje się go w przypadku analiz parametrycznych.

Oznacza się go literą 

R

Jest on pierwiastkiem kwadratowym ze 

współczynnika determinacji R

2

, który 

wykorzystywany jest w analizie regresji do oceny dopasowania równania 
regresji do danych empirycznych.

Stosuje się go w przypadku analiz nieparametrycznych.

Współczynnik ten wykorzystywany jest także jako ocena zgodności między 
wieloma rankingami (tzw. ocena zgodności niezależnych sędziów).  

Oznacza się go literą 

W

Współczynnik korelacji wielokrotnej

Współczynnik zgodności Kendalla

background image

 

 

KORELACJA CZĄSTKOWA

Jest miarą korelacji między dwiema zmiennymi z wyłączeniem wpływu na ten 
związek innych zmiennych.

Stosowany jest w analizach regresji opisujących wpływ wielu zmiennych na 
wartość zmiennej badanej.

Współczynnik korelacji cząstkowej

Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy 
niskim współczynniku korelacji Pearsona świadczy o silnej zależności tych 
zmiennych i o silnie zaburzającym tą zależność wpływie pozostałych 
zmiennych.

Wysoka wartość współczynnika korelacji cząstkowej dwóch zmiennych przy 
wysokim współczynniku korelacji Pearsona świadczy o silnej zależności tych 
zmiennych i o braku wpływu na tą zależność pozostałych zmiennych.

background image

 

 

KORELACJA CZĄSTKOWA I WIELOKROTNA

Przykład 25

Badano związek między wzrostem pewnego gatunku rośliny a temperaturą i 
ilością opadów. Eksperyment przeprowadzono w laboratorium na 30 
osobnikach. Kolorem czerwonym oznaczono współczynniki istotne 
statystycznie (p<0,05).

Współczynni

k korelacji 

cząstkowej

Współczynnik 

korelacji Pearsona

Temperatura

0,39

0,73

Opady

0,70

0,85

Wzrost badanego gatunku rośliny jest silniej uzależniony od ilości opadów 
(oba współczynniki przyjmują wysoką wartość), niż od temperatury (niska 
wartość współczynnika korelacji cząstkowej). 

Współczynnik korelacji wielokrotnej

 R=0,86

Ilość opadów i temperatura bardzo silnie korelują ze wzrostem badanego 
gatunku rośliny (współczynnik korelacji wielokrotnej R=0,86). 

background image

 

 

 

KSZTAŁT ZWIĄZKU

REGRESJA

PROSTOLINIOWA

background image

 

 

KORELACJA

 i 

REGRESJA

Związki jednostronne

 – wartość jednej zmiennej (tzw. zmiennej niezależnej) 

wpływa na wartość drugiej zmiennej (tzw. zmiennej zależnej). Odwrotna 
zależność nie istnieje. Np. wiek drzewa (zmienna niezależna) i wysokość 
drzewa (zmienna zależna).

Związki dwustronne

 – wzajemne oddziaływanie na siebie dwóch zmiennych. 

Nie można wskazać zmiennej zależnej i zmiennej niezależnej, np. związek 
wysokości i pierśnicy drzewa.

Do oceny siły obu tych związków stosuje się współczynniki korelacji

Do przedstawienia przebiegu tych zależności stosuje się:
• związki jednostronne – 

linia regresji

• związki dwustronne – 

oś główna zredukowana

background image

 

 

b

ax

y

Y

X

0

10

20

30

40

0

5

10

15

20

[dni]

[mm]

Zmiany długości liścia pewnego gatunku rośliny  w kolejnych dniach

 Regresja prostoliniowa

długość liścia 

=

 

a

*

dzień 

+

 

b

y

 – zmienna zależna

x

 – zmienna niezależna

a

 – współczynnik regresji (współczynnik 

kierunkowy)

o ile zmieni się wartość zmiennej zależnej, gdy 
wartość zmiennej niezależnej zwiększy się o 1

b

 – wyraz wolny (punkt przecięcia prostej regresji z osią Y)

background image

 

 

METODA NAJMNIEJSZYCH KWADRATÓW

0

10

20

30

40

0

5

10

15

20

[dni]

[mm]

b

ax

y

Parametry równania prostej regresji wyznaczane są w taki sposób, by suma 
kwadratów odchyleń przyjmowała minimalną wartość.

background image

 

 

 Regresja prostoliniowa

Przykład 26

Na podstawie próby 35 mężczyzn w tym samym wieku zbadano zależność 
ciężaru ciała od wzrostu.

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

1 5 5

1 6 0

1 6 5

1 7 0

1 7 5

1 8 0

1 8 5

1 9 0

1 9 5

w z r o s t

4 5

5 0

5 5

6 0

6 5

7 0

7 5

8 0

8 5

9 0

ci

ęż

ar

[c m ]

[k g ]

r   =   0 , 9 9

Jaka część obserwowanej zmienności ciężaru ciała jest wyjaśniona przez 
wzrost?

 

R

2

=0,99

R

2

 - współczynnik determinacji

Współczynnik regresji istotnie 
różni się od zera (związek 
regresyjny jest istotny) 

(t=50,3; p<0,001)

background image

 

 

 Regresja prostoliniowa

Przykład 26 cd.

Jaki jest przewidywany ciężar mężczyzny z tej grupy o wzroście 187 cm? 

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

ciężar = 1,40 * 187 cm -176,5

 

ciężar = 85 kg 

155

160

165

170

175

180

185

190

195

wzrost

45

50

55

60

65

70

75

80

85

90

ci

ęż

ar

[cm]

[kg]

Jaki dokładne jest nasze 
oszacowanie? 

Błąd standardowy szacunku 

(estymacji)

1,04 kg

 (odchylenie standardowe z reszt – 

mówi o ile przeciętnie różnią się wartości empiryczne od wartości teoretycznych 
reprezentowanych przez prostą regresji

background image

 

 

Regresja 

wielokrotna

background image

 

 

b

x

a

x

a

x

a

x

a

y

n

n

......

3

3

2

2

1

1

b

ax

y

Równanie regresji prostoliniowej z jedna zmienną niezależną 

Regresja wielokrotna

Równanie regresji prostoliniowej z wieloma zmiennymi niezależnymi 

zmienne niezależne = zmienne objaśniające

Regresja wielokrotna jest jedną z 

najpowszechniej stosowanych metod w bardziej 

zaawansowanych analizach statystycznych

 

Wartość każdego ze współczynników regresji informuje o ile zmieni się 
wartość zmiennej zależnej, gdy wartość danej zmiennej niezależnej  zwiększy 
się o 1, a pozostałe zmienne niezależne pozostaną bez zmian.

background image

 

 

Regresja wielokrotna

Przykład 27

Pomierzono i zważono 435 biegusów krzywodziobych. Należało znaleźć 
równanie regresji szacujące ciężar ciała na podstawie wymiarów liniowych.

B

Błąd st.

t

poziom p

wyraz wolny

-28,16

14,28

-1,97

0,049

dł. głowy

-0,07

0,15

-0,47

0,635

dł. nogi

0,48

0,21

2,32

0,021

dł. skrzydła

0,45

0,12

3,71

0,000

Uzyskano następujące wyniki

R

= 0,07

Błąd standardowy 
szacunku = 6,55

Ciężar ciała = 0,54*dł. nogi + 0,23*dł. skrzydła – 8,06

B

Błąd st.

t

poziom p

wyraz wolny

-8,06

11,39

-0,71

0,479

dł. nogi

0,54

0,14

3,90

0,000

dł. skrzydła

0,23

0,09

2,48

0,013

R

= 0,05

Błąd standardowy 
szacunku = 6,25

Uzyskano model (równanie, który objaśnia zaledwie 5% zaobserwowanej 
zmienności ciężaru ciała tego gatunku. Jego wartość prognostyczna jest 
bardzo niska. Na ciężar ciała biegusów zmiennych silnie wpływają inne 
zmienne niż analizowane pomiary liniowe

Ciężar ciała = -0,07*dł. głowy + 0,48*dł. nogi + 0,45*dł. skrzydła – 28,16

background image

 

 

Założenia analizy regresji

Liniowość modelu

Liczebność próby większa od liczby szacowanych 
parametrów
Rozkład reszt musi być normalny

Brak autokorelacji reszt

Homoscedastyczność

background image

 

 

 LINIOWOŚĆ MODELU

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

background image

 

 

LICZEBNOŚĆ PRÓBY WIĘKSZA OD LICZBY 

SZACOWANYCH PARAMETRÓW

b

x

a

Y

 *

b

x

a

x

a

Y

2

2

1

1

*

*

N>2

N>3

b

x

a

x

a

x

a

Y

3

3

2

2

1

1

*

*

*

N>4

W praktyce zawsze dysponujemy większa liczebnością prób 

background image

 

 

DEFINICJA RESZT

5

,

3

4

5

4

3

2

X

5

,

3

5

5

,

3

4

5

,

3

3

5

,

3

2

-1,5

-0,5

0,5

1,5

-1,5

2

=2,25

-0,5

2

=0,25

0,5

2

=0,25

1,5

=2,25

5,00

29

,

1

1

5

n

s

3

,

1

5

,

3 

x

ROZKŁAD RESZT MUSI BYĆ NORMALNY

background image

 

 

i

i

i

y

y

e

ˆ

DEFINICJA RESZT

40

50

60

70

80

90

100

110

120

130

[dni]

[mm]

background image

 

 

ROZKŁAD RESZT MUSI BYĆ NORMALNY

test Shapiro-Wilka; W=0,95; 
p>0,05

-2,5

-1,5

-0,5

0,5

1,5

2,5

-6

-4

-2

0

2

4

Reszty

W

a

rt

o

śc

o

cz

e

k

iw

a

n

e

-6 -5

-4

-3

-2

-1

0

1

2

3

0

2

4

6

8

N

background image

 

 

• Sprawdzenie założeń, których spełnienie jest 

warunkiem wyznaczania równania regresji 
metodą najmniejszych kwadratów

• Odnalezienie punktów odstających i 

ekstremalnych

• Wykrycie niejednorodności danych zebranych w 

wyniku badań, co może wskazywać na istnienie 
czynników nieuwzględnionych w modelu, lub 
może być pierwszym krokiem wiodącym do 
odkrycia nowego zjawiska

Analiza reszt w regresji liniowej umożliwia:

Analiza reszt powinna być wykonywana 

obligatoryjnie po wstępnym ustaleniu 

parametrów równania regresji

background image

 

 

BRAK AUTOKORELACJI RESZT

t

t

t

e

e

 1

współczynnik autokorelacji

0

:

0

:

0

A

H

H

Autokorelacja występuje, jeżeli 

współczynnik autokorelacji istotnie różni się 

od zera

Autokorelację spotyka się najczęściej w tzw. szeregach czasowych – gdy 
zmienną niezależną  jest czas. Autokorelacja występuje gdy wartość 
zmiennej zależnej w danym punkcie zależy od jej wartości w punkcie 
poprzednim. 

Autokorelacja reszt równania regresji występuje gdy składnik resztowy w 
danym punkcie zależy od składnika resztowego w punkcie poprzednim. 

background image

 

 

WNIOSKOWANIE ZA POMOCĄ TESTU DURBINA-

WATSONA

0

2

4

d

L

4-d

L

d

U

4-d

U

a

u

to

k

o

re

la

c

ja

d

o

d

a

tn

ia

a

u

to

k

o

re

la

c

ja

u

je

m

n

a

brak

autokorelacji 

reszt

o

b

s

z

a

r

 

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

o

b

s

z

a

r

 

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

 wartość testu - d <0;4>

 dwie wartości krytyczne - d

L

 i d

U

 równanie regresji musi mieć wyraz wolny

 N>15

Jeśli wartość testu Durbina-Watsona nie rozstrzyga o istnieniu autokorelacji, 
stosuje się 

test mnożników Lagrange’a

background image

 

 

POSTĘPOWANIE PRZY AUTOKORELACJI 

•Ponownie przeanalizować zastosowany model. 

Autokorelację może powodować wadliwa postać 
funkcyjna modelu 

•Zastosować inna metodę estymacji równania regresji niż 

metoda najmniejszych kwadratów 

•Nie robić nic - ale wtedy nasze estymatory (czyli 

parametry równania) nie będą efektywne

40

50

60

70

80

0

10 20

30

40

DNI

N

background image

 

 

HOMOSCEDASTYCZNOŚĆ

Wariancja reszt jest taka sama dla wszystkich wartości 

zmiennej zależnej

-20

-10

0

10

20

90

100 110 120 130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

homoscedastyczność

-20

-10

0

10

20

90

100 110 120 130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

heteroscedastyczność

background image

 

 

WYKRYWANIE HETEROSCEDASTYCZNOŚCI

-20

-10

0

10

20

90

100

110

120

130

[dni]

[mm]

Wartości przewidywane

re

sz

ty

test Lagrange’a

F=16,5; p<0,001

background image

 

 

POSTĘPOWANIE PRZY HETEROSCEDASTYCZNOŚCI

•Zastosować inna metodę estymacji równania regresji niż 

metoda najmniejszych kwadratów 

•Zastosować transformację danych:

 

Y

Y

log

gdy wariancja wzrasta

gdy wariancja maleje

2

Y

•Nie robić nic - ale wtedy nasze estymatory (czyli 

parametry równania) nie będą efektywne

background image

 

 

WSPÓŁLINIOWOŚĆ ZMIENNYCH NIEZALEŻNYCH

Tylko w przypadku regresji wielokrotnej

Po stronie zmiennych niezależnych nie powinny występować 

pomiary silnie ze sobą skorelowane

80

,

10

BL

28

,

0

BM

48

,

0

F

12

,

10

THL

51

,

0

BL

24

,

0

BM

45

,

0

F

zmienna

B

t

p

BM

0,45 3,51

0,003

BL

0,24 1,72 0,104

THL

0,51 0,39 0,701

w.wolny

10,12 3,27

0,005

zmienna

B

t

p

BM

0,48 3,58

0,002

BL

0,28 2,55

0,020

w.wolny

10,80 3,38

0,004

931

,

0

R

2

933

,

0

2

R

background image

 

 

OBSERWACJE NIETYPOWE

40

50

60

70

80

90

100 110 120 130

[dni]

[mm]

40

50

60

70

80

90

100 110 120 130

[dni]

[mm]

•Mogą być następstwem błędu pomiaru

•Mogą wskazywać na złą postać modelu

Statystyczną weryfikację przypadków 

nietypowych musi poprzedzić analiza 

merytoryczna

odstająca
wpływowa

background image

 

 

WYKRYWANIE OBSERWACJI NIETYPOWYCH

•Wykresy rozrzutu: 

•Wartości przewidywanych względem otrzymanych 
•Wartości przewidywanych względem reszt 

•Porównanie uzyskanych pomiarów z teoretycznym 

zakresem wartości danej zmiennej 

•Analiza statystyk związanych z resztami: 

•Odległość Cooka 
•Odległość Mahalanobisa 

Po usunięciu pomiaru nietypowego należy 

ponownie wykonać analizę regresji

background image

 

 

 Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

Liniowość modelu 

– punkty układają się wzdłuż linii prostej

Liczebność próby większa od liczby szacowanych parametrów 

N = 35, liczba szacowanych parametrów równania = 2 (a, b)

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

1 5 5

1 6 0

1 6 5

1 7 0

1 7 5

1 8 0

1 8 5

1 9 0

1 9 5

w z r o s t

4 5

5 0

5 5

6 0

6 5

7 0

7 5

8 0

8 5

9 0

ci

ęż

ar

[c m ]

[k g ]

r   =   0 , 9 9

background image

 

 

 Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

Rozkład reszt musi być normalny

- 3

- 2

- 1

0

1

2

3

R e s z ty

- 3

- 2

- 1

0

1

2

3

O

cz

ek

iw

an

w

ar

to

ść

 n

or

m

al

na

 r

es

zt

Wykres normalności reszt

background image

 

 

Brak autokorelacji reszt

 Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

Wynik testu Durbina-Watsona d = 2,10

Wartości krytyczne dla α=0,05, n=35,  
k=1 (liczba zmiennych niezależnych)

d

L

 = 1,402; d

U

 = 1,519

0

2

4

d

L

4-d

L

d

U

4-d

U

a

u

to

k

o

re

la

c

ja

d

o

d

a

tn

ia

a

u

to

k

o

re

la

c

ja

u

je

m

n

a

brak

autokorelacji 

reszt

o

b

s

za

r

 

n

ie

k

o

n

k

lu

zy

w

n

o

ś

c

i

o

b

s

za

r

 

n

ie

k

o

n

k

lu

z

y

w

n

o

ś

c

i

1,402

1,519

2,598

2,481

2

,1

0

Nie ma podstaw do odrzucenia H

0

 o braku autokorelacji reszt

background image

 

 

 Regresja prostoliniowa

Przykład 26 cd.

c ię ż a r   =   1 , 4 0   *   w z r o s t  - 1 7 6 , 5  

Homoscedastyczność

45

50

55

60

65

70

75

80

85

90

Wartości przewidywane

-3

-2

-1

0

1

2

3

R

es

zt

y

Brak hereroscedastyczności. Rozrzut reszt względem wartości 
przewidywanych nie wykazuje wyraźnej tendencji rosnącej lub malejącej.

background image

 

 

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

40

50

60

70

80

90 100 110 120 130 [dni]

[mm]

Regresja krzywoliniowa

background image

 

 

Związki pozorne

Analiza siły i przebiegu związku między zmiennymi MUSI 

być poprzedzona wnikliwą analizą merytoryczną 

badanego zjawiska.

 

Istotny związek między liczbą urodzin i liczbą bocianów w 
Polsce

Istotny związek między liczbą urodzin i spożyciem alkoholu w Kanadzie

Przykłady związków pozornych

Istotny związek liczbą strażaków biorących udział w gaszeniu pożaru i 
wielkością strat materialnych. 

background image

 

 


Document Outline