background image

 

 

Prosta analiza regresji i 

wprowadzenie do regresji 

wielokrotnej 

Wykład 9

background image

 

 

Różnice

• Dotychczas szukaliśmy różnic między 

pewnymi grupami (zmienna 
niezależna jakościowa)

background image

 

 

Podsumowanie – poszukiwanie różnic

background image

 

 

Podsumowanie – poszukiwanie różnic

background image

 

 

Podsumowanie – poszukiwanie różnic

background image

 

 

Zmiana sposobu wnioskowania

poszukiwanie związku

• Oprócz różnic chcemy także 

poszukiwanie związku pomiędzy 
zmiennymi – metody regresyjne

• Zaczniemy od najprostszej postaci – 

związek między dwiema zmiennymi 
ilościowymi

• Przewidywanie

background image

 

 

Możliwości przewidywania zarobków, 

pogody w majowy weekend…

 

• Spojrzenie na średnie zarobki.
• Dowiadujemy się, ile zarabiają przeciętnie Polacy i to jest wtedy przewidywana kwota jaką zarobimy.
• Jeśli znamy predyktory zarobków np. poziom wykształcenia to możemy przewidzieć zarobki znając 

średnią grupową.

• Skoro osoby z wykształceniem średnim zarabiają przeciętnie 4400 złotych brutto to my też 

powinniśmy

background image

 

 

Gdy zmienna przewidywana i 

predyktor są ilościowe….

• Jeśli mamy dwie zmienne ilościowe to 

posługiwanie się średnią jest mało 
dokładne. 

• Znacznie lepsze jest użycie do 

przewidywania modelu uzyskanego w 
wyniku analizy regresji

background image

 

 

Analiza regresji

• Pozwala na przewidywanie poziomu jednej 

zmiennej na podstawie poziomu drugiej 
zmiennej.

• Nie ma sensu przeprowadzać prostej analizy 

regresji, kiedy nie ma korelacji między 
zmiennymi 

– Im silniejsza korelacja między zmiennymi, tym 

lepsza możliwość przewidywania

– Analiza regresji prostoliniowej – posługujemy się 

do przewidywania matematycznym modelem linii 
prostej

background image

 

 

Ogólny wzór linii prostej

stala

nachylenia

ˆ

B

X

B

Y

stala

nachylenia

ˆ

A

X

B

Y

background image

 

 

Y=2x+1

– Jak wzrasta 

wartość X o 1, 
wartość Y 
wzrasta o 2

– Idealna 

predykcja, w 
większości 
przypadków 
mamy do 
czynienia z 
błędem 
predykcji

X

12

11

10

9

8

7

6

5

4

3

2

1

0

Y

24

22

20

18

16

14

12

10

8

6

4

2
0

background image

 

 

Przykład 1

• Czy wielkość stresu kierownika 

zależy od liczby podległych mu 

pracowników?

• Obie zmienne ilościowe
• Pytanie badawcze o związek 

między zmiennymi

• Uznajemy, że zależność ta jest 

proporcjonalna więc linia prosta 

będzie dobrym modelem ją 

opisującym. 

background image

 

 

Linia regresji

Aby opisać dane 
posługujemy się 
modelem linii prostej.

Szukamy takiej linii, 
której odległość od 
wszystkich wyników 
jest minimalna. 
Określamy to za 
pomocą Metody 
Najmniejszych 
Kwadratów odległości 
punktów od linii. 

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

background image

 

 

Dopasowanie linii

Porównanie 
kwadratów odległości 
punktów od

linii regresji

 oraz 

odległości punktu 
przewidywanego od 
średniej

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

.

Wyniki 

rzeczywisty

Wyniki 

przewidywan

y

background image

 

 

Dopasowanie linii

Kwadraty odległości 
punktów to………

Jaka statystyka?

2,00

4,00

6,00

8,00

10,00

12,00

os X - liczba pracowników

0,00

2,00

4,00

6,00

8,00

10,00

12,00

o

Y

 -

 p

o

zi

o

m

 s

tr

es

u

R kwadrat dla Liniowej 

= 0,766

Reszta regresji

Aby sprawdzić, czy 
linia regresji jest 
dobrym modelem 
wykonywana jest 

analiza wariancji

 

porównująca średni 
kwadrat regresji (to 
co regresja wyjaśnia) 
w stosunku do 
średniego kwadratu 
reszt (to czego 
regresja nie wyjaśnia)

background image

 

 

Jak w SPSS-ie?

background image

 

 

Wydruk analizy wariancji

• Istotna analiza wariancji informuje nas, że 

odległości przewidywanych wyników są większe w 
porównaniu do reszt.

• A tak po ludzku?

Analiza wariancji

b

26,036

1

26,036

9,807

,049

a

7,964

3

2,655

34,000

4

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), pracow

a. 

Zmienna zależna: stres

b. 

background image

 

 

Jaki jest wzór linii?

• Wzór linii  (dla danych surowych): 
stres=0,964*liczba pracowników - 0,75
Na podstawie tego wzoru możemy przewidywać poziom stresu 

innych kierowników

Na przykład – jeśli kierownik ma 40 podwładnych to zgodnie ze 

wzorem 0,964*50-0,75=47,45

Oznacza to, że przewidywany poziom stresu powinien osiągnąć około 

47 punktów w kwestionariuszu. Nie  musimy więc już go mierzyć 

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

 

 

Ale jaka jest ta zależność?

• Interpretacji zależności dokonujemy na podstawie 

współczynnika standaryzowanego beta. Jest to odpowiednik 

współczynnika korelacji R-Pearsona

• Siła i kierunek zależności

• Istotność testu T informuje nas o tym czy beta=0

• Jeśli beta jest równa zero, to nie ma zależności prostoliniowej

• Jeśli istotnie różni się od zera to znaczy, że mamy zależność – 

wtedy interpretujemy betę

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

 

 

Ale jaka jest ta zależność?

• Jaka jest zatem zależność między liczbą 

podległych pracowników a poziomem 
stresu?

• silna ? słaba
• dodatnia ? ujemna

Współczynniki

a

-,750

2,275

-,330

,763

,964

,308

,875

3,132

,049

(Stała)
pracow

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: stres

a. 

background image

 

 

Czy predyktor jest 

efektywny?

• Aby się dowiedzieć, czy predyktor jest 

dobrym predyktorem – wyjaśnia duży 
procent wariancji zmiennej 
przewidywanej patrzymy na wartość r 
kwadrat

Model - Podsumowanie

,875

a

,766

,688

1,62934

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), pracow

a. 

background image

 

 

Jak obliczamy r kwadrat?

Model - Podsumowanie

,875

a

,766

,688

1,62934

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), pracow

a. 

ogolem

regresja

SS

SS

2

Analiza wariancji

b

26,036

1

26,036

9,807

,049

a

7,964

3

2,655

34,000

4

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), pracow

a. 

Zmienna zależna: stres

b. 

background image

 

 

Podsumowanie

Kolejne kroki analizy regresji:
1.

Sprawdzamy czy model linii regresji dobrze 
pasuje do danych (analiza wariancji)

2.

Sprawdzamy, czy istnieje zależność między 
predyktorem a zmienną zależną (istotność 
współczynnika beta)

3.

Interpretujemy współczynnik beta (siła i 
kierunek zależności)

4.

Zapisujemy wzór linii dla danych surowych

background image

 

 

Przykład 1 - problemy

Współczynniki

a

3,002

1,124

2,670

,026

,500

,118

,816

4,239

,002

(Stała)
x3

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: y3

a. 

Analiza wariancji

b

27,470

1

27,470

17,972

,002

a

13,756

9

1,528

41,226

10

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), x3

a. 

Zmienna zależna: y3

b. 

background image

 

 

Uwaga dewianci…

4,00

6,00

8,00

10,00

12,00

14,00

x3

6,00

8,00

10,00

12,00

y3

R kwadrat dla Liniowej 

= 0,666

background image

 

 

Jak zdiagnozować dewianta?

background image

 

 

Statystyki odległości

Gdy 

większe 

niż jeden

background image

 

 

Przykład 2 - Problemy

Statystyki opisowe

7,5009

2,03058

11

9,0000

3,31662

11

y4
x4

Średnia

Odchylenie

standardowe

N

Współczynniki

a

3,002

1,124

2,671

,026

,500

,118

,817

4,243

,002

(Stała)
x4

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: y4

a. 

background image

 

 

Przykład 2 – stała + dewiant

5,00

10,00

15,00

20,00

x4

6,00

8,00

10,00

12,00

y4

R kwadrat dla Liniowej 

= 0,667

background image

 

 

Przykład 3- brak liniowości

4,00

6,00

8,00

10,00

12,00

14,00

x2

3,00

4,00

5,00

6,00

7,00

8,00

9,00

10,00

y2

R kwadrat dla Liniowej 

= 0,666

background image

 

 

-2

-1

0

1

2

Regresja Standaryzowana wartość przewidywana

-2

-1

0

1

R

eg

re

sj

R

es

zt

st

an

d

ar

yz

o

w

an

a

Zmienna zależna: y2

Wykres rozrzutu

-2

-1

0

1

2

Regresja Standaryzowana wartość przewidywana

-2

-1

0

1

R

eg

re

sj

R

es

zt

st

an

d

ar

yz

o

w

an

a

Zmienna zależna: y1

Wykres rozrzutu

background image

 

 

Założenia analizy regresji

• Odpowiednia liczba osób badanych. Ale co to 

znaczy? Tabachnick i Fidel podają, że musi to 

być 50 osób plus 8 na każdy predyktor. Jeśli 

mamy jedną zmienną niezależną to 

powinniśmy mieć w zbiorze danych 58 osób 

badanych.

• Zmienna zależna musi mieć rozkład normalny
• Zmienne niezależne powinny być liniowo 

powiązane ze zmienną zależną

• Przypadki odstające i ekstremalne powinny 

zostać znalezione i wyeliminowane

background image

 

 

Przykład 4 – Pokaż mi, ile masz 

książek…

• Jak dobry rozmiar ramy?
• Wysokość ramy musi zapewniać 

dostateczny dystans pomiędzy 
górną rurą ramy a kroczem. Ma on 
pozwolić na bezpieczne zeskoczenie 
z pedałów bez przykrych 
konsekwencji. W rowerze górskim 
rowerzysta, kiedy stoi okrakiem nad 
ramą, musi mieć możliwość 
uniesienia przedniego koła co 
najmniej 15 cm nad ziemię. 

background image

 

 

Oglądamy wykres

• Wykres wygląda 

mało 
zachęcająco, ale 
nie widać 
żadnych 
dewiantów ani 
zależności 
krzywoliniowej

0

1

2

3

4

5

6

7

L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

0

20

40

60

80

100

W

Y

N

IK

 W

 T

E

S

C

IE

 A

L

F

A

B

E

T

 F

U

N

K

C

/1

99

9/

0-

10

0

background image

 

 

Czy model jest dobrze dopasowany?

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a. 

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b. 

Model jest dobrze dopasowany do danych F(1, 
958)=234,9; p<0,001

background image

 

 

Współczynniki

• Jeśli osoba badana ma zero książek to 

uzyskuje ….. punktów w teście.

• Wraz z zakupem każdej kolejnej książki 

osoba badana zyskuje 7,8 punktu w teście

• Zależność jest dość silna i dodatnia

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

 

 

Procent wyjaśnianej 

wariancji

• Zmienna liczba książek pozwala wyjaśnić 

prawie 20% zmienności zmiennej 
analfabetyzm funkcjonalny

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a. 

background image

 

 

Podsumowanie

• Regresja dopasowuje linię prostą – 

metoda najmniejszych kwadratów – 

analiza wariancji

• Dowiadujemy się jak silny jest związek i 

jaki jest jego kierunek (współczynnik 

beta)

• Dzięki wzorowi linii możemy przewidywać 

wielkość zmiennej przewidywanej znając 

tylko wielkość predyktora. 

• Uwaga na dewiantów i krzywoliniowość


Document Outline