background image

Analiza regresji

background image

Regresja jednozmiennowa

• Jeden predyktor, jedna zmienna zależna 

(obie zmienne ilościowe)

• Założenia:

– odpowiednia liczba osób badanych (formuła 50 

+ 8), 

– prostoliniowa zależność (oceniana na oko),
– normalność rozkładu zmiennych (przy małych 

liczebnościach test Shapiro-Wilka, przy małych 
K-S), 

– usunięte przypadki odstające i skrajne

background image

Podsumowanie

• Za pomocą metody najmniejszych kwadratów 

dopasowywana jest linia prosta spełniająca 

taki warunek, że suma odległości wyników od 

linii jest minimalna (wyniki badanych leżą jak 

najbliżej tej linii analiza wariancji)

• Dowiadujemy się jak silny jest związek i jaki 

jest jego kierunek (współczynnik beta)

• Uzyskujemy informacje o parametrach 

prostej. Dzięki temu możemy zapisać 

zależnośc między zmiennymi w postaci wzoru 

matematycznego i precyzyjnie przewidywać 

wielkość zmiennej przewidywanej znając tylko 

wielkość predyktora. 

background image

Przykład  – Pokaż mi, ile masz 

książek…

• Jak dobra rozmiar ramy 
• Wysokość ramy musi zapewniać 

dostateczny dystans pomiędzy 
górną rurą ramy a kroczem. Ma on 
pozwolić na bezpieczne zeskoczenie 
z pedałów bez przykrych 
konsekwencji. W rowerze górskim 
rowerzysta, kiedy stoi okrakiem nad 
ramą, musi mieć możliwość 
uniesienia przedniego koła co 
najmniej 15 cm nad ziemię. 

background image

Oglądamy wykres

• Wykres wygląda 

mało 
zachęcająco, ale 
nie widać 
żadnych 
dewiantów ani 
zależności 
krzywoliniowej

0

1

2

3

4

5

6

7

L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

0

20

40

60

80

100

W

Y

N

IK

 W

 T

E

S

C

IE

 A

L

F

A

B

E

T

 F

U

N

K

C

/1

99

9/

0-

10

0

background image

Czy model jest dobrze dopasowany?

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a. 

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b. 

Analiza wariancji testująca dopasowanie modelu 
regresji jest istotna F(1, 958)=234,9; p<0,001. 
Oznacza to, że model regresji jest bardziej 
precyzyjny niż opis danych za pomocą średniej 
grupowej

background image

Współczynniki

Standaryzowany współczynnik regresji wynosi beta=0,44  i jest istotnie 

różny od zera (p<0,001), co oznacza, że zależność między 

analizowanymi zmiennymi jest dość silna i dodatnia. Osoba posiadająca 

dużo książek ma wysoki wynik w teście rozumienia tekstu. 

Rozbieżność współczynnika beta jest weryfikowana testem t-Studenta dla 

jednej próby (H0: beta=0). 

Tą samą metodą jest testowana wartość stałej.
 

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Wartość statystyki t

Wartość statystyki t testu sprawdzającego 

rozbieżność parametrów od zera to wartość 

parametru dzielona przez błąd standardowy, a 

zatem:

t=25,851 / 1,591 = 16,247
 

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Statystyka t a statystyka F

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a. 

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b. 

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

F= 
t

2

background image

Współczynniki

Współczynniki niestandaryzowane wynoszą: stała=25,85 i współczynnik 

kierunkowy=7,85. Zapis równania, które posłużyć może do przewidywania wyników 

wyglądać będzie następująco:

Y=7,85*X+25,85
Co to oznacza?
Osoba, która w ogóle nie ma żadnej książki uzyskała…..punktów w teście rozumienia 

tekstu. 

Wraz z zakupem jednej książki wynik w teście rośnie o……… punktów.

 

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Współczynniki

Równanie opisujące zależność między zmiennymi 

Y=7,85*X+25,85

Jeśli Andrzej ma 5 książek to jego wynik w teście będzie 

wynosił 7,85*5+25,85= 65 punktów w teście.

 Jak bardzo się mylimy? Jaki jest błąd naszego 

wnioskowania?

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Błąd wnioskowania

 Jak bardzo się mylimy? Jaki jest błąd naszego 

wnioskowania?

O błędzie wnioskowania można się wypowiadać na 

podstawie błędów standardowych obu parametrów.

Błąd standardowy określa o ile przeciętnie się mylimy w 

szacowaniu obu parametrów równania regresji

Jeśli chodzi o stałą to błąd wynosi 1,59 dla współczynnika 

kierunkowego 0,512. Można zapytać, czy to dużo, czy 

mało? Zależy od wielkości parametru. Można obliczyć 

procentową wartość błędu względem współczynnika: dla 

stałej to 6% dla współczynnika kierunkowego to 6,5%

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Błąd wnioskowania

Niektórzy autorzy zamiast procentowej wartości błędu 

podają proporcję wartość parametru/błąd. Jeśli 

wartość tej proporcji jest bardzo mała to nasze 

oszacowania nie są precyzyjne.

Współczynniki

a

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163  L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

a. 

background image

Precyzja wnioskowania - 

graficznie

• Precyzje 

wnioskowania można 

także przedstawić 

graficznie w postaci 

przedziału ufności 

wokół linii regresji. 

Przedział ufności 

określa gdzie z 95% 

prawdopodobieństwe

m może przechodzić 

linia regresji. 

background image

Precyzja przewidywania - graficznie

• Przewidywanie jest precyzyjne bo przedział 

ufności jest wąski

background image

Procent wyjaśnionej wariancji

• Zmienna liczba książek pozwala wyjaśnić 

prawie 20% (mnożymy R –kwadrat przez 
100%) zmienności zmiennej analfabetyzm 
funkcjonalny

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a. 

background image

Procent wyjaśnionej 

wariancji

• R-kwadrat to wyjaśniona suma kwadratów 

(suma kwadratów dla regresji) dzielona 
przez całkowitą sumę kwadratów (sumę 
kwadratów ogółem).

Model - Podsumowanie

,444

a

,197

,196

28,328

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

a. 

Analiza wariancji

b

188548,096

1 188548,1

234,958

,000

a

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), q163  L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

a. 

Zmienna zależna: alfa  WYNIK W TESCIE ALFABET FUNKC/1999/0-100

b. 

background image

Predykcja zmiennej zależnej w 

oparciu o wiele predyktorów 

(2 i więcej) 

Regresja 

wielokrotna

Multiple 

Regression

background image

Regresja wielokrotna

• Kilka predyktorów ilościowych, jedna zmienna 

przewidywana ilościowa

• Założenia jak w regresji jednozmiennowej

Kolejne kroki analizy regresji wielokrotnej 

(wielozmiennowej) identyczne jak w 

jednozmiennowej:

Testowanie dopasowania modelu
Określenie siły i kierunku zależności między 

predyktorami a zmienną przewidywaną

Określenie łącznej efektywności modelu (R-kwadrat)

background image

Medyczny przykład

• Przewidujemy umieralność na chorobę 

wieńcową (CW) w zależności od ilości 

wypalanych papierosów i poziomu stresu 

pacjenta.

• Rzeczywiste dane
• Przy dwóch predyktorach i jednej zmiennej 

zależnej nie dopasowujemy linii prostej a 

płaszczyznę do punktów umieszczonych w 

przestrzeni trójwymiarowej. Każdy punkt 

(osoba badana) może zostać opisana przez 

trzy właściwości.

background image
background image

Obie zmienne sytuacje stresowe i liczba wypalanych papierosów są istotnie związane 

z umieralnością na CW, ale również predyktory są ze sobą związane

background image
background image

Współczynnik korelacji 

wielokrotnej

• Współczynnik analogiczny do r
• Zawsze oznaczany przez  R
• Zawsze pozytywny

– Korelacja konstruktu stworzonego ze 

wszystkich predyktorów łącznie ze 
zmienna zależną

– Często zamiast R podaje się R 

2

, które 

łatwiej zinterpretować

background image

R

 2

Przy kilku predyktorach odczytujemy 
Skorygowane R-kwadrat, gdyż R-kwadrat jest 
przeszacowane wtedy, gdy więcej niż jeden 
predyktor. Tutaj model regresji wyjaśnia 45% 
zmienności zmiennej zależnej. 

background image

Czy model jest istotny?

background image

Współczynniki regresji

• Stała i współczynniki dla każdego 

predyktora

• Przy szacowaniu współczynnika dla 

danej zmiennej wartości pozostałych 
są utrzymywane na stałym poziomie

• Równanie regresji wielokrotnej jest 

rozszerzeniem równania regresji 
prostej o kolejne predyktory. 

background image

Równanie regresji 

wielokrotnej

• W drugim równaniu nie mamy stałej, (stała = 0)
• Patrzenie na wystandaryzowane współczynniki – 

sprowadzone do jednej skali pozwala na 

porównywanie ich wkładu do modelu

2

2

1

1

0

2

2

1

1

Z

Z

Z

b

X

b

X

b

Y

y

background image

Odczytujemy, która zmienna jest istotnym 
predyktorem umieralności na chorobę 
wieńcową. Patrzymy na istotności 
współczynników beta. Istotny jest tylko 
współczynnik dla dziennej liczby papaierosów. 
Zależność ta jest dodatnia i bardzo silna 
(beta=0,818, p<0,05). Osoby, które duża palą są 
też bardziej narażone na rozwój choroby 
wieńcowej. 

background image

Równanie regresji

• A równaniu regresji uwzględniamy jedynie 

istotne predyktory. A zatem w naszym 
przykłądzie jedynie współczynnik 
niestandaryzowane B dla zmiennej „liczba 
wypalanych papierosów” oraz stałą. Co 
prawda stała nie różni się istotnie od zera 
więc też moglibyśmy pominąć ją w równaniu.

979

,

1

346

,

2

ˆ

0

2

2

1

1

pap

b

X

b

X

b

Y

background image

Przewidywanie 

Załóżmy, że:
•  liczba papierosów = 10
• Liczba sytuacji stresowych = 5, 
• Jakie jest ryzyko choroby wieńcowej

10000

44

,

25

979

,

1

46

,

23

ˆ

na

Y

979

,

1

346

,

2

ˆ

0

2

2

1

1

pap

b

X

b

X

b

Y

background image

Dodatkowe założenie analizy 

wielokrotnej

• Wielokrotna analizy regresji wymaga tego, żeby 

predyktory nie były ze sobą skorelowane a więc 

powinny być niezależne od siebie. Zależy nam 

bowiem na tym, żeby wariancję zmiennej zależnej 

wyjaśniać za pomocą niezależnych źródeł 

predyktorów. Jeśli predyktory są ze sobą skorelowane 

silnie, to znaczy, że de facto mierzą to samo

• Palenie papierosów i poziom stresu w gruncie rzeczy 

mogą mierzyć tę samą tempEramentalną właściwość 

– reaktywność. Jeśli ktoś jest reaktywny to nawet 

słabe bodźce przysporzą mu stresu a jedną z form 

jego rozładowania może być palenie. Więc obie te 

zmienne wydają się mieć to samo źródło w postaci 

innej zmiennej

background image

Problem skorelowanych 

predyktorów

• Korelacja cząstkowa – 

– korelacja między  dwiema zmiennymi Y i 

X1, po odrzuceniu z obu zmiennych, 

jakiejkolwiek wariancji, którą można 

przypisać trzeciej zmiennej (X2).

– Patrzymy na związek dwóch zmiennych, 

przy kontroli trzeciej 

– Korelacja semicząstkowa – to co wyjaśnia 

dany predyktor ze zmiennej wyjaśnianej

background image

Silniejszy wygrywa?

R

2

=30,

8

R

2

=50,

8

R

2

=70

%

background image

Idea korelacji cząstkowej

p

a

p

ie

ro

s

y

50,8%

Umieralność na CW

Syt. stresowe

30,8%

Unikalna 
wariancja 
w zmiennej 
zależnej 
wyjaśniona przez 
papierosy

Unikalna 
wariancja 
w zmiennej 
zależnej 
wyjaśniona przez 
syt. stresowe

Wariancja 
w zmiennej 
zależnej 
wyjaśniona przez 
oba predyktory

Przy korelacji 
cząstkowej
kontrolujemy 
efekt trzeciej 
zmiennej na obie 
pozostałe

Umieralność na CW

Umieralność na CW

1

2

3

background image

Idea korelacji cząstkoweji 

semicząstkowej

Korelacja semicząstkowa 
predyktora 1 to część 
unikalna wyjaśniana 
tylko przez ten predyktor 
na tle tego co jest do 
wyjaśnienia, czyli część 
oznaczona numerem 1 
do całego żółtego 
kwadracika)
Korelacja cząstkowa 
predyktora 1 to unikalna 
cześć wyjaśniana przez 
ten predyktor na tle 
tego, czego ten drugi nie 
wyjaśnia (część 1 na tle 
1 i 4)

Umieralność na CW

1

2

3

Predykto

r2

Predykto

r1

4

background image

Korelacje 
cząstkowe

background image

Nasi sąsiedzi

• Jak widać, to, czy dana zmienna będzie dobrym 

predyktorem zależy od sąsiedztwa z innymi 

zmiennymi w modelu i tego, czy są one ze sobą 

skorelowane

–  (gdyby nie były, wtedy nie zmieniałyby się współczynniki 

regresji w zależności od tego, która zmienna jest w 

modelu. (ta informacja jest ważna przy stosowaniu różnych 

metod wprowadzania danych). 

• Patrząc na cząstkowe korelacje dostajemy czysty 

obraz związku, przy kontroli innych zmiennych i 

widać, które zmienne są lepszymi, a które gorszymi 

predyktorami.

– Sugerowane jest zrobienie regresji jeszcze raz, tym razem 

z uwzględnieniem w równaniu tylko istotnych predyktorów


Document Outline