background image

Czyli jak 
‘przewidzieć’ 
wynik?

Analiza regresji prostej

05.05.2010

background image

Troche teorii

Regresja to 

w statystyce metoda, 

pozwalająca  na  zbadanie  związku 
pomiędzy 

różnymi 

wielkościami 

występującymi 

danych 

wykorzystanie 

tej 

wiedzy 

do 

przewidywania  nieznanych  wartości 
jednych  wielkości  na  podstawie 
znanych wartości innych.

regresja prosta

2

background image

analiza regresji

Jednozmiennowa

Wielozmiennowa

prosta

wieloraka

regresja prosta

3

Rodzaje analizy regresji

background image

Logika analizy regresji

Dokonujac analizy regresji budujemy 
model zaleznosci liniowej pomiedzy 
zmienna niezalezna a zmienna 
zalezna. 

W modelu wartosci jakie przyjmuje 
zmienna zalezna, zaleza glownie od 
wartosci zmiennej niezaleznej 
(predyktora).  

regresja prosta

4

background image

Dokładniej 
o predyktorze

Zarówno analiza regresji, 
jak i korelacji nie pokazują zależności 

przyczynowo – skutkowej wśród zmiennych. 

Dlatego określenia: zmienna zależna i 

niezależna nie mają tu uzasadnienia.

W związku z tym do analizy regresji 

wprowadzono określenia:
dla zmiennej niezależnej: 

PREDYKTOR

natomiast zmienna zależna to ta, której 

wartość przewidujemy na podstawie 

predyktora.  

5

regresja prosta

background image

Dlaczego model liniowy?

Czy apetyt rosnie
w miare jedzenia?

6

regresja prosta

JEDZENIE

zm. wyjasniajaca

PREDYKTOR

X

X

Y

Y

APETYT

zm. wyjasniana

ZM. ZALEZNA

background image

Czy apetyt rosnie w miare jedzenia?

7

regresja prosta

JEDZENIE

zm. wyjasniajaca

PREDYKTOR

X

X

Y

Y

APETYT

zm. wyjasniana

ZM. ZALEZNA

background image

Jak znalezc linie? 

Pierwszym krokiem analizy regresji jest 
najdokladniejsze dopasowanie linii do 
danych. 

Linia musi byc najblizej wszystkich 
punktow jednoczesnie. 

Umozliwia to metoda najmniejszych 
kwadratow.

regresja prosta

8

background image

Metoda najmniejszych kwadratow

Pozwala na wykreslenie linii regresji 
(dopasowania), poprzez odnalezienie 
takich wspolczynnikow regresji, aby 
suma podniesionych do kwadratu 
odleglosci punktow od prostej byla jak 
najmniejsza. 

regresja prosta

9

background image

Metoda najmniejszych kwadratow

10

regresja prosta

JEDZENIE

X

X

Y

Y

APETYT

background image

Linia dopasowania 
moze sie wznosic lub opadac

regresja prosta

11

Im wieksza wartosc 

predyktora (X), tym 

wieksza wartosc 

zmiennej Y

ZWIAZEK DODATNI, 

ZWIAZEK DODATNI, 

POZYTYWNY

POZYTYWNY

Im wieksza wartosc 

predyktora (X), tym 

mniejsza wartosc 

zmiennej Y

ZWIAZEK UJEMNY, 

ZWIAZEK UJEMNY, 

NEGATYWNY

NEGATYWNY

+

-

background image

Cechy modelu

Cechy liniii regresji 
okreslane sa przez 
dwie charakterystyki: 

Punkt przeciecia 
z osia Y.

Nachylenie 
wzgledem osi X. 

 

12

regresja prosta

X

X

Y

Y

background image

Bardziej formalnie

Model to rownanie opisujace 
linie prosta zawierajace dwa 
wspolczynniki: stala okreslajaca 
punkt przeciecia (b) i wspolczynnik 
kierunkowy, opisujacy nachylenie linii 
(a). 
Oraz przewidywana wartosc 
zmiennej zaleznej (y) i wartosc 
predyktora (x).

y = ax + b

y = ax + b

regresja prosta

13

background image

y = ax + b

y = ax + b

regresja prosta

14

Y – przewidywane wartosci zm. zaleznej

X – wartosci predyktora
a – nachylenie linii 
      (o ile zmieni sie y, gdy x zmieni sie o jednostke).
b – stala (wyraz wolny, punkt przecieca linii regresji),
      ile wynosi y, gdy x = 0. 

background image

Współczynnik korelacji r Pearsona

Opierają się na nim metody:
analiza regresji, analiza czynnikowa, analiza rzetelności,

Przybiera wartości od <-1;1>

Wartosci ujemne informuja o spadku (Y maleje ze 
wzrostem X).

Wartosci dodatnie informuja o wzroscie (Y rosnie ze 
wzrostem X). 

Jesli r = 0, to znaczy, ze dane na wykresie nie tworza 
zaleznosci liniowej.

Jesli r = 1, lub r = -1, to znaczy, ze dane ukladaja sie w 
idealna zaleznosc.

 Ocena jakościowa: umowna

regresja prosta

15

background image

Współczynnik determinacji

Pokazuje w jakim stopniu model regresji 
odzwierciedla relacje miedzy danymi. 

Miara sily zwiazku jest R² (wspolczynnik 
determinacji). 

Wynik R² mozna rozumiec jako proporcje 
zmiennosci ZZ wyjasnianej przez rownanie 
regresji w stosunku do calej zmiennosci ZZ. 
Gdy  = 0.53, mozna stwierdzic, ze apetyt da 
sie w 53% przewidziec na podstawie ilosci 
spozytego jedzenia.  

regresja prosta

16

background image

R²

Wielkosc tego wspolczynnika jest 
zawsze dodatnia i przyjmuje wartosci 
od 0 do 1. 

Po wyciagnieciu pierwiastka 
otrzymujemy informacje na temat 
kierunku, wzrostu i spadku jednej 
zmiennej w stosunku do drugiej.  

regresja prosta

17

background image

Zalozenia analizy regresji

(jako testu parametrycznego)

Zm. zalezna i predyktory 

    pochodza z populacji o rozkladzie normalnym (Test 

Kolmogorowa-Smirnowa).

Obie zmienne mierzone na skali ilosciowej 
(ewentualnie nominalnej, ale tylko 
dwukategorialnej)!

Liczba przypadków równa 10 x liczba zmiennych: 
dwie zmienne to konieczność przebadania min. 20 
osób.

W regresji wielozmiennowej, predyktory nie powinny 
ze soba korelowac, a wiec musza byc niezalezne. 

regresja prosta

18

background image

Zadanie 1

Badacze  chcieli  sprawdzic,  czy  zdolnosci 
matematyczne 

wsrod 

studentow 

maja 

zwiazek  z  wynikami  osiaganymi  na  zajeciach 
ze  statystyki.  Sprawdzali  czy  na  podstawie 
testu  umiejetnosci  matematycznych  mozna 
przewidziec wyniki ze statystyki?
Przeanalizowano wyniki 30 studentow.

osiagniecia.sav

regresja prosta

19

background image

regresja prosta

20

LICZBA PUNKTOW 

ZDOBYTYCH W TESCIE 

MATEMATYCZNYM I 

LICZBA

PUNKTOW 

UZYSKANYCH NA 

STATYSTYCE

DANE DLA 30 

STUDENTOW

PREDYKTOR

PREDYKTOR (matematyka)

ZM. WYJASNIANA 

ZM. WYJASNIANA 
(staystyka)

background image

Na poczatek wykres rozrzutu

regresja prosta

21

Os X: 
PREDYKTOR

Os Y: 
ZM. WYJASNIANA, 
WYNIKOWA

background image

Dane ukladaja sie w zw. linowy dodatni

regresja prosta

22

background image

A teraz analiza...

regresja prosta

23

background image

regresja prosta

24

background image

Opcje:

regresja prosta

25

background image

Wyniki:

regresja prosta

26

r (30) = .89
SILNA 
DODATNIA 
KORELACJA
p < . 001

background image

Wyniki cd.

regresja prosta

27

F (1, 28) = 104.72, p < .001 

Istotnosc testu informuje nas o tym, 

czy model jest dobrze dopasowany. 

Jesli jest istotny, to znaczy, ze tak.

background image

Wyniki cd. 

Przewidywanie wartosci zmiennej wyjasnianej

regresja prosta

28

βo  = 4.845 oznacza, że gdy w tescie matematycznym student 
otrzyma 0 pkt., to ze statystyki otrzyma 0 pkt! Ten efekt jest 
nieistotny
!

β1  = .965 oznacza wielkość zmiany zmiennej Y, gdy zmienna X 
wzrośnie o jedną jednostkę (1 pkt.)

Wzrost wyniku w tescie matematycznym o 1 pkt., powoduje wzrost 
liczby punktow na statystyce o .97 pkt. 

background image

O czym informuje test t?

regresja prosta

29

 

Istotność testu t wskazuje tu, czy wartość różni się istotnie od zera.
Jeśli test t nie jest istotny, oznacza, że Beta nie różni się istotnie od 
zera – zmiana wartości predyktora nie powoduje zmiany zmiennej Y. 

background image

Efektywnosc modelu:

regresja prosta

30

r = .89 korelacja pomiędzy liczba punktow uzyskanych w tescie 
matematycznym a wynikiem ze statystyki.

R

2

 = .79 Wynik w tescie matematycznym wyjasnia 78,9% wariancji 

wyniku ze statystyki (mnożymy tę wartość x 100).

BŁĄD STANDARDOWY OSZACOWANIA - mówi nam jakim błędem 
obarczone jest nasze przewidywanie wynikow ze statystyki – o 10.22 
pkt. w górę i w dół.

background image

interpretacja

regresja prosta

31

Badano  możliwość  przewidywania  wynikow  z  kursu  ze 
statystyki  na  podstawie  liczby  punktow  z  testu 
matematycznego.  Model  regresji  okazał  się  być  dobrze 
dopasowany:  F  (1,  28)  =  104.72,  p  <  .001.  Zmienna 
wynik  testu  matematycznego  wyjaśnia  79%  wariancji 
wynikow ze statystyki. Zależność między predyktorem a 
zmienną wyjaśnianą była silna i dodatnia (Beta=.89). Im 
więcej  punktow  z  matematyki,  tym  wieksze  osiagniecia 
na  statystyce.  Wartość  współczynnika  kierunkowego 
wyniosła  .97,  t  (28)  =  10.23,  p  <  .001,  a  wartość  stałej 
wyniosła  0,  t  (28)  =  .78,  p  =  .432.  Oznacza  to,  że  z 
każdym  kolejnym  punktem  w  tescie  matematycznym, 
liczba punktow ze statystyki ma szanse wzrosnac o .97.

background image

Zadanie 2 

Badacze chcieli sprawdzic czy na podstawie 
czasu spedzanego na korzystaniu z mediów 
(TV, internet) da sie przewidziec wyniki w 
tescie tworczosci. 
W tym celu przeanalizowali deklaracje 60 
osob na temat dziennego czasu jaki spedzaja 
z mediami (w godzinach), oraz wynikow jakie 
osiagneli na skali tworczosci. 

tworczosc.sav

regresja prosta

32

background image

ANALIZA KROK PO KROKU 

regresja prosta

33

background image

0. przedbiegi

regresja prosta

34

Zapoznanie sie ze zmiennymi.

background image

1. wykres

regresja prosta

35

background image

Jak widac zaleznosc miedzy zmiennymi 
jest odwrotnie proporcjonalna

regresja prosta

36

background image

2. analiza

regresja prosta

37

background image

3. korelacje

Istnieje silna negatywna zaleznosc pomiedzy dzienna liczba 
godzin korzystania z mediow a wynikiem na skali tworczosci.

(60) = -.89, p < .001

regresja prosta

38

background image

4. Analiza wariancji

Czyli czy model jest dopasowany?

regresja prosta

39

F

F

 (1, 58) = 231.38,

 (1, 58) = 231.38,

 p 

 p 

< .001

< .001

background image

5. Predykcja

Przewidywanie wartosci zmiennej wyjasnianej.

βo  = 39.47 oznacza, że gdy osoba badana w ogole nie 
korzysta z mediow (X = 0), to na skali tworczosci otrzyma 
39.47 pkt.

β1  = -4.12 oznacza, ze wzrost czasu poswieconego na 
korzystnie z mediow o 1h, powoduje spadek liczby punktow na 
skali tworczosci o 4.12. 

Czy zmiana wartosci predyktora powoduje zmiane zm. Y?

regresja prosta

40

background image

6. Efektywnosc modelu

r = -.89 (zaleznosc miedzy zmiennymi)

R

2

 = .80 Liczba h spedzonych z mediami wyjasnia 80% 

wariancji wyniku na skali tworczosci.

BŁĄD STANDARDOWY OSZACOWANIA – przewidywania 
wynikow na skali tworczosci obarczone sa błędem 3.46 pkt. w 
górę i w dół.

regresja prosta

41

background image

7

. Interpretacja 

regresja prosta

42

Badano  możliwość  przewidywania  wynikow  w  tescie 
tworczosci  na  podstawie  ilosci  godzin  dziennie 
spedzanych  na  korzystaniu  z  mediow.  Model  regresji 
okazał się być dobrze dopasowany: F(1, 58) = 231.38, p 
< .001. Zmienna liczba godzin z mediami  wyjaśnia  80% 
wariancji wynikow na skali tworczosci. Zależność między 
predyktorem  a  zmienną  wyjaśnianą  była  silna  i  ujemna 
(Beta=.89).  Im  więcej  godzin  dziennie  z  mediami,  tym 
mniejsze  osiagniecia  w  tescie  tworczosci.  Wartość 
współczynnika  kierunkowego  wyniosła  4.12,  t(58)  = 
15.21, < .001, a wartość stałej 38.47, t(58) = 45.05, 
<  
.001.  Oznacza  to,  że  z  każda  kolejna  godzina 
dziennego korzystania z mediow, liczba punktow na skali 
tworczosci moze zmalec o 4.12.

background image

Zadanie 3

regresja prosta

43

Badacze chcieli sprawdzic czy reaktywnosc 
emocjonalna (RE) osoby badanej ma zwiazek i 
wyjasnia syndrom wypalenia zawodowego. 
Przebadanych zostalo 50 pracownikow duzej 
korporacji. Na podstawie kwestionariusza 
temperamentu FCZ_KT otrzymano wskaznik 
RE, a na podstawie Kwestionariusza 
wypalenia zawodowego ogolny wskaznik 
wypalenia.

wypalenie.sav

background image

1. wykres

regresja prosta

44

background image

2. korelacje

regresja prosta

45

background image

3. Analiza wariancji

regresja prosta

46

background image

3. Predykcja

βo  = .33 Gdy RE wynosi 0, to wynik na skali 
wypalenia wynosi 0.

β1  = 1.84 Jesli predyktor (RE) wzrosnie o 1, to 
poziom wypalenia zawodowego zwiekszy sie o 1.84. 

regresja prosta

47

background image

4. Efektywnosc modelu

regresja prosta

48

background image

Zadanie 4

Studenci 

zastanawiali 

sie 

czy 

na 

podstawie wynikow Memory Brain Test da 
sie  przewidziec  ilosc  zapamietanych  liczb 
podawanych w 20 elementowym ciagu. W 
tym  celu  zbadano  30  osob  stosujac  Brain 
Test  i  pozniej  sprawdzajac  pojemnosc  ich 
pamieci roboczej. 

pamiec.sav 

regresja prosta

49

background image

1. Wykres

regresja prosta

50

background image

2. korelacje

regresja prosta

51

background image

3. Analiza wariancji

regresja prosta

52

background image

Zadanie 5

Komisja  antykorupcyjna  chciala  sprawdzic 
czy  w  pewnym  szpitalu  lapowki  zaleza  od 
poziomu placy lekarza. Sprawdzali czy ilosc 
kopert  przyjmowanych  przez  lekarzy  moze 
byc  przewidywana  na  podstawie  wysokosci 
ich  wynagrodzenia  (w  tys.).  Analizowano 
przypadki 20 lekarzy. 

korupcja.sav

regresja prosta

53

background image

1. Wykres

regresja prosta

54

background image

2. korelacje

regresja prosta

55

background image

3. Analiza wariancji

regresja prosta

56

background image

4. Predykcja

regresja prosta

57

background image

5. Efektywnosc modelu 

regresja prosta

58

background image

regresja prosta

59

Podsumowanie tego, co najwazniejsze.

background image

Analiza regresji  

Służy 

do 

opisania 

relacji 

między 

zmiennymi,  a  także  do  przewidywania 
wartości  kryterium  (zmiennej  zależnej)  na 
podstawie  wartości  predyktora  (zmienna 
niezależna).

Przeprowadzając  tę  analizę,  posługujemy 
się  szeregiem  statystyk  (współczynników) 
w  celu  określenia  siły  korelacji  i  kształtu 
związku między badanymi zmiennymi.

regresja prosta

60

background image

Wspolczynniki raz jeszcze

R: 

współczynnik 

korelacji 

Pearsona 

(

regresyjne);  służy  do  oszacowania  korelacji 
między  zmiennymi,  wartości  R  interpretujemy 
tak  samo,  jak  r  Pearsona  (korelacja  mała, 
średnia i duża).

R2:  służy  do  określenia  w  jakim  stopniu 
zmienna  niezależna  pozwala  na  przewidzenie 
zmienności  kryterium,  czyli  jak  dobrym 
predyktorem jest dana zmienna niezależna; im 
bliżej  R2  do  1  (100%),  tym  lepszym 
predyktorem jest dana zmienna.

regresja prosta

61

background image

Wspolczynniki raz jeszcze

F  i  wartość  p:  określają,  czy  R  jest  istotne 
czy  nie,  
wartości  te  interpretujemy  w 
klasyczny  sposób  (jeśli  p  <  .05,  to  R  jest 
istotne)

Beta:  służy  do  oszacowania  wpływu 
predyktora  na  kształt  linii  regresji,  czyli 
stopnia  wpływu  zmiennej  niezależnej  na 
zależną 

(przydatny 

szczególnie 

analizie regresji wielokrotnej)

 :określa, czy wsp. Beta jest istotny.

regresja prosta

62


Document Outline