Analiza regresji

Regresja jednozmiennowa

• Jeden predyktor, jedna zmienna zależna

(obie zmienne ilościowe)

• Założenia:

– odpowiednia liczba osób badanych (formuła 50

+ 8),

– prostoliniowa zależność (oceniana na oko),
– normalność rozkładu zmiennych (przy małych

liczebnościach test Shapiro-Wilka, przy małych
K-S),

– usunięte przypadki odstające i skrajne

Podsumowanie

• Za pomocą metody najmniejszych kwadratów

dopasowywana jest linia prosta spełniająca

taki warunek, że suma odległości wyników od

linii jest minimalna (wyniki badanych leżą jak

najbliżej tej linii analiza wariancji)

• Dowiadujemy się jak silny jest związek i jaki

jest jego kierunek (współczynnik beta)

• Uzyskujemy informacje o parametrach

prostej. Dzięki temu możemy zapisać

zależnośc między zmiennymi w postaci wzoru

matematycznego i precyzyjnie przewidywać

wielkość zmiennej przewidywanej znając tylko

wielkość predyktora.

Oglądamy wykres

• Wykres wygląda

mało
zachęcająco, ale
nie widać
żadnych
dewiantów ani
zależności
krzywoliniowej

L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

100

Czy model jest dobrze dopasowany?

Analiza wariancji

188548,096

1 188548,1

234,958

,000

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Analiza wariancji testująca dopasowanie modelu
regresji jest istotna F(1, 958)=234,9; p<0,001.
Oznacza to, że model regresji jest bardziej
precyzyjny niż opis danych za pomocą średniej
grupowej

Współczynniki

Standaryzowany współczynnik regresji wynosi beta=0,44 i jest istotnie

różny od zera (p<0,001), co oznacza, że zależność między

analizowanymi zmiennymi jest dość silna i dodatnia. Osoba posiadająca

dużo książek ma wysoki wynik w teście rozumienia tekstu.

Rozbieżność współczynnika beta jest weryfikowana testem t-Studenta dla

jednej próby (H0: beta=0).

Tą samą metodą jest testowana wartość stałej.

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Wartość statystyki t

Wartość statystyki t testu sprawdzającego

rozbieżność parametrów od zera to wartość

parametru dzielona przez błąd standardowy, a

zatem:

t=25,851 / 1,591 = 16,247

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Statystyka t a statystyka F

Analiza wariancji

188548,096

1 188548,1

234,958

,000

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

F=
t

Współczynniki

Współczynniki niestandaryzowane wynoszą: stała=25,85 i współczynnik

kierunkowy=7,85. Zapis równania, które posłużyć może do przewidywania wyników

wyglądać będzie następująco:

Y=7,85*X+25,85
Co to oznacza?
Osoba, która w ogóle nie ma żadnej książki uzyskała…..punktów w teście rozumienia

tekstu.

Wraz z zakupem jednej książki wynik w teście rośnie o……… punktów.

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Współczynniki

Równanie opisujące zależność między zmiennymi

Y=7,85*X+25,85

Jeśli Andrzej ma 5 książek to jego wynik w teście będzie

wynosił 7,85*5+25,85= 65 punktów w teście.

Jak bardzo się mylimy? Jaki jest błąd naszego

wnioskowania?

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Błąd wnioskowania

Jak bardzo się mylimy? Jaki jest błąd naszego

wnioskowania?

O błędzie wnioskowania można się wypowiadać na

podstawie błędów standardowych obu parametrów.

Błąd standardowy określa o ile przeciętnie się mylimy w

szacowaniu obu parametrów równania regresji

Jeśli chodzi o stałą to błąd wynosi 1,59 dla współczynnika

kierunkowego 0,512. Można zapytać, czy to dużo, czy

mało? Zależy od wielkości parametru. Można obliczyć

procentową wartość błędu względem współczynnika: dla

stałej to 6% dla współczynnika kierunkowego to 6,5%

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Błąd wnioskowania

Niektórzy autorzy zamiast procentowej wartości błędu

podają proporcję wartość parametru/błąd. Jeśli

wartość tej proporcji jest bardzo mała to nasze

oszacowania nie są precyzyjne.

Współczynniki

25,851

1,591

16,247

,000

7,847

,512

,444

15,328

,000

(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Precyzja wnioskowania -

graficznie

• Precyzje

wnioskowania można

także przedstawić

graficznie w postaci

przedziału ufności

wokół linii regresji.

Przedział ufności

określa gdzie z 95%

prawdopodobieństwe

m może przechodzić

linia regresji.

Procent wyjaśnionej wariancji

• Zmienna liczba książek pozwala wyjaśnić

prawie 20% (mnożymy R –kwadrat przez
100%) zmienności zmiennej analfabetyzm
funkcjonalny

Model - Podsumowanie

,444

,197

,196

28,328

Model
1

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

Procent wyjaśnionej

wariancji

• R-kwadrat to wyjaśniona suma kwadratów

(suma kwadratów dla regresji) dzielona
przez całkowitą sumę kwadratów (sumę
kwadratów ogółem).

Model - Podsumowanie

,444

,197

,196

28,328

Model
1

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)

Analiza wariancji

188548,096

1 188548,1

234,958

,000

768772,778

958

802,477

957320,874

959

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)

Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100

Regresja wielokrotna

• Kilka predyktorów ilościowych, jedna zmienna

przewidywana ilościowa

• Założenia jak w regresji jednozmiennowej

Kolejne kroki analizy regresji wielokrotnej

(wielozmiennowej) identyczne jak w

jednozmiennowej:

Testowanie dopasowania modelu
Określenie siły i kierunku zależności między

predyktorami a zmienną przewidywaną

Określenie łącznej efektywności modelu (R-kwadrat)

Medyczny przykład

• Przewidujemy umieralność na chorobę

wieńcową (CW) w zależności od ilości

wypalanych papierosów i poziomu stresu

pacjenta.

• Rzeczywiste dane
• Przy dwóch predyktorach i jednej zmiennej

zależnej nie dopasowujemy linii prostej a

płaszczyznę do punktów umieszczonych w

przestrzeni trójwymiarowej. Każdy punkt

(osoba badana) może zostać opisana przez

trzy właściwości.

Współczynnik korelacji

wielokrotnej

• Współczynnik analogiczny do r
• Zawsze oznaczany przez R
• Zawsze pozytywny

– Korelacja konstruktu stworzonego ze

wszystkich predyktorów łącznie ze
zmienna zależną

– Często zamiast R podaje się R

, które

łatwiej zinterpretować

Równanie regresji

wielokrotnej

• W drugim równaniu nie mamy stałej, (stała = 0)
• Patrzenie na wystandaryzowane współczynniki –

sprowadzone do jednej skali pozwala na

porównywanie ich wkładu do modelu













Równanie regresji

• A równaniu regresji uwzględniamy jedynie

istotne predyktory. A zatem w naszym
przykłądzie jedynie współczynnik
niestandaryzowane B dla zmiennej „liczba
wypalanych papierosów” oraz stałą. Co
prawda stała nie różni się istotnie od zera
więc też moglibyśmy pominąć ją w równaniu.

979

346









pap

Przewidywanie

Załóżmy, że:
• liczba papierosów = 10
• Liczba sytuacji stresowych = 5,
• Jakie jest ryzyko choroby wieńcowej

10000

979







979

346









pap

Dodatkowe założenie analizy

wielokrotnej

• Wielokrotna analizy regresji wymaga tego, żeby

predyktory nie były ze sobą skorelowane a więc

powinny być niezależne od siebie. Zależy nam

bowiem na tym, żeby wariancję zmiennej zależnej

wyjaśniać za pomocą niezależnych źródeł

predyktorów. Jeśli predyktory są ze sobą skorelowane

silnie, to znaczy, że de facto mierzą to samo

• Palenie papierosów i poziom stresu w gruncie rzeczy

mogą mierzyć tę samą tempEramentalną właściwość

– reaktywność. Jeśli ktoś jest reaktywny to nawet

słabe bodźce przysporzą mu stresu a jedną z form

jego rozładowania może być palenie. Więc obie te

zmienne wydają się mieć to samo źródło w postaci

innej zmiennej

Problem skorelowanych

predyktorów

• Korelacja cząstkowa –

– korelacja między dwiema zmiennymi Y i

X1, po odrzuceniu z obu zmiennych,

jakiejkolwiek wariancji, którą można

przypisać trzeciej zmiennej (X2).

– Patrzymy na związek dwóch zmiennych,

przy kontroli trzeciej

– Korelacja semicząstkowa – to co wyjaśnia

dany predyktor ze zmiennej wyjaśnianej

Silniejszy wygrywa?

=30,

=50,

=70

Idea korelacji cząstkowej

50,8%

Umieralność na CW

Syt. stresowe

30,8%

Unikalna
wariancja
w zmiennej
zależnej
wyjaśniona przez
papierosy

Unikalna
wariancja
w zmiennej
zależnej
wyjaśniona przez
syt. stresowe

Wariancja
w zmiennej
zależnej
wyjaśniona przez
oba predyktory

Przy korelacji
cząstkowej
kontrolujemy
efekt trzeciej
zmiennej na obie
pozostałe

Umieralność na CW

Idea korelacji cząstkoweji

semicząstkowej

Korelacja semicząstkowa
predyktora 1 to część
unikalna wyjaśniana
tylko przez ten predyktor
na tle tego co jest do
wyjaśnienia, czyli część
oznaczona numerem 1
do całego żółtego
kwadracika)
Korelacja cząstkowa
predyktora 1 to unikalna
cześć wyjaśniana przez
ten predyktor na tle
tego, czego ten drugi nie
wyjaśnia (część 1 na tle
1 i 4)

Umieralność na CW

Predykto

Nasi sąsiedzi

• Jak widać, to, czy dana zmienna będzie dobrym

predyktorem zależy od sąsiedztwa z innymi

zmiennymi w modelu i tego, czy są one ze sobą

skorelowane

– (gdyby nie były, wtedy nie zmieniałyby się współczynniki

regresji w zależności od tego, która zmienna jest w

modelu. (ta informacja jest ważna przy stosowaniu różnych

metod wprowadzania danych).

• Patrząc na cząstkowe korelacje dostajemy czysty

obraz związku, przy kontroli innych zmiennych i

widać, które zmienne są lepszymi, a które gorszymi

predyktorami.

– Sugerowane jest zrobienie regresji jeszcze raz, tym razem

z uwzględnieniem w równaniu tylko istotnych predyktorów

Document Outline