background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Zależność statystyczna

dwóch zmiennych

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Związek przyczynowo-skutkowy:

barwa upierzenia kaczki krzyżówki zależy 

od płci (zwróćmy uwagę na to, co jest 

przyczyną, a co skutkiem)

Potoczne rozumienie 

zależności

Każdy samiec jest upierzony ja na górnym 

zdjęciu, a każda samica – jak na dolnym

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Związek statystyczny:

Kobiety zarabiają mniej niż

mężczyźni 

Potoczne rozumienie 

zależności

http://www.strefabiznesu.echodnia.eu/

Niektóre kobiety zarabiają mniej niż

niektórzy mężczyźni.

Ale częściej zdarzają się kobiety, które 

zarabiają mniej niż mężczyźni niż

mężczyźni zarabiający mniej od kobiet.

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Związek statystyczny:

Widząc rezultat wiemy, że MOGŁO wystąpić zdarzenie, z którym ten rezultat 

jest związany

Czym różnią się te sytuacje?

Związek przyczynowo-skutkowy:

Widząc skutek wiemy na pewno, że zaszła przyczyna

W obu przypadkach mamy do czynienia z zależnością

zmiennych w sensie statystycznym

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Rozważmy niewielką zbiorowość, składającą się z ośmiorga 

dzieci. W tej zbiorowości zmierzyliśmy wzrost każdego dziecka, 

znamy też płeć dzieci. 
Dane z badania przedstawia poniższa macierz:

Przykład liczbowy

2

170

8

2

160

7

2

150

6

1

160

5

1

140

4

1

140

3

1

160

2

1

150

1

Y

X

Lp.

– wzrost dziecka (w cm.)
– płeć dziecka (1 – dziewczynka, 2 – chłopiec)

Jak pamiętamy, badanie statystyczne ma na celu 

syntetyczne (zwięzłe) opisanie zbiorowości

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Jakiego wzrostu są zbadane przez nas dzieci?

Pierwsza odpowiedź, która pewnie przyjdzie nam do głowy, to: 

„153,75 (średnio)”

Przykład liczbowy

W ten sposób utworzyliśmy model wzrostu w badanej zbiorowości

Czy możemy stworzyć jeszcze inny model?

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Jak wybrać najlepszy model?

153,75

153,75

153,75

153,75

153,75

153,75

153,75

153,75

E(X)

2

2

2

1

1

1

1

1

Y

160

160

160

150

150

150

150

150

E(X|Y)

170

8

160

7

150

6

160

5

140

4

140

3

160

2

150

1

X

Lp.

Należy zatem:

1) Wyznaczyć kryterium, według 

którego będziemy oceniać jakość

modelu;

2) Wybrać taki model, który jest 

najlepszy z punktu widzenia tego 

kryterium

Najlepszy jest model, który najlepiej odzwierciedla rzeczywistość. To stwierdzenie 

jest tyleż banalne, co niekonkretne. 

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Podstawowe pojęcia

związane z oceną jakości dopasowania modelu do danych

Błąd opisu wartości zmiennej za pomocą modelu:

X

X

e

X

ˆ

=

Wartość rzeczywista
zmiennej X

Wartość zmiennej X
przewidywana za pomocą
modelu

Funkcja błędu opisu wartości zmiennej za pomocą modelu:

Funkcje mogą być bardzo różne. My skoncentrujemy się na kwadratowej funkcji błędu.

2

)

ˆ

(

)

(

X

X

e

l

X

=

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Przy kwadratowej funkcji błędu

Najlepszym modelem jest średnia

Funkcja błędu opisu wartości zmiennej za pomocą modelu:

Błąd opisu wartości zmiennej za pomocą modelu wynosi wtedy

)

X

E

X

e

X

=

2

)]

(

[

)

(

X

E

X

e

l

X

=

Średnia wartość funkcji błędu opisu ma postać wariancji:

)

(

)]

(

[

)]

(

[

2

2

X

D

X

E

X

E

e

l

E

X

=

=

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Wprowadzenie drugiej zmiennej do modelu

8

3

5

razem

1

1

0

170

3

1

2

160

2

1

1

150

2

0

2

140

razem

2

1

X \ Y

Obliczmy średni wzrost w grupie 

dziewczynek i w grupie chłopców:

E(X|Y=1)=150
E(X|Y=2)=160

Średni wzrost w grupach wyróżnionych ze względu na płeć przyjmuje dwie 

wartości:  150 cm i 160 cm.
Zmienna E(X|Y) jest jednocześnie funkcją zmiennej Y

=

=

=

=

=

=

=

2

160

)

2

|

(

1

150

)

1

|

(

ˆ

Y

gdy

Y

X

E

Y

gdy

Y

X

E

X

Y

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Regresja

Regresja to funkcja zmiennej Y, która jest 

NAJLEPSZYM modelem służącym do przewidywania 

(opisu) wartości zmiennej X. 

=

=

=

2

160

1

150

ˆ

Y

gdy

Y

gdy

X

Y

Postać regresja jest uzależniona od funkcji błędu oraz od 

tego, czy jest to regresja pierwszego, czy drugiego 

rodzaju

REGRESJA ŚREDNICH

background image

JOANNA KONIECZNA-SAŁAMATIN

Statystyka dla socjologów

Collegium Civitas

Przykład

20

10

20

razem

0

10

0

3

5

0

5

2

10

0

10

1

5

0

5

0

3

2

1

X \ Y

1. Wyznaczyć regresję średnich X od Y

oraz Y od X;

2. Zaznaczyć obie regresje na jednym

wykresie