Opis statystyczny zmiennych przy pomocy programu SPSS.

Do podstawowego opisu statystycznego zmiennych stosujemy:

• Miary tendencji centralnej

• Miary rozproszenia (dyspersji)

Opis uzupełniamy adekwatną ilustracją (właściwym wykresem), a w

przypadku danych ilościowych również informacją o skośności i kurtozie.

Poniższa tabela zawiera schemat doboru właściwych narzędzi w zależności

od rodzaju skali pomiarowej:

zmienne

Miara tendencji

Miara

Inne

Grafika

centralnej

rozproszenia

NOMINALNE

Dominanta

Liczba kategorii

Wykres kołowy

PORZĄDKOWE Mediana

Kwartyle

Wykres

Dominanta

Odchylenie

słupkowy

ćwiartkowe

ILOŚCIOWE

Średnia

Odchylenie

Kurtoza

Histogram

(interwałowe i

Mediana

standardowe

Skośność

ilorazowe)

Dominanta

Kwartyle

Odchylenie

ćwiartkowe

Należy pamiętać, iż opis statystyczny, nie polega na przepisaniu właściwych

wartości z raportów SPSS, ale przede wszystkim na właściwej ich

interpretacji. Poniżej zamieszczono kilka przykładów opisu wykonanego

przy pomocy programu SPSS.

Uruchom program SPSS i wczytaj plik GSS93 pozdzbiór.sav (w niektórych wersjach GSS93subse.,sav)

W pierwszym kroku opiszemy zmienną Stan cywilny ( marital). Zmienna ta zaprezentowana jest na skali nominalnej. Wybieramy opcje : Analiza – Opis statystyczny – Częstości. Z lewego okna, w którym widnieją wszystkie zmienne, przerzucamy do prawego okna zmienną, którą chcemy opisać (stan cywilny) .

Następnie klikamy na przycisk statystyki i wybieramy Dominantę –jest to jedyna statystyka, którą możemy zastosować do opisu zmiennych nominalnych.

Po dokonaniu wyboru, przyciskamy Dalej i wybieramy opcję Wykresy, Spośród wykresów wybieramy najwłaściwszy dla danych nominalnych: kołowy

(niekiedy możemy użyć też wykresu słupkowego).Klikamy na Dalej i OK. i otrzymujemy następujący raport:

1

Stan cywilny

N

Ważne

1499

Braki danych

1

Dominanta

1

W pierwszej tabeli uzyskujemy informację o liczbie badanych osób,

liczbie braków danych i wartości dominanty. Jak widać wyżej uzyskano 1499

odpowiedzi i jeden brak danych (brak odpowiedzi).

Dominanta ma wartość 1. W zakładce ZMIENNE pakietu SPSS

możemy sprawdzić, jaka wartość zmiennej odpowiada jedynce. Jak widać 1=

żonaty/zamężna/konkubinat. Wynika z tego, że wśród naszych badanych

przeważały osoby w związkach formalnych lub nieformalnych.

Stan cywilny

Procent

Procent

Częstość

Procent

ważnych

skumulowany

Ważne

Żonaty/zamężna/KONK

795

53,0

53,0

53,0

Wdowiec/wdowa

165

11,0

11,0

64,0

Rozwiedziona/y

213

14,2

14,2

78,3

Separacja

40

2,7

2,7

80,9

Kawaler/panna

286

19,1

19,1

100,0

Ogółem

1499

99,9

100,0

Braki danych

Brak odpowiedzi

1

,1

Ogółem

1500

100,0

Druga tabela podaje dokładne informacje o liczbie obserwacji (i

procencie) dla kolejnych kategorii zmiennej. Kolumna Procent podaje odsetki liczone z całej próby (1500 osób), a kolumna Procent ważnych podaje odsetki

bez uwzględniania braków danych (braków odpowiedzi – 1499 osób). W

przypadku danych nominalnych kolumna Procent skumulowany nie ma sensu

w opisie zmiennych nominalnych (nie da się uszeregować pomiarów wg

wielkości) i powinien być usunięty z opisu zmiennej.

W drugim kroku opiszemy zmienną Poziom wykształcenia respondenta

(degree) . Jest to zmienna porządkowa. Postępujemy podobnie jak w pierwszym

kroku, pamiętając jednocześnie o przesunięciu analizowanej poprzednio

zmiennej stan cywilny z powrotem do lewego okna (listy zmiennych). Musimy

również pamiętać o wyborze nowych statystyk (dominanta, mediana,

kwartale) i nowym wykresie (wykres słupkowy).

Po dokonaniu zmian, zatwierdzamy je przyciskiem OK. i otrzymujemy

następujący raport:

2

N

Ważne

1496

Braki danych

4

Mediana

1,00

Dominanta

1

Percentyle

25

1,00

50

1,00

75

2,00

Jak wynika z powyższej tabeli spośród 1500 respondentów 4 osoby nie

udzieliły informacji o wykształceniu (braki danych) .

Mediana wynosi 1. Jedynka w danych odpowiada kategorii: High school.

Oznacza to, że połowa respondentów ma wykształcenie na poziomie High

school lub niższym, a druga połowa na poziomie High school lub wyższym.

Dominanta również ma wartość 1. Wynika z tego, że High school było

najczęstszym poziomem wykształcenia wśród respondentów. 25, 50 i 75

percentyl to po prostu 1,2 i 3 kwartyl.

Wartość 1 kwartyla wynosi 1, czyli 25% ankietowanych miało

wykształcenia na poziomie High school lub niższym. 3 kwartyl ma wartość 2 –

wynika z tego, że 25% miało wykształcenie na poziomie Junior college lub wyższym.

Na podstawie wartości kwartyli wyliczamy „ręcznie” wartość odchylenia

ćwiartkowego:

Q  Q

2 1

3

1

Q 





5

,

0

2

2

Uzyskana wartość odchylenia pozwala nam na obliczenie pozycyjnego

współczynnika zmienności:

Q

5

,

0

V



5

,

0

Q 



Me

1

Wartość współczynnika wynosi 0,5 mamy zatem do czynienia z umiarkowaną

zmiennością naszej zmiennej.

W raporcie SPSS odnajdujemy również tabelę częstości i wykres słupkowy

ilustrujące dokładny rozkład zmiennej poziom wykształcenia respondenta.

W kroku trzecim opiszemy zmienną ilościową : wiek respondenta (age).

Postępujemy podobnie jak w poprzednich przykładach, pamiętając by w opcji

Statystyki dołożyć miary właściwe dla danych ilościowych: średnią,

odchylenie standardowe, skośność i kurtozę, a w opcji Wykresy wybrać

Histogram.

3

Wiek respondenta

N

Ważne

1495

Braki danych

5

Średnia

46,23

Mediana

43,00

Dominanta

28(a)

Odchylenie standardowe

17,418

Skośność

,500

Błąd standardowy skośności

,063

Kurtoza

-,700

Błąd standardowy kurtozy

,126

Percentyle

25

32,00

50

43,00

75

59,00

a Istnieje wiele wartości modalnych. Podano wartość najmnie

jszą.

W uzyskanym raporcie widzimy, że Średnia czyli przeciętna wartość

wieku w naszej grupie badanych wyniosi 46,23. Mediana ma wartość 43,00

czyli połowa respondentów ma 43 lata lub mniej, a druga połowa 43 lub więcej.

Przy wartości Dominanty jest odnośnik wskazujący na to, że istnieje wiele wartości modalnych (podana jest najmniejsza wartość dominanty – w naszym przykładzie 28). W tabeli częstości wyszukujemy inne najczęściej występujące wartości zmiennej wiek. Okazuje się, że występują dwie dominanty - są to wartości 28 i 36 – wśród badanych były to najczęściej występujące wartości tej

zmiennej.

Dzieląc odchylenie standardowe przez średnią uzyskujemy wartość

współczynnika zmienności:

s

17,42

v 





38

,

0

x

,

46 23

Uzyskana wartość wskazuje na stosunkowo niewielką wartość zmienności.

Pierwszy kwartyl wynosi 32 – czyli 25% respondentów miało 32 lata lub mniej, kwartyl trzeci ma wartość 59, czyli 25% badanych miało 59 lat lub więcej. Obliczone („ręcznie”) odchylenie ćwiartkowe wynosi 13,5.

Bezwzględną wartość skośności i kurtozy porównujemy z ich

podwojonym błędem standardowym. Jeżeli wartość bezwzględna skośności lub

kurtozy nie przekracza podwojonego właściwego błędu twierdzimy, że rozkład

nie jest skośny (kurtyczny). W przeciwnym razie opisujemy skośność i

kurtyczność rozkładu. W naszym przykładzie zarówno skośność jak i

bezwzględna wartość kurtozy przekraczają podwojone odpowiednie błędy

standardowe. Stwierdzamy zatem, że rozkład zmiennej wiek jest prawoskośny (skośność dodatnia) i platykurtyczny (kurtoza ujemna).

W raporcie SPSS znajduje się również tabela częstości i histogram

ilustrujące dokładny rozkład zmiennej wiek respondenta.

4