PRZYKŁAD BADAŃ

I etap analizy wyników.

Statystyki opisowe – podsumowanie danych

Podsumowanie wyników

Liczbowe
Graficzne

Wyniki surowe nie dadzą takiego obrazu

Powinniśmy dokonać podsumowania wyników
za pomocą statystyk opisowych lub graficznego
przedstawienia danych.

Sprawdzamy czy wyniki układają się zgodnie z hipotezami.

Rozkład częstości

Rozkład częstości – pokazuje jak często każdy

wynik się pojawił w zbiorze danych.

Jest to podsumowanie kategorii odpowiedzi w badanej

zmiennej.

Rozkładem częstości jest każde
uporządkowanie danych, które pokazuje
częstość występowania różnych wartości
zmiennej lub częstość wartości należących do
grup zmiennej

Rozkład częstości - tabela

nastroj1

14,0

20,0

34,0

28,0

62,0

22,0

84,0

16,0

100,0

1,00
2,00
3,00
4,00
5,00
Ogółem

Ważne

Częstość

Procent

ważnych

Procent

skumulowany

Konstruowanie rozkładu częstości

W pierwszej kolumnie robimy listę możliwych

odpowiedzi (wartości zmiennej).

Jeżeli zmienna jest porządkowa, przedziałowa lub

stosunkowa uporządkowujemy jej wartości od

najmniejszej do największej.

W drugiej kolumnie zapisujemy liczebność każdej

wartości tzn. ile razy ta wartość pojawia się w

odpowiedziach osób badanych (w zbiorze danych).
W trzeciej kolumnie obliczamy procent pojawień się tej

wartości w ogóle wyników tzn. dzielimy częstość przez

ogólną ilość wyników i mnożymy razy 100.
W ostatniej kolumnie dodajemy do siebie kolejne

wartości procentów. W efekcie uzyskujemy procent

skumulowany czyli procent liczebności danej wartości i

wszystkich mniejszych w naszym zbiorze danych.

HISTOGRAM - wykres rozkładu częstości

1,00

2,00

3,00

4,00

5,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

1,00

2,00

3,00

4,00

5,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

Histogram z krzywą normalną

Krzywa normalna

Wykres kołowy (tortowy)

14,0%

20,0%

28,0%

22,0%

16,0%

nastroj1

bardzo zły

zły
trudno powiedzieć
dobry

bardzo dobry

Charakterystyki rozkładu częstości

Miary tendencji centralnej

średnia,
mediana,
modalna lub dominanta lub moda

Miary rozproszenia wyników

zakres,
wariancja,
odchylenie standardowe

Kształt rozkładu wyników

skośność
kurtoza

Miary tendencji centralnej

Najpopularniejsze statystyki podsumowujące starają się przedstawić

pewną

centralną

wartość dla danych, inaczej

przeciętną

wartość

wyników pomiarów.

Wartość ta jest zazwyczaj bliska punktowi największego skupienia

pomiarów i można ją uważać za najbardziej typową dla całego zbioru.

Średnia

Mediana

Modalna

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

Średnia
M = 3,06

Średnia

najczęściej używana przez psychologów

Przy jej obliczaniu bierzemy
pod uwagę wszystkie wyniki

Wykorzystywana w wielu
testach statystycznych

Wady:

Reprezentując
wszystkich – może
mówić o nikim
Często jej wartość nie
występuje w wynikach
(średnia liczba dzieci
w domach 2.3??)
Jest wrażliwa na
dewiantów – skrajne
wyniki

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

zę

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Średnia i outlier

Średnia

= 3,29

Wynik odstający
(outlier,
dewiant)

Poprzednia średnia

= 3,06

Mediana Me

Me – to wartość, która

znajduje się w środku

wszystkich wartości.

Aby ustalić Me trzeba

uporządkować wyniki.
Wynik, w tym wypadku,

6 osoby dzieli wszystkie

wyniki na połowę.

Medianę oblicza się

najczęściej wtedy gdy

pojawiają się bardzo

nietypowe wyniki

(dewianci/outliers), a nie ma

powodów, aby je eliminować

(średnia =4,05)

Kolejne
wyniki

Czas
reakcji

0,5

2,5

Mediana

Dziwny

wynik

Obliczanie mediany w przypadku parzystej liczby wyników

Kolejne
wyniki

zapamiętane

Wtedy bierzemy

średnią

z wyników leżących

pośrodku

5 + 7 / 2= 6

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

mediana

= 3,00

średnia

= 3,06

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

zę

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Mediana i outlier

Mediana

= 3,00

Wynik odstający
(outlier,
dewiant)

średnia

= 3,29

Modalna = moda = dominanta Mo

Jest to najczęściej

pojawiająca się
wartość wśród
wyników
uczestników
badania, też tak jak
medianę najłatwiej
ją dostrzec po
uporządkowaniu
wyników

Modalna = 8

Kolejne
wyniki

zapamiętane

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

modalna

= 3,00

średnia

3,06

mediana

= 3,00

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

zę

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Modalna i outlier

Modalna

= 3,00

Wynik odstający
(outlier,
dewiant)

średnia

3,29

Mediana

= 3,00

Modalna

Relatywnie rzadko stosowana w psychologii
Wady:

Może w ogóle nie wystąpić w wynikach (jeśli nie ma
co najmniej dwóch takich samych wyników)

3, 4, 5, 6, 7, 8 –

nie ma modalnej

Może być dwie i więcej modalnych, jeśli więcej
wyników powtarza się

2, 2, 4, 5, 6, 6, -

2 i 6 to modalne

–

rozkład

wyników dwumodalny

Może też nie odzwierciedlać prawdziwego obrazu
danych

Miary tendencji centralnej

Statystyki

nastroj1

3,2941
3,0000

3,00

Ważne
Braki danych

Średnia
Mediana
Dominanta

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

zę

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Miary tendencji centralnej

Modalna

= 3,00

Średnia

3,29

Mediana

= 3,00

Poziom pomiaru (skale) i miary które można

obliczać

nominalna

porządkowa

przedziałowa ilorazowa

średnia





mediana





modalna



Miary rozproszenia

Same miary tendencji centralnej nie

wystarczają do opisu danych

te same wartości mogą pochodzić z

bardzo różnych zestawów wyników

Dlatego opisujemy również, jak wyniki

są zróżnicowane.

Wykorzystywane są do tego celu tzw.

miary rozproszenia

Zakres

Wariancja

Odchylenie standardowe

Minimum, maksimum, zakres

Minimum

– najmniejsza wartość

Maximum

– największa wartość

zakres

(rozstęp) jest rozumiany jako różnica między

największym i najmniejszym pomiarem

Nastroj:

1 3 2 3 4 3 2 1 2 3 4 4 1 3 2 4 3 4 2 3 4 2 1 5 5 2 2
3 4 4 2 3 4 4 3 1 1 1 2 3 3 3 4 3 5 5 5 5 5 5

5 − 1= 4

zakres

Odchylenie od średniej

-2

-1

średnia

Różnica między
wynikiem a
średnią

ió

Odchylenie od średniej

Sum

5-3

4-3

3-3

-1

2-3

-2

1-3

Różnica
pomiędzy
wynikiem a
średnią
(odchylenie od
średniej)

(x -
M)

Liczba
przyjaciół

W tym wypadku średnia
przecenia tego statystyka
- zawyżyła jego liczbę
przyjaciół o 2.

Dodanie wszystkich
odchyleń zawsze da
wynik zero 0

Suma kwadratów (ss)

Liczba
przyjaciół

Odchylenie
od średniej

Podniesione
do kwadratu

-2

-1

Suma:



SS jest miarą
rozproszenia wokół
średniej – jest to miara
dokładności modelu
opartego o średnią



Niestety jest to miara
zależna od ilości danych
jakie zostały
zgromadzone, tzn. od
liczby przypadków.



Im więcej przypadków
tym większe SS.

Wariancja (zmienność)

Wariancja (variance) jest to
suma kwadratów odchyleń
wszystkich wyników od
średniej dzielona przez
liczbę wyników





UWAGA

Jeśli interesuje nas oszacowanie wariancji w populacji, wtedy dzielimy
przez (n-1), (wariancja =2.5)
Jeśli interesujemy się tylko wariancją w próbie: wtedy dzielimy przez n,
(wariancja=2)
Pakiety statystyczne podają z reguły pierwszą opcję

…innymi słowy…

Problem jednostek pomiaru

Wariancja jest dobrą miara rozproszenia
wyników.
Bardzo często stosowana w analizie wynikach.

Problematyczny może być fakt, że wariancja
jest wyrażona w jednostkach skali na jakiej
dokonywany był pomiar podniesionych do
kwadratu

Aby uniknąć tego problemu często stosuje się

zamiennie miarę nazywaną

odchylenie

standardowe

Odchylenie standardowe (s, SD)

Odchylenie standardowe:

Mówi o rozproszeniu wyników wokół średniej

Zawsze kiedy mówimy o średniej należy

wspomnieć też o odchyleniu standardowym

Jego wartość jest ściśle związane z wariancją

Jednostki, w których wyrażane jest SD są takie same

jak oryginalny pomiar

Interpretacja

Niskie wartości SD informują o tym, że wyniki są bardzo blisko

położone wokół średniej

SD = 0 oznacza, że wszystkie wyniki są takie same

Dla pierwszego wykładowcy
jest małe zróżnicowanie
ocen jego wykładów jest
małe

Zróżnicowanie wyników
drugiego jest większe

średnia

Wykładowca

N ważne

Statystyki
opisowe

wykład

średni

Co się stanie jak dodamy stałą do wszystkich

wyników?

Po co to robić?

Gdy mamy skalę np. od -5 do +5
Ponieważ chcemy pozbyć się wartości ujemnych

Jak to wpływa na statystyki opisowe?

Dodanie wartości stałej do wszystkich wyników zmienia
średnią, medianę i dominantę (modalną) o tę wartość.
Nie zmienia wariancji i odchylenia standardowego.

Dodajemy stałą do wyników – porównanie statystyk

opisowych

Statystyki

3,0600

13,0600

3,0000

13,0000

3,00

13,00

1,28428

1,649

-,056

,337

-,983

,662

4,00

Ważne
Braki danych

Średnia
Mediana
Dominanta
Odchylenie standardowe
Wariancja
Skośność
Błąd standardowy skośności

Kurtoza
Błąd standardowy kurtozy
Rozstęp

nastroj1

nastroj10

Dodajemy stałą do wyników – porównanie kształtów

rozkładów

0,00

1,00

2,00

3,00

4,00

5,00

6,00

nastroj1

zę

Mean = 3,06

Std. Dev. = 1,28428

N = 50

nastroj1

10,00

11,00

12,00

13,00

14,00

15,00

16,00

nastroj10

zę

Mean = 13,06

Std. Dev. = 1,28428

N = 50

nastroj10

Zmienne i ich sposoby

reprezentacji

Zmienna pierwsza, np. samoocena:

Bardzo niska

Niska

Wysoka

Bardzo wysoka

Druga zmienna, np. nastrój:

Bardzo zły

Zły

Dobry

Bardzo dobry

Schemat korelacyjny

Pomiar drugiej

zmiennej

Pomiar drugiej

zmiennej

Pomiar pierwszej

zmiennej

Pomiar pierwszej

zmiennej

samoocena

nastrój

współzmienność

Jeżeli
wartość
pierwszej
własności
zmienia się
to wartość
drugiej
zmienia się
w
przewidywa
lny sposób.

samoocena

nastrój

Co to oznacza że dwie zmienne korelują ze

sobą?

Oznacza to, że ich wyniki zmieniają się wspólnie

Jeśli zmieniają się wyniki jednej zmiennej, wyniki drugiej

zmieniają się w przewidywalny sposób
Innymi słowy zmienne te są zależne od siebie

Korelacja oznacza liniowy związek dwóch

zmiennych.

Wnioskujemy o współzależności dwóch

zmiennych, a nie o relacjach przyczynowo

skutkowych.

Wykres rozrzutu

Zazwyczaj używa się tego rodzaju wykresu do

pokazania współzależności pomiędzy dwoma

zmiennymi
Dwa wymiary pokazujące rozkład wyników dla

dwóch zmiennych
Każdy wymiar pokazuje wartości liczbowe danej

zmiennej
Uwaga: przedstawiamy dane mierzone co

najmniej, na skali przedziałowej

Wartości standaryzowane

W celu:

porównania wyników (mierzonych różnymi
narzędziami) lub

sprawdzenia prawdopodobieństwa uzyskania danego
wyniku

przekształca się wyniki surowe na wyniki
wyrażone

w jednostkach odchylenia

standardowego

są to

wyniki standardowe

czy

standaryzowane

(SPSS).

Standaryzacja wyników

Proste przekształcenie liniowe każdego wyniku x w
z:

Wartość standaryzowana “z” danego wyniku =
wynik surowy (x) minus średnia (M) dzielone przez
odchylenie standardowe (SD)

Każdy
pojedynczy
wynik x
zmieniam na z

x− M

Właściwości wyników standaryzowanych “z” dla

próby

Średnia z danych wystandaryzowanych
jest równa 0
Wariancja i odchylenie standardowe dla
danych wystandaryzowanych są równe 1

wyniki dokładnie równe średniej

są równe zeru

wartości „z” zbliżone do średniej

są bliskie wartości “0”

wartości “z” mniejsze od średniej

są ujemne

wyniki “z” większe od średniej

są dodatnie

Ćwiczenie

Hrabina Zenobia de’Ouhę w teście
znajomości zasad savoir-vivre otrzymała 20
punktów

(średnia w badanej grupie hrabin wyniosła 25,
odchylenie standardowe 5).

Natomiast w teście teoretycznej wiedzy o
tańcach towarzyskich dostała 5 punkty
(średnia w grupie wyniosła 3, odchylenie
standardowe 2)
Na czym hrabina zna się lepiej?

Materiały do wykładu: Krzysztof Krejtz,
SWPS

współczynnik r-Pearsona







Document Outline