background image

1

Eksploracja jednej zmiennej

 

Statystyki rozkładu częstości i wizualna 

analiza danych

Wykład 2

background image

2

Ogólny podział statystyk

Ogólny podział statystyk

Statystyki opisowe

Statystyki opisowe

Statystyki inferencyjne

Statystyki inferencyjne

background image

3

I etap analizy wyników. 

Statystyki opisowe – podsumowanie danych

Podsumowanie wyników 

Liczbowe
Graficzne

Wyniki surowe nie dadzą takiego obrazu

Powinniśmy dokonać podsumowania wyników 
za pomocą statystyk opisowych lub graficznego 
przedstawienia danych.

Sprawdzamy czy wyniki układają się zgodnie z hipotezami.

background image

4

Statystyki opisowe

Jak znaleźć porządek w zbiorze liczb?

Rozkład częstości

background image

5

Rozkład częstości

Rozkład częstości – pokazuje jak często każdy 

wynik się pojawił w zbiorze danych. 

Jest to podsumowanie kategorii odpowiedzi w badanej 

zmiennej. 

Rozkładem częstości jest każde 
uporządkowanie danych, które pokazuje 
częstość występowania różnych wartości 
zmiennej lub częstość wartości należących do 
grup zmiennej

background image

6

Zmienna

nastrój

nastrój

background image

7

Wyniki surowe – postać numeryczna

Nastroj: 1 3 2 3 4 3 2 1 2 3 4  4 1 3 2 4 3 4 2 3 4 

2 1 5 5 2 2 3 4 4 2 3 4 4 3 1 1 1 2 3 3 3 4 3 5 5 
5 5 5 5

background image

8

Wyniki surowe -  dane w SPSS

background image

9

background image

10

Rozkład częstości - tabela

nastroj1

7

14,0

14,0

14,0

10

20,0

20,0

34,0

14

28,0

28,0

62,0

11

22,0

22,0

84,0

8

16,0

16,0

100,0

50

100,0

100,0

1,00
2,00
3,00
4,00
5,00
Ogółem

Ważne

Częstość

Procent

Procent

ważnych

Procent

skumulowany

background image

11

Konstruowanie rozkładu częstości

W pierwszej kolumnie robimy listę możliwych 

odpowiedzi (wartości zmiennej). 

Jeżeli zmienna jest porządkowa, przedziałowa lub 

stosunkowa uporządkowujemy jej wartości od 

najmniejszej do największej. 

W drugiej kolumnie zapisujemy liczebność każdej 

wartości tzn. ile razy ta wartość pojawia się w 

odpowiedziach osób badanych (w zbiorze danych).
W trzeciej kolumnie obliczamy procent pojawień się tej 

wartości w ogóle wyników tzn. dzielimy częstość przez 

ogólną ilość wyników i mnożymy razy 100. 
W ostatniej kolumnie dodajemy do siebie kolejne 

wartości procentów. W efekcie uzyskujemy procent 

skumulowany czyli procent liczebności danej wartości i 

wszystkich mniejszych w naszym zbiorze danych. 

background image

12

Histogram – wykres częstości

Histogram 

Wykres liczebności poszczególnych wartości. 
Liczebności przedstawione są za pomocą słupków, 
których szerokość określa pewien zakres wyników. 

background image

13

HISTOGRAM - wykres rozkładu częstości

1,00

2,00

3,00

4,00

5,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

background image

14

1,00

2,00

3,00

4,00

5,00

nastroj1

0

5

10

15

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

Histogram z krzywą normalną

Krzywa normalna

background image

15

Wykres kołowy (tortowy)

14,0%

20,0%

28,0%

22,0%

16,0%

nastroj1

bardzo zły

zły
trudno powiedzieć
dobry

bardzo dobry

background image

16

Wzrost Miss Polonia 1997 i 2002

background image

17

Mister Poland 2001

background image

18

Charakterystyki rozkładu częstości 

Miary tendencji centralnej

 

średnia, 
mediana, 
modalna lub dominanta lub moda

Miary rozproszenia wyników

 

zakres,
wariancja, 
odchylenie standardowe

Kształt rozkładu wyników

skośność 
kurtoza 

background image

19

Miary tendencji centralnej

Najpopularniejsze statystyki podsumowujące starają się przedstawić 

pewną 

centralną

 wartość dla danych, inaczej 

przeciętną

 wartość 

wyników pomiarów. 

Wartość ta jest zazwyczaj bliska punktowi największego skupienia 

pomiarów i można ją uważać za najbardziej typową dla całego zbioru. 

Średnia

Mediana 

Modalna

 

background image

20

Średnia 

(M)

Oznacza dodanie 
(sumę) 
wszystkich 
wyników

Oznacza liczbę 
obserwacji/przyp
adków

M=

x

N

background image

21

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

Średnia
M = 3,06

background image

22

Średnia 

najczęściej używana przez psychologów 

Przy jej obliczaniu bierzemy 
pod uwagę wszystkie wyniki 

Wykorzystywana w wielu 
testach statystycznych

Wady:

Reprezentując 
wszystkich – może 
mówić o nikim 
Często jej wartość nie 
występuje w wynikach 
(średnia liczba dzieci 
w domach 2.3??)
Jest wrażliwa na 
dewiantów – skrajne 
wyniki 

background image

23

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Średnia i outlier

Średnia

M

M

 = 3,29

 = 3,29

Wynik odstający 
(outlier, 
dewiant)

Poprzednia średnia

M

M

 = 3,06

 = 3,06

background image

24

Mediana Me

Me – to wartość, która 

znajduje się w środku 

wszystkich wartości.

Aby ustalić Me trzeba 

uporządkować wyniki. 
Wynik, w tym wypadku, 

6 osoby dzieli wszystkie 

wyniki na połowę.

Medianę oblicza się 

najczęściej wtedy gdy 

pojawiają się bardzo 

nietypowe wyniki 

(dewianci/outliers), a nie ma 

powodów, aby je eliminować 

(średnia =4,05)

Kolejne 
wyniki

Czas 
reakcji

1

0,5

2

0,5

3

1

4

1

5

2

6

2

7

2,5

8

2,5

9

2,5

10

3

11

25

Mediana 

Dziwny 

wynik

background image

25

Obliczanie mediany w przypadku parzystej liczby wyników 

Kolejne 
wyniki

zapamiętane

1

3

2

4

3

4

4

5

5

5

6

7

7

8

8

8

9

8

10

9

Wtedy bierzemy 

Wtedy bierzemy 

średnią 

średnią 

z wyników leżących 

z wyników leżących 

pośrodku

pośrodku

          

          

5 + 7 / 2= 6

5 + 7 / 2= 6

background image

26

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

mediana

Me

Me

 = 3,00

 = 3,00

średnia

M

M

 = 3,06

 = 3,06

background image

27

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Mediana i outlier

Mediana

Me

Me

 = 3,00

 = 3,00

Wynik odstający 
(outlier, 
dewiant)

średnia

M

M

 = 3,29

 = 3,29

background image

28

Modalna = moda = dominanta Mo

Jest to najczęściej 

pojawiająca się 
wartość wśród 
wyników 
uczestników 
badania, też tak jak 
medianę najłatwiej 
ją dostrzec po 
uporządkowaniu 
wyników

Modalna = 8

Kolejne 
wyniki

zapamiętane

1

3

2

4

3

4

4

5

5

5

6

7

7

8

8

8

9

8

10

9

background image

29

Średnia

1,00

2,00

3,00

4,00

5,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

modalna

Mo

Mo

 = 3,00

 = 3,00

średnia

M

M

 = 

 = 

3,06

3,06

mediana

Me

Me

 = 3,00

 = 3,00

background image

30

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Modalna i outlier

Modalna

Mo

Mo

 = 3,00

 = 3,00

Wynik odstający 
(outlier, 
dewiant)

średnia

M

M

 = 

 = 

3,29

3,29

Mediana

Me

Me

 = 3,00

 = 3,00

background image

31

Rozkład jednomodalny

modalna

background image

32

Rozkład dwumodalny

modalne

background image

33

Modalna 

 Relatywnie rzadko stosowana w psychologii
 Wady:

Może w ogóle nie wystąpić w wynikach (jeśli nie ma 
co najmniej dwóch takich samych wyników)

 3, 4, 5, 6, 7, 8 – 

nie ma modalnej

Może być dwie i więcej modalnych, jeśli więcej 
wyników powtarza się 

2, 2, 4, 5, 6, 6,  -  

2 i 6 to modalne

 – 

rozkład 

wyników dwumodalny

Może też nie odzwierciedlać prawdziwego obrazu 
danych 

background image

34

Miary tendencji centralnej

Statystyki

nastroj1

51

0

3,2941
3,0000

3,00

Ważne
Braki danych

N

Średnia
Mediana
Dominanta

background image

35

0,00

3,00

6,00

9,00

12,00

15,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,2941

Std. Dev. = 2,10042

N = 51

Histogram

Miary tendencji centralnej

Modalna

Mo

Mo

 = 3,00

 = 3,00

Średnia

M

M

 = 

 = 

3,29

3,29

Mediana

Me

Me

 = 3,00

 = 3,00

background image

36

Wszystkie ...

background image

37

Poziom pomiaru (skale) i miary które można 

obliczać

nominalna

porządkowa

przedziałowa ilorazowa

średnia

mediana

modalna

background image

38

Miary rozproszenia

 Same miary tendencji centralnej nie 

wystarczają do opisu danych

  te same wartości mogą pochodzić z  

bardzo różnych zestawów wyników

Dlatego opisujemy również, jak wyniki 

są zróżnicowane. 

Wykorzystywane są do tego celu tzw. 

miary rozproszenia

miary rozproszenia

 

 

Zakres

Zakres

 

 

Wariancja

Wariancja

 

 

Odchylenie standardowe

Odchylenie standardowe

background image

39

Minimum, maksimum, zakres 

Minimum

 – najmniejsza wartość 

Maximum

 – największa wartość

zakres

 (rozstęp) jest rozumiany jako różnica między 

największym i najmniejszym pomiarem

Nastroj: 

1 3 2 3 4 3 2 1 2 3 4  4 1 3 2 4 3 4 2 3 4 2 1 5 5 2 2 
3 4 4 2 3 4 4 3 1 1 1 2 3 3 3 4 3 5 5 5 5 5 5

5 − 1= 4

zakres

background image

40

Jak bardzo każdy wynik różni się od średniej

Pięciu statystyków zapytano o to ilu mają 

przyjaciół. 
Wyniki: 1, 2, 3, 4, 5
= 3

Średnią możemy rozumieć jako model 

prawdziwych danych. 
Czy model ten jest trafny? 

Jak bardzo dane różnią się od modelu?

background image

41

Odchylenie od średniej

-2

-1

+1

+2

średnia

Różnica między 
wynikiem a 
średnią

L

ic

z

b

a

 p

rz

y

ja

c

ł

background image

42

Odchylenie od średniej

0

Sum

a:

2

5-3

5

1

4-3

4

0

3-3

3

-1

2-3

2

-2

1-3

1

Różnica 
pomiędzy 
wynikiem a 
średnią 
(odchylenie od 
średniej)

  (x - 
M)

Liczba 
przyjaciół

W tym wypadku średnia 
przecenia tego statystyka 
- zawyżyła jego liczbę 
przyjaciół o 2.

Dodanie wszystkich 
odchyleń zawsze da 
wynik zero 0

background image

43

Właśności odchylenia od średniej

4
3

Suma odchyleń wyników od 
średniej równa się zero.

Kwadrat sumy odchyleń 
wyników od średniej jest 
mniejszy niż kwadrat sumy 
odchyleń wyników od 
jakiekolwiek liczby (a)

background image

44

Suma kwadratów (ss)

Liczba 
przyjaciół

Odchylenie 
od średniej

Podniesione 
do kwadratu

1

-2

4

2

-1

1

3

0

0

4

1

1

5

2

4

Suma:

10

SS jest miarą 
rozproszenia wokół 
średniej – jest to miara 
dokładności modelu 
opartego o średnią 

Niestety jest to miara 
zależna od ilości danych 
jakie zostały 
zgromadzone, tzn. od 
liczby przypadków. 

Im więcej przypadków 
tym większe SS. 

background image

45

Wariancja (zmienność)

Wariancja (variance) jest to 
suma kwadratów odchyleń 
wszystkich wyników od 
średniej dzielona przez 
liczbę wyników

N

M)

(x

=

s

2

2

UWAGA

Jeśli interesuje nas oszacowanie wariancji w populacji, wtedy dzielimy 
przez (n-1), (wariancja =2.5)
Jeśli interesujemy się tylko wariancją w próbie: wtedy dzielimy przez n, 
(wariancja=2)
Pakiety statystyczne podają z reguły pierwszą opcję

s

2

=

ss

N

…innymi słowy…

background image

46

Problem jednostek pomiaru

Wariancja jest dobrą miara rozproszenia 
wyników. 
Bardzo często stosowana w analizie wynikach.

Problematyczny może być fakt, że wariancja 
jest wyrażona w jednostkach skali na jakiej 
dokonywany był pomiar podniesionych do 
kwadratu

Aby uniknąć tego problemu często stosuje się 

zamiennie miarę nazywaną 

odchylenie 

standardowe

background image

47

Odchylenie standardowe (s, SD)

 Odchylenie standardowe: 

Mówi o rozproszeniu wyników wokół średniej 

Zawsze kiedy mówimy o średniej należy 

wspomnieć też o odchyleniu standardowym

Jego wartość jest ściśle związane z wariancją

Jednostki, w których wyrażane jest SD są takie same 

jak oryginalny pomiar

Interpretacja

Interpretacja

Niskie wartości SD informują o tym, że wyniki są bardzo blisko 

położone wokół średniej

SD = 0 oznacza, że wszystkie wyniki są takie same

background image

48

Dla pierwszego wykładowcy 
jest małe zróżnicowanie 
ocen jego wykładów jest 
małe

Zróżnicowanie wyników 
drugiego jest większe

średnia

SD

Wykładowca

 

1

Wykładowca

 

2

N ważne

Statystyki 
opisowe

wykład

wykład

średni

a

średni

a

background image

49

Co się stanie jak dodamy stałą do wszystkich 

wyników?

Po co to robić? 

Gdy mamy skalę np. od -5 do +5
Ponieważ chcemy pozbyć się wartości ujemnych 

Jak to wpływa na statystyki opisowe?

Dodanie wartości stałej do wszystkich wyników zmienia 
średnią, medianę i dominantę (modalną) o tę wartość. 
Nie zmienia wariancji i odchylenia standardowego. 

background image

50

Dodajemy stałą do wyników – porównanie statystyk 

opisowych

Statystyki

50

50

1

1

3,0600

13,0600

3,0000

13,0000

3,00

13,00

1,28428

1,28428

1,649

1,649

-,056

-,056

,337

,337

-,983

-,983

,662

,662

4,00

4,00

Ważne
Braki danych

N

Średnia
Mediana
Dominanta
Odchylenie standardowe
Wariancja
Skośność
Błąd standardowy skośności

Kurtoza
Błąd standardowy kurtozy
Rozstęp

nastroj1

nastroj10

background image

51

Dodajemy stałą do wyników – porównanie kształtów 

rozkładów

0,00

1,00

2,00

3,00

4,00

5,00

6,00

nastroj1

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 3,06

Std. Dev. = 1,28428

N = 50

nastroj1

10,00

11,00

12,00

13,00

14,00

15,00

16,00

nastroj10

0

2

4

6

8

10

12

14

C

s

to

ś

ć

Mean = 13,06

Std. Dev. = 1,28428

N = 50

nastroj10

background image

52

Związki dwóch 

zmiennych

background image

53

Zmienne i ich sposoby 

reprezentacji

Zmienna pierwsza, np. samoocena:

Zmienna pierwsza, np. samoocena:

Bardzo niska

Niska

Wysoka

Bardzo wysoka

Druga zmienna, np. nastrój:

Druga zmienna, np. nastrój:

Bardzo zły

Zły

Dobry

Bardzo dobry

1

2

3

4

1

2

3

4

background image

54

Zmienność

?

?

samoocena

samoocena

nastrój

nastrój

background image

55

Schemat korelacyjny

Pomiar drugiej 

zmiennej

Pomiar drugiej 

zmiennej

Pomiar pierwszej 

zmiennej

Pomiar pierwszej 

zmiennej

samoocena

samoocena

nastrój

nastrój

background image

56

 współzmienność

Jeżeli 
wartość 
pierwszej 
własności 
zmienia się 
to wartość 
drugiej 
zmienia się 

przewidywa
lny sposób.

Jeżeli 
wartość 
pierwszej 
własności 
zmienia się 
to wartość 
drugiej 
zmienia się 

przewidywa
lny sposób.

samoocena

samoocena

nastrój

nastrój

background image

57

Średnia (M)=44,35

Odchylenie standardowe (SD) = 27,44

Średnia (M)=4,43

Odchylenie standardowe (SD) = 2,74

background image

58

Związek między testem A i testem B(Wykres 

rozrzutu 

)

background image

59

Jak zmieniają się wartości surowe w 

obu zmiennych

background image

60

Co to oznacza że dwie zmienne korelują ze 

sobą?

Oznacza to, że ich wyniki zmieniają się wspólnie

Jeśli zmieniają się wyniki jednej zmiennej, wyniki  drugiej 

zmieniają się w przewidywalny sposób
Innymi słowy zmienne te są zależne od siebie

Korelacja oznacza liniowy związek dwóch 

zmiennych.

Wnioskujemy o współzależności dwóch 

zmiennych, a nie o relacjach przyczynowo 

skutkowych. 

background image

61

Wykres rozrzutu

Zazwyczaj używa się tego rodzaju wykresu do 

pokazania współzależności pomiędzy dwoma 

zmiennymi
Dwa wymiary pokazujące rozkład wyników dla 

dwóch zmiennych 
Każdy wymiar pokazuje wartości liczbowe danej 

zmiennej
Uwaga: przedstawiamy dane  mierzone co 

najmniej, na skali przedziałowej

background image

62

Przyjrzyjmy się różnym 

związkom dwóch 

zmiennych

 

background image

63

Standaryzacj

wyników 

background image

64

Wartości standaryzowane 

z

W celu: 

porównania wyników (mierzonych różnymi 
narzędziami) lub

sprawdzenia prawdopodobieństwa uzyskania danego 
wyniku

przekształca się wyniki surowe na wyniki 
wyrażone 

w jednostkach odchylenia 

standardowego 

są to 

wyniki standardowe

 

czy 

standaryzowane

 (SPSS). 

 

background image

65

Standaryzacja wyników

Proste przekształcenie liniowe każdego wyniku x w 
z:

Wartość standaryzowana “z” danego wyniku  =  
wynik surowy (x) minus średnia (M) dzielone przez 
odchylenie standardowe (SD)

Każdy 
pojedynczy 
wynik x 
zmieniam na z

z=

x− M

SD

background image

66

Właściwości wyników standaryzowanych “z” dla 

próby

Średnia z danych wystandaryzowanych 
jest równa 0 
Wariancja i odchylenie standardowe dla 
danych wystandaryzowanych są równe 1

wyniki dokładnie równe średniej 

są równe zeru

wartości „z” zbliżone do średniej 

są bliskie wartości “0”

wartości “z” mniejsze od średniej 

są ujemne

wyniki “z” większe od średniej 

są dodatnie

background image

67

Ćwiczenie

Hrabina Zenobia de’Ouhę w teście 
znajomości zasad savoir-vivre otrzymała 20 
punktów  

 (średnia w badanej grupie hrabin wyniosła 25, 
odchylenie standardowe 5).

Natomiast w teście teoretycznej wiedzy o 
tańcach towarzyskich dostała 5 punkty 
(średnia w grupie wyniosła 3, odchylenie 
standardowe 2) 
Na czym hrabina zna się lepiej? 

Materiały do wykładu: Krzysztof Krejtz, 
SWPS

background image

68

odpowiedź

Widać, że hrabinie 
lepiej wychodziło 
tańczenie niż dobre 
obyczaje 

Materiały do wykładu: Krzysztof Krejtz, 
SWPS

background image

69

Współczynnik r-Pearsona

background image

70

Wyniki standaryzowane zmiennych test 

A i test B

background image

71

Jak zmieniają 

się wartości 

standaryzowan

e obu 

zmiennych

background image

72

background image

73

współczynnik r-Pearsona

1

N

Z

Z

=

r

x

y

background image

74

Kolejne kroki obliczania współczynnika r-

Pearsona

Wszystkie wyniki na obu skalach zamieniamy na z 

(na podstawie odpowiednich średnich i odchyleń 

standardowych)
Mnożymy wartości z obu zmiennych
Dodajemy iloczyny do siebie
Dzielimy przez liczbę obserwacji minus 1


Document Outline