background image

Jadłospis na dzisiaj:

Jadłospis na dzisiaj:

Dania z zeszłego tygodnia: powtórka 
Danie główne : Statystyki

MTC

Miary dyspersji

Miary kwantylowe

Miary kształtu rozkładu

background image

Dania z zeszłego tygodnia: powtórka

Jak SPSS zapisuje systemowy brak danych?
Do czego służy rozkład częstości?
Jakie są możliwe formy rozkładu częstości?
Jak obliczamy procent?
Informacja o procencie to informacja o ...?
Na jakie pytania możemy odpowiedzieć w oparciu 

o rozkład częstości?

background image

ZAROBKI

1

2.4

2.6

2.6

1

2.4

2.6

5.1

1

2.4

2.6

7.7

1

2.4

2.6

10.3

4

9.5

10.3

20.5

1

2.4

2.6

23.1

1

2.4

2.6

25.6

1

2.4

2.6

28.2

2

4.8

5.1

33.3

1

2.4

2.6

35.9

1

2.4

2.6

38.5

1

2.4

2.6

41.0

1

2.4

2.6

43.6

1

2.4

2.6

46.2

1

2.4

2.6

48.7

1

2.4

2.6

51.3

1

2.4

2.6

53.8

1

2.4

2.6

56.4

1

2.4

2.6

59.0

1

2.4

2.6

61.5

1

2.4

2.6

64.1

1

2.4

2.6

66.7

1

2.4

2.6

69.2

1

2.4

2.6

71.8

1

2.4

2.6

74.4

1

2.4

2.6

76.9

1

2.4

2.6

79.5

1

2.4

2.6

82.1

2

4.8

5.1

87.2

1

2.4

2.6

89.7

1

2.4

2.6

92.3

1

2.4

2.6

94.9

1

2.4

2.6

97.4

1

2.4

2.6

100.0

39

92.9

100.0

3

7.1

42

100.0

735.00
803.00
818.00
861.00
868.00
871.00
893.00
900.00
1000.00
1009.00
1057.00
1070.00
1126.00
1195.00
1196.00
1254.00
1285.00
1298.00
1338.00
1424.00
1425.00
1445.00
1506.00
1586.00
1747.00
1768.00
1824.00
1873.00
1884.00
2117.00
2139.00
2153.00
2181.00
2183.00
Ogółem

Ważne

999998.00

Braki danych
Ogółem

Częstość

Procent

Procent

ważnych

Procent

skumulowany

Jakie jest prawdopodobieństwo

spotkania osób zarabiających

od 1000 do 2000 zł?

Albo:

(19x2.6)+(2x5.1)=~0,59

albo:

87.2 – 28.2 =~0,59

zasada: 

to co nas interesuje

minus to co nas

nieinteresuje

background image

Częstości i Prawdopodobieństwo czego 

chcieć więcej?

Częstości i prawdopodobieństwo są bardzo użyteczne
Czasami jednak potrzebujemy dodatkowych informacji 
Np.: 

Co  wynika z faktu, że prawdopodobieństwo spotkania 
osoby zarabiającej między 1000 a 2000 zł wynosi około 
0,6 (czyli, że 60% osób mieści się w tym przedziale)?

jeżeli dostałem z egzaminu czwórkę, to informacja ta bez 
kontekstu jest bezwartościowa

POTRZEBUJEMY JAKIŚ WARTOŚCI OPISOWYCH 

- PODSUMOWUJĄCYCH

background image

STATYSTYKI

Statystyki - są to charakterystyki danych, służące temu 

aby opisywać dane zrozumiałym językiem. 

Statystyki wykonuje się po to, żeby móc porównywać 

ze sobą różne rozkłady częstości. 

Można też porównywać na oko, ale czy to ma sens? 

Często przy wielokategorialnych zmiennych (np. 50 
kategorii i więcej), porównywanie „na wyczucie” jest 
mało wiarygodne. 

background image

WIEK RESPONDENTA

94

90

86

82

78

74

70

66

62

58

54

50

46

42

38

34

30

26

22

18

Ś

re

d

n

ia

 S

K

A

L

A

 C

H

E

C

Z

Y

C

IA

11

10

9

8

7

6

5

4

3

background image

 

Charakterystyki rozkładów:

Miary Tendencji Centralnej (MTC)
Miary procentowe - kwantylowe
Miary Rozproszenia – miary dyspersji
Miary kształtu rozkładu

background image

STATYSTYKI - MTC

Miary Tendencji Centralnej– to nic innego jak 

podawanie informacji o 

przypadku typowym,

 

przeciętnym

 – czymś co pozwoli scharakteryzować 

dane – np. 

przeciętna pensja

typowy student

 (do 

jakiej kategorii należy)

ile najczęściej ludzie jedzą 

kulek lodów

Wyróżniamy trzy miary tendencji centralnej:

średnią 

medianę 

modalną

background image

STATYSTYKI - MTC

Średnia – miara, która, jako jedyna z miar tendencji 

centralnej, do obliczenia uwzględnia wszystkie 
wartości! 

Jest najczęściej używaną wartością w przy 

charakteryzowaniu różnych danych. 

Oblicza się ją wg wzoru: 

(X)/N (czyli suma 

wszystkich wartości dzielona przez ich liczbę).

background image

STATYSTYKI - MTC

Mediana – taka kategoria zmiennej poniżej  której 

znajduje się 50% przypadków. Oblicza się ją w 
sposób następujący:

 porządkujemy (sortujemy) dane

numerujemy (rangujemy)

szukamy wartości, która znajduje się po środku 
wypisanych wartości

Można też zastosować wzór: (N + 1)/2 – gdzie N 

oznacza liczbę obserwacji 

background image

STATYSTYKI - MTC

Przykład 1

Dla podanego rozkładu częstości rzutów kostką 
policz Medianę.

5 3 2 6 9 10 4

co robić?

Wartością odpowiadającą Me jest ...

A co jeśli: 5 3 2 6 9 10 4 11

Wartością odpowiadającą Me jest ...

background image

STATYSTYKI - MTC

Kwantyle (ntyle) – miary procentowe 
mediana należy do zbioru miar opartych na rozkładach 

procentach tzw. kwantyli (ntyli lub centyli). 

Mediana to połowa zbioru wartości. Kolejne znane 

centyle to:

Kwartyle 
Percentyle
Decyle

background image

STATYSTYKI - MTC

Modalna– wartość najczęściej występująca – np. jaki 

był najczęściej wybierany kolor? 

Żeby podać modę (modalną) wystarczy spojrzeć na 

częstość

Może być kilka modalnych – rozkłady wielomodalne
Jeżeli dwie najczęstsze wartości występują koło siebie 

np. 1 

2 2 3 3

 4  (wartość 2 i 3) to za modalną 

podajemy średnią tych dwu wartości (2,5).

background image

STATYSTYKI - MTC

Jeżeli wartości modalne nie sąsiadują ze sobą to 

podajemy dwie wartości – wówczas nie możemy 
mówić o modalnej, że wyraża tendencję centralną.

Może nie być wartości najczęstszej – rozkład 

prostokątny 

background image

STATYSTYKI - MTC

Zadanie 1

Dla podanego rozkładu częstości rzutów kostką 
policz MTC.

1 - 3
2 -  1
3 -  4
4 - 2
5 - 2
6 - 1

background image

STATYSTYKI - MTC

Kiedy jaka MTC?

Najlepszą miarą TC jest średnia

Średnia jest zależna od wartości ekstremalnych 
(takie wart. “przyciągają” średnią do siebie)

Kiedy rozkład jest niesymetryczny (np. zarobki, 
albo poczucie szczęścia) to lepsza od średniej jest 
MEDIANA

background image

STATYSTYKI - MTC

Jak się liczy MTC w SPSSie?
MTC to część rozkładu częstości, a zatem...
Analiza > opis statystyczny > częstości > 

STATYSTYKI

\\wykladowca\all99.sav
Dla której zmiennej ze zbioru  można policzyć MTC?
Które MTC się tutaj nadają – które mają sens?

mtc

background image

STATYSTYKI - Rozproszenie

Czasami MTC są niewystarczające do 

scharakteryzowania określonego rozkładu 

Ilustruje to poniższy przykład dwóch pomiarów 

temperatur:

15 16 16 17

10 16 16 22

obydwa rozkłady mają tę samą: 

średnią (M) = 16,

medianę (Me) = 16 

modalną (Mo) = 16

ALE...?

background image

STATYSTYKI - Rozproszenie

 nie są takie same:
 Różnią się rozproszeniem wartości. 
Miary rozproszenia:

Rozstęp

Wariancja

Odchylenie standardowe

background image

STATYSTYKI - Rozproszenie

Rozstęp - różnica między wartością największą (Maks.) 

a najmniejszą (Min)

Rozstęp jest całkowicie zależny od pomiarów 
ekstremalnych. 

Im większy jest rozstęp tym większa zmienność 
wyników (czy zawsze?). 

10 18 19 35 40 50

10 12 12 13 14 50

background image

STATYSTYKI - Rozproszenie

Wariancja i Odchylenie standardowe  to dwie 

najbardziej popularne miary używane w statystyce.

Założenia i sposób obliczania:

Im większa zmienność wyników, tym bardziej 
oddalone są one od średniej. 

Przykład:

Pomiar wzrostu: 

160 170 180

150 170 190

background image

STATYSTYKI - Rozproszenie

odchylenie wyników od średniej (x- M)

[

(x- M) = 0]

[

 (x- M)2]

W statystyce opieramy się na wartościach 
przeciętnych 

(x- M)2/N – kiedy obliczamy wariancję w populacji 

(

2)

(x- M)2/(N – 1) – kiedy obliczamy wariancję w próbie 

(s2)

background image

Dzięki dzieleniu przez mniejszą liczbę (N – 1), 

zmniejszamy prawdopodobieństwo popełnienia błędu.

Wariancja, jest wyrażona w jednostkach kwadratowych

Wariancja z wagi = 100 to 100 kg

2

 

Wariancja wzrostu = 36 to 36cm

2

Pierwiastek z wariancji, daje nam trzecią miarę 

rozproszenia – odchylenie standardowe.

STATYSTYKI - Rozproszenie

background image

STATYSTYKI - rozproszenie

Jak się liczy Rozproszenie w SPSSie?
Rozproszenie jak i MTC to część rozkładu częstości, a 

zatem...

Analiza > opis statystyczny > częstości > STATYSTYKI

Co się zmienia w naszej wiedzy o rozkładzie zarobków?

background image

Notatka 

Jak uzyskać miary: tendencji centralnej, rozproszenia i 
kwantyle w spss (ścieżka dostępu)?

Czym się różnią od siebie MTC i miary rozproszenia?

Jaki jest mianownik we wzorze na wariancję w próbie?

Jaki jest stosunek wariancji do odchylenia standardowego?

Kiedy nie należy korzystać ze średniej?

GDZIE ZNALEŹĆ INFO? 

“Wieczorkowska” s. 51 – 74 (rozdział 2 – rozkład 

częstości) 

„Pierwsze kroki w teorii” z magazynu lub strony

Dla chętnych materiały od Ireny z www  pt: „Kwartyle”

background image

Praca domowa

Ze strony www.qstat.prv.pl pobierz plik szablon.sav.

w pliku na podstawie wpisanej osoby nr 1:

 wprowadź dane z ankiet

zadeklaruj  wartości braków danych, 

dla zmiennej “ulubiona kuchnia” wprowadź maksymalną 
szerokość = 20

background image

Praca domowa

Korzystając z  pliku all99.sav zrób rozkład 

częstości zmiennej TOTUNEMP

Zadeklaruj odpowiednie wartości jako braki danych

Jakie jest prawdopodobieństwo spotkania osób 
niepracujących:

 12 mcy

Między 10 a 24 mce (  9 < X < 25)

Jaka  jest liczba osób niepracujących:

Między 10 a 24 mce (  9 < X < 25)

Między 2 a 120 mcy (  1 < X < 121)