Skale pomiarowe

G. Wieczorkowska & J. Wierzbiński (2005)

Rozdział 2

Co to znaczy, że wyniki badań są istotne statystycznie?

W poprzednim rozdziale powiedzieliśmy, że aby dowieść wpływu zielonej herbaty,

powinniśmy porównać średni poziom energii w dwóch grupach. W tym celu musimy przedstawić
poziom energii w postaci liczb, a następnie stwierdzić, jaką różnice uznamy za wystarczającą
– istotną statystycznie. W tym rozdziale spróbujemy wytłumaczyć, jak to robimy.

Liczby wykorzystywane w naukach społecznych maja różne znaczenie. Pierwsze pytanie,

jakie musimy zadać, dotyczy skali pomiarowej.

2.1. Skale pomiarowe

Wyobraźmy sobie, że chcemy sprawdzić, jakie są preferencje naszych studentów dotyczące

form egzaminowania - należymy do bardzo liberalnych wykładowców, więc chcemy dowiedzieć się,

jaka forma zaliczenia najbardziej odpowiadałaby studentom. Dopuszczamy następujące formy:

1.  egzamin testowy,
2.  esej pisany w domu,
3.  egzamin ustny.

W jaki sposób sprawdzimy preferencje studentów? Możemy na zajęciach omawiać poszczególne

opcje, obserwując równocześnie reakcje studentów i klasyfikując je - np. w następujące kategorie
(załóżmy, że są one rozłączne):

1. zmarszczenie brwi,

2.  rozmowa z sąsiadem,
3.  patrzenie w okno,
4.  reakcja werbalna (zadawanie pytań, komentarze).

Przy kodowaniu takich wyników do komputera (tabela 2.1) możemy używać dowolnych liczb, np.:

1, 2, 3, 4 lub: 32, 14, -9, 7, ponieważ przekazują one informację, że opisywane reakcje zostały
zakwalifikowane jako różne. Tego rodzaju „pomiar” (przypisanie reakcjom studentów liczb) określany

jest jako nominalny (jakościowy).

Tab. 2.1. Sposób kodowania zmiennej ze skali nominalnej. Użyte cyfry: 1, 2, 3, 4 oznaczają
WYŁĄCZNIE numery kategorii

Pomiar preferencji możemy skomplikować, prosząc o porangowanie tych trzech form - od

najbardziej do najmniej preferowanej (tabela 2.2).

Tab. 2.2 Sposób kodowania zmiennej ze skali porządkowej. Cyfra 1 oznacza opcję najbardziej
preferowaną, 3 – najmniej

Ustny

Testowy

Esej

Ustny

Testowy

Esej

Osoba A

Osoba B

Osoba C

G. Wieczorkowska & J. Wierzbiński (2005)

Osoba A

Osoba B

Osoba C

W ten sposób dowiadujemy się więcej o preferencjach pojedynczej osoby (np. osoba A

najbardziej preferuje egzamin ustny, a najmniej pisanie eseju), ale nadal nie wiemy, jak silnie odrzuca
pracę pisaną w domu. Może różnice w preferencjach między tymi formami egzaminu są nieznaczne,

ale mogą też być bardzo duże. Ten typ pomiaru nazywany jest skalą porządkową.

Możemy także poprosić studentów o wypełnienie krótkiej ankiety, w której te trzy formy

egzaminu byłyby oceniane na następującej skali:

1

Zdecydowanie nie
odpowiada mi.

Nie odpowiada
mi.

Nie

mam

zdania.

Odpowiada mi.

Zdecydowanie
odpowiada mi.

Choć puryści metodologiczni nie chcą tego zaakceptować, w naukach społecznych

powszechnie tego typu pomiar uznaje się za skalę przedziałową, czyli uznaje się, że różnica między
„nie  odpowiada  mi”  a  „zdecydowanie  odpowiada  mi”  jest  taka  sama,  jak  różnica  między  „nie
odpowiada mi” i  „nie mam  zdania”. Problem opisu tego typu skal, sposobu traktowania odpowiedzi
„nie  mam  zdania”,  jest  omówiony  w  literaturze  –  dlatego  pominiemy  go  w  naszym  maksymalnie

uproszczonym przykładzie dydaktycznym. Dla skali ilościowej, która pozwala na wykonywanie
operacji matematycznych, konieczne jest zdefiniowanie jednostki skali.

Tab. 2.3. Sposób kodowania zmiennej ze skali przedziałowej. Użyte cyfry (1,2,3,4,5) oznaczają
wartości na skali odpowiedzi

Ustny

Testowy

Esej

Osoba A

Osoba B

Osoba C

W tym przypadku możemy zobaczyć, że najmniej preferowana opcja odpowiada poglądowi

„nie mam zdania” dla osoby A i „zdecydowanie nie odpowiada mi” dla osoby B. Informacje zawarte w
tabeli 2.3 przedstawiliśmy na rysunku 2.1.

Rys. 2.1. Ilustracja graficzna preferencji opisanych w tabeli 2.3

Testowy

Ustny

Esej

NIE

Nie mam zdania

TAK

Osoba A

Osoba B

Osoba C

Esej

Ustny

Testowy

Zdecydowanie NIE

Zdecydowanie TAK

G. Wieczorkowska & J. Wierzbiński (2005)

Jeżeli chcemy pomiar wysublimować , możemy prosić o udzielenie odpowiedzi przy

komputerze, gdzie zadaniem studenta jest wybór odpowiedzi TAK lub NIE przy każdej formie

egzaminu - wskaźnikiem siły preferencji będzie dla nas czas podejmowania decyzji. Można założyć,
że szybkie TAK świadczy o silnie pozytywnym przekonaniu, a szybkie NIE o silnym odrzuceniu opcji.
Jeżeli od czasu odpowiedzi NIE odejmiemy stałą zależną od czasów występujących w badaniu, np.
100, zaś od czasu odpowiedzi TAK odejmiemy także 100, otrzymamy „ładną” skalę pomiarową, gdzie

wysokie wyniki będą oznaczały pozytywne preferencje.

Podsumowując: oglądając liczby (np. w komputerze) należy zawsze pamiętać, z jakiej skali

pomiarowej pochodzą. Komputer z łatwością policzy średnią z kategorii, ale wiemy, że mimo

podobieństwa  liczb  sugerowane  przez  nie  uporządkowanie  kategorii  nie  istnieje.  Ponieważ  jedyna
informacja  polega  na  odróżnianiu  reakcji  na  różne  opcje,  równie  dobrze  moglibyśmy  zakodować
kategorie za pomocą liczb: -7, 12, 3, 79.

O możliwych przekształceniach ze skal nominalnych i porządkowych warto przeczytać w

literaturze

[20]

Dalsze rozważania ograniczymy jedynie do zmiennych ilościowych, gdy zdefiniowana

jest jednostka pomiaru.

2.2. Podstawowe statystyki opisowe dla skal ilościowych

Chcąc porównać wyniki kobiet i mężczyzn w teście wyobraźni przestrzennej, możemy

oceniać różnice „na oko”, ale zdecydowanie lepszym pomysłem jest posługiwanie się pewnymi
liczbami, które służą do opisu rozkładu wyników. Liczby wyliczane na podstawie próby wyników

nazywane są statystykami.

Podstawowe statystyki opisowe można pogrupować na miary tendencji centralnej, opisujące

położenie wyników, oraz miary dyspersji, które opisują rozproszenie wyników. Najczęściej

wykorzystywaną miarą tendencji centralnej jest średnia arytmetyczna wyrażona wzorem:

...

gdzie

,...

to wyniki poszczególnych osób, a N to liczba osób w próbie.

Przykład: jeśli w teście pięć osób uzyskało odpowiednio: 2, 2, 6, 7 i 8 punktów, średnia wynosi

5 punktów.

Średnią wyników w próbie oznaczamy literą M od angielskiego słowa mean. W wielu podręcznikach

średnia dla próby oznaczana jest także jako

2.2.1 Miary rozproszenia wokół średniej

Choć może to wyglądać niezbyt poważnie , podstawowe pojęcia statystyczne tłumaczyć

będziemy, porównując wysokości kwiatków w doniczkach. Doświadczenie dydaktyczne nauczyło mnie
(gw), że ilustrowanie liczb w ten sposób bardzo ułatwia zrozumienie.

Porównajmy zatem dwa zbiory wyników (wysokości kwiatków w doniczkach):

G. Wieczorkowska & J. Wierzbiński (2005)

Rys. 2.2. Porównanie dwóch rozkładów o tej samej średniej, a różnej wariancji

W obu doniczkach średnia wysokość kwiatków wynosi 180. To, co je różni, to stopień

skupienia wyników wokół średniej. Dla każdego kwiatka możemy obliczyć jego „odległość” od
średniej, odejmując od X (wysokość kwiatka) M (średnią arytmetyczną wysokości wszystkich

kwiatków w danej doniczce). Zsumowanie podniesionych do kwadratu różnic X -M da nam miarę
rozproszenia wyników wokół średniej, oznaczaną jako SS (sum of squares). Suma kwadratów
odchyleń od średniej zazwyczaj

rośnie wraz ze wzrostem liczby osób w próbie.

Aby nasza miara nie zależała od wielkości próby, musimy uśrednić SS, dzieląc ją przez liczbę

stopni swobody określoną na podstawie liczebności próby (n-1). W naszej doniczce jest 7 kwiatków,
zatem n=7, czyli n-1=6. Wynikiem tych obliczeń jest podstawowa miara rozproszenia dla próby,
nazywana wariancją.

W statystyce często wykorzystujemy pierwiastek z wariancji, określany jako odchylenie

standardowe.

W tabeli poniżej policzona została wariancja i odchylenie standardowe dla obu

przedstawionych na rysunku doniczek.

Tab. 2.4. Ilustracja sposobu wyliczania wariancji i odchylenia standardowego dla danych z rysunku
2.2

Wyjątkiem jest sytuacja, gdy dodatkowe wyniki mają wynik równy średniej, ponieważ wtedy ich odchylenia od średniej

równe są zeru.

)

(

G. Wieczorkowska & J. Wierzbiński (2005)

Pojęcia odchylenia standardowego i wariancji są najważniejsze ze statystyk opisowych jednej

zmiennej  i  zawierają  tę  samą  informację.  Znając  wariancję,  znamy  odchylenie  standardowe
-  i  odwrotnie.  Odgrywają  one  również  kluczową  rolę  w badaniu  współzależności  pomiędzy  dwiema
(i więcej) zmiennymi.

2.3. Standaryzacja

Formułując dowolny sąd, nie tylko o liczbach, należy zawsze określić standard porównań.

Jeśli chcę powiedzieć, że Antek jest wysoki, muszę określić w porównaniu do kogo. Antek jest wysoki,
jeśli porównuję go do innych szóstoklasistów - lub niski, jeśli porównuję go z jego starszym bratem.

Jeżeli chcę określić, jak wysoki jest kwiatek, rozsądnym wydaje się być pytanie o relację do średniej w
doniczce.

Najprostszą metodą porównania wartości zmiennej jest CENTROWANIE, czyli zamiana

wartości X w odległość od średniej. Gdy różnica X - M jest większa od zera, kwiatek jest wyższy niż

przeciętna w doniczce, gdy ujemna - kwiatek jest niższy. Odległość od średniej może być mylącą
informacją, ponieważ - jak widzimy na rysunku (rysunek 2.3) - w obu doniczkach mamy identyczną
średnia M = 180 i kwiatek o wysokości 362, dla którego w wyniku centrowania X - M wyniesie 182. W
prawej doniczce zróżnicowanie kwiatków jest większe, zatem „unikalność” kwiatka o wysokości 362

jest mniejsza. Metodą uwzględniania zróżnicowania jest dzielenie X - M przez odchylenie
standardowe.

Doniczka lewa

Doniczka prawa

X -M (X -M)

230 50

2500

316 136

18496

194 14

196

-91

8281

172 -8

279 99

9801

155 -25

625

114 -66

4356

167 -13

169

283 103

10609

181 1

-139

19321

161 -19

361

138 -42

1764

SS = (X – M)²=3916
s

=652,667

s=25,547

SS = (X – M)²=72628

=12104,67

s=110,021

Różnica  wariancji  obu  rozkładów  i ich  odchyleń
standardowych  wskazuje,  że  drugi  rozkład
charakteryzuje  się  większym  rozproszeniem
wyników wokół średniej niż rozkład pierwszy.

G. Wieczorkowska & J. Wierzbiński (2005)

Rys. 2.3. Ilustracja standaryzacji wyników. Kwiatki z ujemnymi wynikami standaryzowanymi zostały

narysowane „do góry nogami”

Standaryzacja polega na zamianie wyników surowych (X ) w wyniki standaryzowane (z).

Standaryzować możemy wyłącznie zmienne ilościowe - bo tylko wtedy możemy policzyć średnią
i odchylenie standardowe.

Standaryzacja przekształca rozkład każdej zmiennej ilościowej (pod warunkiem, że jego

odchylenie standardowe nie wynosi zero) w rozkład o średniej równej zero i odchyleniu
standardowym wynoszącym jeden.

stand

odchylenie

średnia

wynik

czyli

Wynik standaryzowany z pokazuje, o ile odchyleń standardowych uzyskany przez nas wynik

jest  położony  poniżej  (gdy  z  <  0)  lub  powyżej  (gdy  z  >  0)  średniej.  Innymi  słowy  -  jak  daleko
(w jednostkach  odchylenia  standardowego)  leży  nasz  wynik  od  średniej.  Dla  X    =  M  wynik
standaryzowany wynosi zero.

Na rysunku 2.3 kwiatki z ujemnymi „zetami” zostały narysowane „do góry nogami”.

W lewej doniczce wynik standaryzowany dla kwiatka o wysokości 362 wynosi 1,02. Oznacza

to, że znajduje się on w swojej doniczce ponad jedno odchylenie standardowe powyżej średniej.

W prawej doniczce wynik standaryzowany dla kwiatka o wysokości 362 wynosi 2,25. Oznacza

to, że znajduje się on w swojej doniczce więcej niż dwa odchylenia standardowe powyżej średniej.

Standaryzacja pozwala porównać dwie liczby wyrażone oryginalnie w różnych jednostkach,

np. wyniki dwóch studentów piszących egzamin ze statystyki na różnych uczelniach. Jeżeli Darek
otrzymał w teście 17 punktów, a Andrzej 12, nic nie możemy powiedzieć, dopóki nie wiemy, jaka była

średnia i odchylenie standardowe na obu uczelniach. Jeżeli w uczelni Darka M = 15, s = 2, a w
uczelni Andrzeja M = 11, s = 1, obaj uzyskali wynik z = 1, a więc ich wyniki są równoważne.

2.4. Rozkład zmiennej

G. Wieczorkowska & J. Wierzbiński (2005)

Nie musimy już chyba Czytelnika przekonywać, że zanim powiemy cokolwiek o jakiejś liczbie,

musimy zapytać, z jakiego rozkładu (doniczki ) pochodzi.

Pierwszym krokiem w analizie jest sprawdzenie rozkładów naszych zmiennych. Mówiąc

najprościej,  rozkład  zmiennej  w  próbie  pokazuje,  jak  często  w  naszej  próbie  występowała  dana
wartość.  Jeżeli  wśród  30  badanych  było  14 mężczyzn,  co  stanowi  0,47  próby,  to  zmienna  PŁEĆ,
przyjmująca  wartości  1  –  mężczyzna,  2  –  kobieta,  ma  następujący  rozkład  (1;  0,47)  (2;  0,53)

-  ponieważ  kobiet  było  16,  co  stanowi  0,53  próby.  W  rozkładzie  zamiast  procentów  podajemy
proporcje,  ponieważ  są  one  odpowiednikiem  prawdopodobieństwa  definiowanego  w podejściu
empirycznym (a posteriori).

2.4.1 Definicja prawdopodobieństwa

W szkole poznaliśmy klasyczną definicję prawdopodobieństwa (a priori). Pomaga nam

ona odpowiedzieć na pytania, które dotyczą prawdopodobieństwa zajścia różnych zdarzeń, bez

konieczności przeprowadzania doświadczeń weryfikujących wynik. Gdy staramy się dowiedzieć, jakie
jest prawdopodobieństwo wyrzucenia orła przy rzucie symetryczną monetą albo wyrzucenia cyfry
większej od 4 przy rzucie kostką, nie musimy koniecznie rzucać monetą lub kostką. Stosując
klasyczną definicję prawdopodobieństwa, definiujemy prawdopodobieństwa zajścia tych zdarzeń jako

stosunek liczby zdarzeń sprzyjających do liczby zdarzeń możliwych. Oczywiście milcząco zakładamy,
że orły będą wypadać tak samo często jak reszki (moneta jest „uczciwa” – nie wyróżnia ani reszki, ani
orła). Podobnie kostka musi być uczciwa – żadna liczba oczek nie może być wyróżniona. Gdybyśmy
mieli do czynienia z „oszukaną” kostką lub monetą, klasyczna definicja prawdopodobieństwa nic nam

nie da – chyba że wiemy, w jaki sposób moneta czy kostka jest oszukana (np. wiemy, że orzeł
wypada dwa razy częściej niż reszka).

W naukach społecznych nie możemy stosować klasycznej definicji prawdopodobieństwa,

gdyż  w  zasadzie  nigdy  nie  znamy  prawdopodobieństw  a  priori  -  dlatego  stosujemy  definicję
empiryczną (albo a posteriori) prawdopodobieństwa. Oznacza to, że aby odpowiedzieć na pytanie,
jakie  jest  prawdopodobieństwo  spotkania  na  ulicy  w  Warszawie  osoby  rozwiedzionej,  musimy
przeprowadzić  badania.  Jeżeli  zapytamy  o stan  cywilny  sto  osób  spotkanych  na  ulicy  i cztery

powiedzą, że są rozwiedzione, to będziemy mogli stwierdzić, że prawdopodobieństwo spotkania
osoby rozwiedzionej wynosi 0,04.

To zupełnie inny sposób rozumienia prawdopodobieństwa niż ten

często spotykany na ulicy – uczestnicy IDOLA na pytanie, jakie jest prawdopodobieństwo, że wygrają,
odpowiadają czasami: „1/2”, co w potocznym języku oznacza 50% szans na sukces. Widząc

zdziwienie na twarzy pytającego, dana osoba wyjaśniła, że albo wygra, albo przegra, a w związku
z tym są dwie możliwości i stąd prawdopodobieństwo wygrania to 1/2. Wiemy oczywiście, że definicja
częstościowa prawdopodobieństwa nakazywałaby rozważać to zdarzenie nie z punku widzenia

indywidualnego  interesu,  ale  z  punktu  widzenia  wszystkich  możliwych  uczestników  IDOLA.  A  to
oznacza,  że  szansa  wygrania,  jeżeli  nie  wiemy  nic  więcej  na  temat  osoby,  która  startuje,  jest
równoważna prawdopodobieństwu  obliczonemu  jako  iloraz  „1”  i  liczby  wszystkich  uczestników  tego
konkursu – jeśli startuje 10 000 osób, szansa pojedynczej osoby na wygranie wynosi 1/10 000. Jeżeli

wiemy, że ta osoba jest zdecydowanie lepsza od sporej części kandydatów oraz że wśród tych 10 000
jest tylko trzystu, którzy mają odpowiednie uzdolnienia wokalne, moglibyśmy zaryzykować tezę, że
prawdopodobieństwo, że dana osoba zwycięży, to 1/300.

Podsumowując: rozkład zmiennej można przedstawić jako zbiór par (wartość, częstość),

gdzie częstość oznacza to, ile razy dana wartość wystąpiła w naszej próbie - wtedy rozkład płci
wygląda następująco: (1, 14) (2, 16), ale poprawniej jest przedstawić rozkład jako zbiór par (wartość,

O tym, jakie warunki muszą być spełnione, abyśmy mogli formułować sądy ogólne na podstawie zbadanej próby, należy

przeczytać w literaturze

[15]

G. Wieczorkowska & J. Wierzbiński (2005)

prawdopodobieństwo), gdzie prawdopodobieństwo należy rozumieć jako proporcję osób, którym
przypisano daną wartość, w stosunku do całej liczebności próby.

Podstawowym sposobem prezentacji zmiennej jest rozkład częstości (frekwencje, frakcje).

Rozkład częstości (tabela 2.5) przedstawia wartość danej zmiennej oraz jej częstość pojawiania się.
W rozkładzie częstości mamy pięć kolumn. W pierwszej wypisane są wartości zmiennej,
uporządkowane od najmniejszej do największej. W drugiej - liczba osób (częstość), które udzieliły

takiej  odpowiedzi.  W trzeciej  kolumnie  liczba  została  zamieniona  na  procent  osób,  które  udzieliły
takiej  odpowiedzi  -  jest  to wynik  dzielenia  liczby osób  udzielających takiej odpowiedzi  przez  liczbę
osób, którym zadano to pytanie. W kolumnie czwartej znajduje się procent ważnych odpowiedzi.
Jest to wynik dzielenia przez  liczbę osób, które odpowiedziały na zadane pytanie. Osoby, które

pominęły to pytanie celowo lub przez nieuwagę, nie są uwzględniane przy wyliczaniu procentów. To,
czy odpowiedź „trudno powiedzieć” zostanie zakwalifikowana jako brak danych, zależy od interpretacji
badacza. W analizowanym przykładzie tylko dwie osoby nie mają zapisanej odpowiedzi, więc
„procent” różni się od „procentu ważnych” nieznacznie. W pytaniu o satysfakcję z pracy, którego nie

zadaje się bezrobotnym i emerytom, różnice między tymi procentami są duże.

Piąta kolumna zawiera procent skumulowany, który mówi nam o tym, jaki procent próby

uzyskał wynik mniejszy lub równy danej wartości. Procent skumulowany jest wynikiem dodawania
„procentów ważnych”. Procent skumulowany dla X = 2 (respondent ma co najwyżej dwoje dzieci) jest

sumą procentów ważnych odpowiedzi dla X = 0, X = 1, X = 2.

Tab. 2.5. Rozkład zmiennej LICZBA DZIECI na podstawie próby reprezentatywnej dorosłych Polaków

Wartości zmiennej

Częstość Procent Procent ważnych Procent

skumulowany

0 nie ma dzieci

317

25,878

25,920

1 jedno

223

18,204

18,234

44,154

2 dwoje

364

29,714

29,763

73,917

3 troje

184

15,020

15,045

88,962

4 czworo

6,449

6,460

95,421

5 pięcioro

1,959

1,962

97,383

6 sześcioro

1,306

1,308

98,692

7 siedmioro

0,653

0,654

99,346

8 ośmioro lub więcej 8

0,653

0,654

100,000

Ogółem

1223

99,837

100,000

9 brak danych

0,163

ogółem

1225

100

Źródło: PGSS 2005

Rozkład zmiennej możemy przedstawić też graficznie: na osi poziomej przedstawione są

wartości zmiennej (pogrupowane, jeśli zachodzi taka konieczność) a na osi pionowej częstość
występowania tej wartości w zbiorze danych.

G. Wieczorkowska & J. Wierzbiński (2005)

Tab. 2.6. Rozkład zmiennej WZROST w próbie dorosłych Polaków

Wzrost

Liczba osób Procent Procent

skumulowany

Proporcja

skumulowana

160

1,005

0,010

161

0,168

1,173

0,002

0,012

162

1,340

2,513

0,013

0,025

163

0,503

3,015

0,005

0,030

164

1,675

4,690

0,017

0,047

165

1,843

6,533

0,018

0,065

166

0,838

7,370

0,008

0,074

167

2,178

9,548

0,022

0,095

168

3,183

12,730

0,032

0,127

169

1,508

14,238

0,015

0,142

170

12,730

26,968

0,127

0,270

171

1,173

28,141

0,012

0,281

172

5,695

33,836

0,057

0,338

173

3,183

37,018

0,032

0,370

174

2,848

39,866

0,028

0,399

175

7,370

47,236

0,074

0,472

176

14,908

62,144

0,149

0,621

177

1,340

63,484

0,013

0,635

178

8,710

72,194

0,087

0,722

179

1,675

73,869

0,017

0,739

180

8,543

82,412

0,085

0,824

181

1,173

83,585

0,012

0,836

182

3,685

87,270

0,037

0,873

183

2,513

89,782

0,025

0,898

184

1,005

90,787

0,010

0,908

185

2,010

92,797

0,020

0,928

186

2,345

95,142

0,023

0,951

187

1,005

96,147

0,010

0,961

188

1,340

97,487

0,013

0,975

189

0,335

97,822

0,003

0,978

190

0,670

98,492

0,007

0,985

191

0,168

98,660

0,002

0,987

192

0,335

98,995

0,003

0,990

193

0,168

99,162

0,002

0,992

194

0,168

99,330

0,002

0,993

195

0,168

99,497

0,002

0,995

198

0,335

99,832

0,003

0,998

200

0,168

100,000

0,002

1,000

Ogółem 597

100

Źródło: PGSS 2005

Z tabeli 2.6 możemy odczytać, że procent mężczyzn niższych niż 165 cm wynosi

w zaokrągleniu 4,69. Oznacza to, że prawdopodobieństwo, że wylosowany Polak będzie niższy od

165 cm, wynosi w zaokrągleniu 0,0469.

Proporcja nazywana jest także frakcją lub częstością względną.

G. Wieczorkowska & J. Wierzbiński (2005)

Analogicznie - procent mężczyzn, którzy mają więcej niż 181 cm wzrostu, wynosi w

zaokrągleniu 100 - 83,585 = 16,415. Oznacza to, że prawdopodobieństwo, że wylosowany Polak

będzie miał co najmniej 181 cm, wynosi 0,16415.
Analogicznie - procent mężczyzn, którzy mają nie więcej niż 180 cm wzrostu, wynosi w zaokrągleniu
82,412. Oznacza to, że prawdopodobieństwo, że wylosowany Polak nie będzie wyższy niż 180 cm,
wynosi 0,824.

Podsumowując - znając rozkład zmiennej, możemy wyliczyć prawdopodobieństwa

przyjęcia przez zmienną wartości znajdujących się w określonym przedziale.

Czasami zamiast korzystania z rozkładu empirycznego możemy posłużyć się rozkładem

teoretycznym, opisanym odpowiednim równaniem matematycznym.

2.5. Rozkład normalny (krzywa Gaussa)

Wiele zmiennych w populacji ma rozkład normalny, który można opisać za pomocą krzywej

normalnej (Gaussa). Ma ona kształt dzwonu, który jest symetryczny względem średniej równej
modalnej (modzie) i medianie

rozkładu. Lewa i prawa gałąź rozkładu zbliża się asymptotycznie do

osi poziomej (nigdy jej nie przecina).

34,13%

13,59%

2,15%

0,13%

2,15%

Rozkład X N(100, 10)

Jednostki Z

120

110

100

130

-2

-1

N(0,1)

Rys. 2.5. Rozkład normalny

Około 68,27% powierzchni pod krzywą mieści się w granicach jednego odchylenia

standardowego na prawo i lewo od średniej. Pole obszaru w granicach od z = –1,96 do z = +1,96

obejmuje  95%  powierzchni  pod  krzywą,  a  od  z  =  –2,58  do  z  =  +2,58  obejmuje  99%  całkowitej
powierzchni pod krzywą, przy czym odpowiednio 5% i 1% mieści się poza tymi granicami.

Mediana i wartość modalna (dominanta) to miary tendencji centralnej używane także dla skal nieilościowych

(nominalnych i porządkowych). Modalna (moda) określa wartość najczęściej występującą w rozkładzie. Mediana zaś
powinna dzielić rozkład wyników na połowy. W rozkładzie liczby dzieci [tabela 2.5] najczęściej występującą liczbą jest 2.
Wyznaczenie mediany nie jest proste, ponieważ nie jest to zmienna ciągła. Zachęcamy do lektury

[20,21]

dotyczącej miar

tendencji centralnej.

G. Wieczorkowska & J. Wierzbiński (2005)

Równanie krzywej normalnej zależy tylko od dwóch parametrów: średniej i odchylenia

standardowego. Ma to podstawowe znaczenie praktyczne - pozwala wyznaczyć rozkład zmiennej,

jeżeli znamy średnią oraz odchylenie standardowe i wiemy, że jest to rozkład normalny. Powierzchnia
pod krzywą normalną odpowiada 100% przypadków.

Bardzo ważną własnością krzywej normalnej jest to, że powierzchnia pod krzywą (czyli

proporcja przypadków) w przedziale od średniej do jakiegokolwiek punktu zależy tylko od

odległości tego punktu od średniej wyrażonej w jednostkach odchylenia standardowego.

Między średnią i punktem, który oddalony jest od niej o jedno odchylenie standardowe, mieści

się zawsze 0,3413 powierzchni pod krzywą - bez względu na to, czy analizujemy rozkład wzrostu,
wagi, inteligencji, czy jakiejkolwiek innej zmiennej. Wielkość obszaru pod krzywą, czyli proporcja

przypadków, ma bardzo duże znaczenie - ponieważ wyznacza prawdopodobieństwo, że
zmienna przyjmie wartość z tego przedziału. Na rysunku 2.5 widzimy, że w odległości ±2 odchyleń
standardowych od średniej znajduje się ponad 90% przypadków. W tabeli poniżej znajdują się
używane określenia słowne

[21]

dla wyników w różnym stopniu odległych od średniej rozkładu.

z<-3

-3<z<-2 -2<z<-1 -1<z<1 1<z<2 2<z<3 z>3

wyjątkowo
małe

bardzo
małe

małe

typowe duże

bardzo
duże

wyjątkowo
duże

Warto zapamiętać, że zapis N(μ, σ)

oznacza, że zmienna ilościowa ma rozkład normalny o

średniej μ i odchyleniu standardowym σ.

Pamiętajmy, że rozkład normalny jest zdefiniowany dla zmiennych ciągłych. W rezultacie

musimy pamiętać, że prawdopodobieństwo, że badana zmienna przyjmuje konkretną wartość, jest
równe zeru: p(X =35)=0. Przykładem zmiennej ciągłej może być wzrost. Jeżeli zmierzymy czyjś

wzrost, otrzymując np. 173 cm, musimy pamiętać, że jest to tylko wartość przybliżona, zależna od
dokładności naszej miarki. Osoby w grupie ludzi o wzroście 173 cm mogą się od siebie pod względem
tej zmiennej różnić, ale nasze urządzenie pomiarowe może nie być wystarczająco dokładne, aby to
wykryć. Jeżeli nawet weźmiemy dokładniejszą miarkę, która pozwala na pomiar z dokładnością do

milimetrów,  mikrometrów  czy  nanometrów,  to  i  tak  pozostaje  pewien  margines  błędu.  Nigdy  nie
możemy  mieć  pewności,  że  dana  osoba  ma  dokładnie  173  cm  wzrostu,  a  odzwierciedleniem  tego
faktu jest właśnie określenie prawdopodobieństwa, że X =173 (dokładnie), jako równego zeru. Dlatego
dla  zmiennych  ciągłych  zawsze  obliczamy  prawdopodobieństwa,  że  zmienna  przyjmie  wartość

należącą do jakiegoś przedziału, a nie równą jakiejś liczbie.

W przypadku zmiennej ciągłej prawdopodobieństwa wypisane w ramce poniżej są sobie

równe.

p(z

<z<z

) = p(z

≤z≤z

) = p(z

≤z<z

) = p(z

<z≤z

)

Rozkład normalny jest symetryczny, więc tyle samo przypadków mieści się między średnią

a wynikiem: z = 1 (0 < z < 1), jak i między średnią a wynikiem: z = –1 (–1 < z < 0).
W sumie 0,6826 (2 x 0,3413) przypadków mieści się w odległości jednego odchylenia standardowego

(–1 < z < 1) od średniej.

W odległości dwóch odchyleń standardowych (–2 < z < 2) mieści się ponad 95% (2 x 0,4773)

przypadków.

W odległości trzech odchyleń standardowych (–3 < z < 3) mieszczą się praktycznie wszystkie

przypadki, chociaż teoretycznie krzywa normalna biegnie nieskończenie daleko i nigdy nie osiąga

Parametry populacji oznaczamy greckimi: μ [mi] i σ [sigma].

G. Wieczorkowska & J. Wierzbiński (2005)

wartości zerowej (nie przecina osi OX). Otrzymanie dla rozkładu normalnego z > 5 lub z < –5 jest więc
możliwe, ale niesłychanie mało prawdopodobne.

Korzystając z tablic rozkładu normalnego (tablica 2.1), możemy wyznaczyć pole pod krzywą

normalną, odcięte przez dowolne dwa punkty. Aby to uczynić, musimy zamienić wartości naszej
zmiennej na wyniki standaryzowane. W tablicy odnajdujemy interesującą nas wartość z

i odczytujemy wartość p

= p(z>z

)

Przykład: dla z

=1,96 p

=p(z>1,96)=p(z<-1,96)= 0,025

Omówiona wcześniej standaryzacja zachowuje kształt rozkładu wyjściowego. Rozkład

standaryzowanych wyników zmiennej LICZBA DZIECI będzie miał kształt rozkładu przedstawionego
na rysunku 2.4 - z tą różnicą, że średnia rozkładu standaryzowanego zawsze wynosi 0,
a odchylenie standardowe równe jest 1.

Standaryzacja rozkładu normalnego N(μ, σ) powoduje przekształcenie go w rozkład normalny

standaryzowany N(0, 1). W ten sposób niezależnie od tego, czy interesuje nas wzrost dorosłych
mężczyzn N(175, 6) czy inteligencja N(100, 15), korzystać będziemy z tych samych tablic dla wartości
z. Tablice są przygotowane dla wartości standaryzowanych, a więc są uniwersalne.

Wartość z

dzieli połowę obszaru pod krzywą normalną na dwie części : p

(od średniej do z

) i p

(od z

do końca

rozkładu).

G. Wieczorkowska & J. Wierzbiński (2005)

Tablica 2.1.

Rozkład normalny N(0,1)

0,5000 0,5

0,3085 1

0,1587 1,5

0,0668 2

0,0228 2,5

0,0062

0,0013

0,01 0,4960 0,51 0,3050 1,01 0,1562 1,51 0,0655 2,01 0,0222 2,51 0,0060

3,01 0,0013

0,02 0,4920 0,52 0,3015 1,02 0,1539 1,52 0,0643 2,02 0,0217 2,52 0,0059

3,02 0,0013

0,03 0,4880 0,53 0,2981 1,03 0,1515 1,53 0,0630 2,03 0,0212 2,53 0,0057

3,03 0,0012

0,04 0,4840 0,54 0,2946 1,04 0,1492 1,54 0,0618 2,04 0,0207 2,54 0,0055

3,04 0,0012

0,05 0,4801 0,55 0,2912 1,05 0,1469 1,55 0,0606 2,05 0,0202 2,55 0,0054

3,05 0,0011

0,06 0,4761 0,56 0,2877 1,06 0,1446 1,56 0,0594 2,06 0,0197 2,56 0,0052

3,06 0,0011

0,07 0,4721 0,57 0,2843 1,07 0,1423 1,57 0,0582 2,07 0,0192 2,57 0,0051

3,07 0,0011

0,08 0,4681 0,58 0,2810 1,08 0,1401 1,58 0,0571 2,08 0,0188 2,58 0,0049

3,08 0,0010

0,09 0,4641 0,59 0,2776 1,09 0,1379 1,59 0,0559 2,09 0,0183 2,59 0,0048

3,09 0,0010

0,1

0,4602 0,6

0,2743 1,1

0,1357 1,6

0,0548 2,1

0,0179 2,6

0,0047

3,1

0,0010

0,11 0,4562 0,61 0,2709 1,11 0,1335 1,61 0,0537 2,11 0,0174 2,61 0,0045

3,11 0,0009

0,12 0,4522 0,62 0,2676 1,12 0,1314 1,62 0,0526 2,12 0,0170 2,62 0,0044

3,12 0,0009

0,13 0,4483 0,63 0,2643 1,13 0,1292 1,63 0,0516 2,13 0,0166 2,63 0,0043

3,13 0,0009

0,14 0,4443 0,64 0,2611 1,14 0,1271 1,64 0,0505 2,14 0,0162 2,64 0,0041

3,14 0,0008

0,15 0,4404 0,65 0,2578 1,15 0,1251 1,65 0,0495 2,15 0,0158 2,65 0,0040

3,15 0,0008

0,16 0,4364 0,66 0,2546 1,16 0,1230 1,66 0,0485 2,16 0,0154 2,66 0,0039

3,16 0,0008

0,17 0,4325 0,67 0,2514 1,17 0,1210 1,67 0,0475 2,17 0,0150 2,67 0,0038

3,17 0,0008

0,18 0,4286 0,68 0,2483 1,18 0,1190 1,68 0,0465 2,18 0,0146 2,68 0,0037

3,18 0,0007

0,19 0,4247 0,69 0,2451 1,19 0,1170 1,69 0,0455 2,19 0,0143 2,69 0,0036

3,19 0,0007

0,2

0,4207 0,7

0,2420 1,2

0,1151 1,7

0,0446 2,2

0,0139 2,7

0,0035

3,2

0,0007

0,21 0,4168 0,71 0,2389 1,21 0,1131 1,71 0,0436 2,21 0,0136 2,71 0,0034

3,21 0,0007

0,22 0,4129 0,72 0,2358 1,22 0,1112 1,72 0,0427 2,22 0,0132 2,72 0,0033

3,22 0,0006

0,23 0,4090 0,73 0,2327 1,23 0,1093 1,73 0,0418 2,23 0,0129 2,73 0,0032

3,23 0,0006

0,24 0,4052 0,74 0,2296 1,24 0,1075 1,74 0,0409 2,24 0,0125 2,74 0,0031

3,24 0,0006

0,25 0,4013 0,75 0,2266 1,25 0,1056 1,75 0,0401 2,25 0,0122 2,75 0,0030

3,3

0,0005

0,26 0,3974 0,76 0,2236 1,26 0,1038 1,76 0,0392 2,26 0,0119 2,76 0,0029

3,4

0,0003

0,27 0,3936 0,77 0,2206 1,27 0,1020 1,77 0,0384 2,27 0,0116 2,77 0,0028

3,5

0,0002

0,28 0,3897 0,78 0,2177 1,28 0,1003 1,78 0,0375 2,28 0,0113 2,78 0,0027

3,6

0,0002

0,29 0,3859 0,79 0,2148 1,29 0,0985 1,79 0,0367 2,29 0,0110 2,79 0,0026

3,7

0,0001

0,3

0,3821 0,8

0,2119 1,3

0,0968 1,8

0,0359 2,3

0,0107 2,8

0,0026

0,31  0,3783  0,81  0,2090  1,31  0,0951  1,81  0,0351  2,31  0,0104  2,81  0,0025
0,32  0,3745  0,82  0,2061  1,32  0,0934  1,82  0,0344  2,32  0,0102  2,82  0,0024
0,33  0,3707  0,83  0,2033  1,33  0,0918  1,83  0,0336  2,33  0,0099  2,83  0,0023
0,34  0,3669  0,84  0,2005  1,34  0,0901  1,84  0,0329  2,34  0,0096  2,84  0,0023
0,35  0,3632  0,85  0,1977  1,35  0,0885  1,85  0,0322  2,35  0,0094  2,85  0,0022
0,36  0,3594  0,86  0,1949  1,36  0,0869  1,86  0,0314  2,36  0,0091  2,86  0,0021
0,37  0,3557  0,87  0,1922  1,37  0,0853  1,87  0,0307  2,37  0,0089  2,87  0,0021
0,38  0,3520  0,88  0,1894  1,38  0,0838  1,88  0,0301  2,38  0,0087  2,88  0,0020
0,39  0,3483  0,89  0,1867  1,39  0,0823  1,89  0,0294  2,39  0,0084  2,89  0,0019
0,4

0,3446 0,9

0,1841 1,4

0,0808 1,9

0,0287 2,4

0,0082 2,9

0,0019

0,41  0,3409  0,91  0,1814  1,41  0,0793  1,91  0,0281  2,41  0,0080  2,91  0,0018
0,42  0,3372  0,92  0,1788  1,42  0,0778  1,92  0,0274  2,42  0,0078  2,92  0,0018
0,43  0,3336  0,93  0,1762  1,43  0,0764  1,93  0,0268  2,43  0,0075  2,93  0,0017
0,44  0,3300  0,94  0,1736  1,44  0,0749  1,94  0,0262  2,44  0,0073  2,94  0,0016
0,45  0,3264  0,95  0,1711  1,45  0,0735  1,95  0,0256  2,45  0,0071  2,95  0,0016
0,46  0,3228  0,96  0,1685  1,46  0,0721  1,96  0,0250  2,46  0,0069  2,96  0,0015
0,47  0,3192  0,97  0,1660  1,47  0,0708  1,97  0,0244  2,47  0,0068  2,97  0,0015
0,48  0,3156  0,98  0,1635  1,48  0,0694  1,98  0,0239  2,48  0,0066  2,98  0,0014
0,49  0,3121  0,99  0,1611  1,49  0,0681  1,99  0,0233  2,49  0,0064  2,99  0,0014

G. Wieczorkowska & J. Wierzbiński (2005)

Przykład 2.5.1.

Jeżeli dowiedzielibyśmy się, że wzrost polskich mężczyzn ma rozkład normalny o średniej

175 i odchyleniu standardowym 6, możemy wyliczać prawdopodobieństwa, posługując się tablicami
rozkładu normalnego. Możemy np. wyliczyć, jakie jest prawdopodobieństwo, że wylosowany
mężczyzna będzie miał co najmniej 181 cm wzrostu.

Pierwszym krokiem jest zamiana wartości zmiennej na wartości standaryzowane. Przy

założeniu, że wzrost dorosłych mężczyzn ma rozkład normalny N(175,6), 181 cm oznacza z=1.
Z tablic odczytamy, że dla z

=1 p

=p(z>1)=p(z<-1)= 0,1587. Rozbieżność między wynikiem

odczytanym z rozkładu empirycznego (prawdopodobieństwo, że X ≥181, wyniosło 0,164154)
a wynikiem odczytanym z tablic jest efektem następujących różnic:

1. Korzystając z tablic rozkładu normalnego, zakładamy ciągłość zmiennej WZROST, która w

rozkładzie empirycznym była zmienną skokową, i dlatego p(X ≥181) ≠ p(X >181).

2. Rozkład w populacji może mieć inną średnią lub odchylenie standardowe. W naszych

obliczeniach wykorzystaliśmy zaokrąglone wartości średniej i odchylenia standardowego,
pochodzące z próby reprezentatywnej dorosłych mężczyzn.

3. Tak, jak to omawiamy w ostatnim rozdziale, badania sondażowe obarczone są błędami

związanymi zarówno z doborem osób do próby, jak i zniekształceniami odpowiedzi (nie
można wykluczyć, że mężczyźni zawyżali swój wzrost).

Podsumowując:

1. Zanim zaczniemy formułować sądy o liczbach, musimy określić skalę pomiarową.
2. Operacje matematyczne (takie jak dodawanie, mnożenie) są dozwolone tylko dla zmiennych

ilościowych (gdzie określona jest jednostka pomiaru).

3. Podstawowe charakterystyki rozkładu zmiennej ilościowej to średnia arytmetyczna i wariancja

/odchylenie standardowe.

4. Aby porównać dwie liczby pochodzące z różnych rozkładów, należy je najpierw

wystandaryzować.

5. Znajomość rozkładu zmiennej może wynikać z przeprowadzonych badań lub naszej wiedzy

na temat danej zmiennej. W obu przypadkach znajomość rozkładu pozwala wyliczać
prawdopodobieństwa tego, że w badaniach empirycznych otrzymamy wartość zmiennej

z danego przedziału.