background image

G. Wieczorkowska & J. Wierzbiński (2005) 

Rozdział 2  

Co to znaczy, że wyniki badań są istotne statystycznie? 

 
 

W  poprzednim  rozdziale  powiedzieliśmy,  że  aby  dowieść  wpływu  zielonej  herbaty, 

powinniśmy  porównać  średni  poziom  energii  w  dwóch  grupach.  W  tym  celu  musimy  przedstawić 
poziom  energii  w  postaci  liczb,  a  następnie  stwierdzić,  jaką  różnice  uznamy  za  wystarczającą  
– istotną statystycznie. W tym rozdziale spróbujemy wytłumaczyć, jak to robimy. 

Liczby  wykorzystywane  w  naukach  społecznych  maja  różne  znaczenie.  Pierwsze  pytanie, 

jakie musimy zadać, dotyczy skali pomiarowej. 
  

2.1. Skale pomiarowe 

 

Wyobraźmy sobie, że chcemy sprawdzić, jakie są preferencje naszych studentów dotyczące 

form egzaminowania - należymy do bardzo liberalnych wykładowców, więc chcemy dowiedzieć się, 

jaka forma zaliczenia najbardziej odpowiadałaby studentom. Dopuszczamy następujące formy: 

1.  egzamin testowy, 
2.  esej pisany w domu, 
3.  egzamin ustny. 

W jaki sposób sprawdzimy preferencje studentów? Możemy na zajęciach omawiać poszczególne 

opcje,  obserwując  równocześnie  reakcje  studentów  i  klasyfikując  je  -  np.  w  następujące  kategorie 
(załóżmy, że są one rozłączne): 

1.  zmarszczenie brwi, 

2.  rozmowa z sąsiadem, 
3.  patrzenie w okno, 
4.  reakcja werbalna (zadawanie pytań, komentarze). 

 

Przy kodowaniu takich wyników do komputera (tabela 2.1) możemy używać dowolnych liczb, np.: 

1,  2,  3,  4  lub:  32,  14,  -9,  7,  ponieważ  przekazują  one  informację,  że  opisywane  reakcje  zostały 
zakwalifikowane jako różne. Tego rodzaju „pomiar” (przypisanie reakcjom studentów liczb) określany 

jest jako nominalny (jakościowy). 
 
Tab. 2.1. Sposób kodowania zmiennej ze skali nominalnej. Użyte cyfry: 1, 2, 3, 4 oznaczają 
WYŁĄCZNIE numery kategorii 

 
 

Pomiar  preferencji  możemy  skomplikować,  prosząc  o  porangowanie  tych  trzech  form  -  od 

najbardziej do najmniej preferowanej (tabela 2.2). 
 
 

Tab.  2.2  Sposób  kodowania  zmiennej  ze  skali  porządkowej.  Cyfra  1  oznacza  opcję  najbardziej 
preferowaną, 3 – najmniej 
 

Ustny 

Testowy 

Esej 

 

Ustny 

Testowy  

Esej 

Osoba A 

Osoba B 

Osoba C 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

Osoba A 

Osoba B 

Osoba C 

 

 

W  ten  sposób  dowiadujemy  się  więcej  o  preferencjach  pojedynczej  osoby  (np.  osoba  A 

najbardziej preferuje egzamin ustny, a najmniej pisanie eseju), ale nadal nie wiemy, jak silnie odrzuca 
pracę pisaną w domu. Może różnice w preferencjach między tymi formami egzaminu są nieznaczne, 

ale mogą też być bardzo duże. Ten typ pomiaru nazywany jest skalą porządkową. 

Możemy  także  poprosić  studentów  o  wypełnienie  krótkiej  ankiety,  w  której  te  trzy  formy 

egzaminu byłyby oceniane na następującej skali: 
 

Zdecydowanie  nie 
odpowiada mi. 

Nie  odpowiada 
mi. 

Nie 

mam 

zdania. 

Odpowiada mi. 

Zdecydowanie 
odpowiada mi. 
 

 
 

Choć  puryści  metodologiczni  nie  chcą  tego  zaakceptować,  w  naukach  społecznych 

powszechnie tego typu pomiar uznaje się za skalę przedziałową, czyli uznaje się, że różnica między 
„nie  odpowiada  mi”  a  „zdecydowanie  odpowiada  mi”  jest  taka  sama,  jak  różnica  między  „nie 
odpowiada mi” i  „nie mam  zdania”. Problem opisu tego typu skal, sposobu traktowania odpowiedzi 
„nie  mam  zdania”,  jest  omówiony  w  literaturze  –  dlatego  pominiemy  go  w  naszym  maksymalnie 

uproszczonym  przykładzie  dydaktycznym.  Dla  skali  ilościowej,  która  pozwala  na  wykonywanie 
operacji matematycznych, konieczne jest zdefiniowanie jednostki skali.  
 

Tab. 2.3. Sposób kodowania zmiennej ze skali przedziałowej. Użyte cyfry (1,2,3,4,5) oznaczają 
wartości na skali odpowiedzi 
 

Ustny 

Testowy 

Esej 

Osoba A 

Osoba B 

Osoba C 

 

W tym przypadku możemy zobaczyć, że najmniej preferowana opcja odpowiada poglądowi 

„nie mam zdania” dla osoby A i „zdecydowanie nie odpowiada mi” dla osoby B. Informacje zawarte w 
tabeli 2.3 przedstawiliśmy na rysunku 2.1. 
 

 

Rys. 2.1. Ilustracja graficzna preferencji opisanych w tabeli 2.3 

 

Testowy 

Ustny 

Ustny 

Esej 

NIE 

Nie mam zdania 

TAK 

Osoba A 

Osoba B 

Osoba C 

Esej 

Esej 

Ustny 

Testowy 

Testowy 

Zdecydowanie NIE 

Zdecydowanie TAK 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

Jeżeli  chcemy  pomiar  wysublimować  ,  możemy  prosić  o  udzielenie  odpowiedzi  przy 

komputerze,  gdzie  zadaniem  studenta  jest  wybór  odpowiedzi  TAK  lub  NIE  przy  każdej  formie 

egzaminu - wskaźnikiem siły preferencji będzie dla nas czas podejmowania decyzji. Można założyć, 
że szybkie TAK świadczy o silnie pozytywnym przekonaniu, a szybkie NIE o silnym odrzuceniu opcji. 
Jeżeli od czasu odpowiedzi NIE odejmiemy stałą zależną od czasów występujących w badaniu, np. 
100, zaś od czasu odpowiedzi TAK odejmiemy także 100, otrzymamy „ładną” skalę pomiarową, gdzie 

wysokie wyniki będą oznaczały pozytywne preferencje.  
 

Podsumowując: oglądając liczby (np. w komputerze) należy zawsze pamiętać, z jakiej skali 

pomiarowej  pochodzą.  Komputer  z  łatwością  policzy  średnią  z  kategorii,  ale  wiemy,  że  mimo 

podobieństwa  liczb  sugerowane  przez  nie  uporządkowanie  kategorii  nie  istnieje.  Ponieważ  jedyna 
informacja  polega  na  odróżnianiu  reakcji  na  różne  opcje,  równie  dobrze  moglibyśmy  zakodować 
kategorie za pomocą liczb: -7, 12, 3, 79. 
  

O  możliwych  przekształceniach  ze  skal  nominalnych  i  porządkowych  warto  przeczytać  w 

literaturze

[20]

.

  Dalsze  rozważania ograniczymy  jedynie do  zmiennych  ilościowych,  gdy  zdefiniowana 

jest jednostka pomiaru.  
 

2.2. Podstawowe statystyki opisowe dla skal ilościowych 

 

Chcąc  porównać  wyniki  kobiet  i  mężczyzn  w  teście  wyobraźni  przestrzennej,  możemy 

oceniać  różnice  „na  oko”,  ale  zdecydowanie  lepszym  pomysłem  jest  posługiwanie  się  pewnymi 
liczbami, które służą do opisu rozkładu wyników. Liczby wyliczane na podstawie próby wyników 

nazywane są statystykami. 
 

Podstawowe statystyki opisowe można pogrupować na miary tendencji centralnej, opisujące 

położenie  wyników,  oraz  miary  dyspersji,  które  opisują  rozproszenie  wyników.  Najczęściej 

wykorzystywaną miarą tendencji centralnej jest średnia arytmetyczna wyrażona wzorem:  

 

n

X

X

X

n

X

M

n

...

2

1

 

gdzie 

n

X

X

X

,...

,

2

1

 to wyniki poszczególnych osób, a N  to liczba osób w próbie. 

 

Przykład: jeśli w teście pięć osób uzyskało odpowiednio: 2, 2, 6, 7 i 8 punktów, średnia wynosi 

5 punktów.  
 

Średnią wyników w próbie oznaczamy literą M od angielskiego słowa mean. W wielu podręcznikach 

średnia dla próby oznaczana jest także jako 

.  

M

X

 

 
 
2.2.1  Miary rozproszenia wokół średniej 
 

Choć  może  to  wyglądać  niezbyt  poważnie  ,  podstawowe  pojęcia  statystyczne  tłumaczyć 

będziemy, porównując wysokości kwiatków w doniczkach. Doświadczenie dydaktyczne nauczyło mnie 
(gw), że ilustrowanie liczb w ten sposób bardzo ułatwia zrozumienie. 

Porównajmy zatem dwa zbiory wyników (wysokości kwiatków w doniczkach): 

 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

 

 

 

Rys. 2.2. Porównanie dwóch rozkładów o tej samej średniej, a różnej wariancji 

 

W  obu  doniczkach  średnia  wysokość  kwiatków  wynosi  180.  To,  co  je  różni,  to  stopień 

skupienia  wyników  wokół  średniej.  Dla  każdego  kwiatka  możemy  obliczyć  jego  „odległość”  od 
średniej,  odejmując  od  X    (wysokość  kwiatka)  M  (średnią  arytmetyczną  wysokości  wszystkich 

kwiatków  w  danej  doniczce).  Zsumowanie  podniesionych  do  kwadratu  różnic  X  -M  da  nam  miarę 
rozproszenia  wyników  wokół  średniej
,  oznaczaną  jako  SS  (sum  of  squares).  Suma  kwadratów 
odchyleń od średniej zazwyczaj

1

 rośnie wraz ze wzrostem liczby osób w próbie.  

Aby nasza miara nie zależała od wielkości próby, musimy uśrednić SS, dzieląc ją przez liczbę 

stopni swobody określoną na podstawie liczebności próby (n-1). W naszej doniczce jest 7 kwiatków, 
zatem  n=7,  czyli  n-1=6.  Wynikiem  tych  obliczeń  jest  podstawowa  miara  rozproszenia  dla  próby, 
nazywana wariancją

 

 

 

W  statystyce  często  wykorzystujemy  pierwiastek  z  wariancji,  określany  jako  odchylenie 

standardowe

 

 

 

W  tabeli  poniżej  policzona  została  wariancja  i  odchylenie  standardowe  dla  obu 

przedstawionych na rysunku doniczek.  
 

Tab. 2.4. Ilustracja sposobu wyliczania wariancji i odchylenia standardowego dla danych z rysunku 
2.2 

                                                 

1

 Wyjątkiem jest sytuacja, gdy dodatkowe wyniki mają wynik równy średniej, ponieważ wtedy ich odchylenia od średniej 

równe są zeru. 
 

 

 

2

 

 

 

s

 

s

 

2

 

 

 


 

SS 

s 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

 

 

Pojęcia odchylenia standardowego i wariancji są najważniejsze ze statystyk opisowych jednej 

zmiennej  i  zawierają  tę  samą  informację.  Znając  wariancję,  znamy  odchylenie  standardowe  
-  i  odwrotnie.  Odgrywają  one  również  kluczową  rolę  w badaniu  współzależności  pomiędzy  dwiema 
(i więcej) zmiennymi.  

 

2.3. Standaryzacja 

 
Formułując  dowolny  sąd,  nie  tylko  o  liczbach,  należy  zawsze  określić  standard  porównań. 

Jeśli chcę powiedzieć, że Antek jest wysoki, muszę określić w porównaniu do kogo. Antek jest wysoki, 
jeśli porównuję go do innych szóstoklasistów - lub niski, jeśli porównuję go z jego starszym bratem. 

Jeżeli chcę określić, jak wysoki jest kwiatek, rozsądnym wydaje się być pytanie o relację do średniej w 
doniczce. 

Najprostszą  metodą  porównania  wartości  zmiennej  jest  CENTROWANIE,  czyli  zamiana 

wartości  w odległość od średniej. Gdy różnica M jest większa od zera, kwiatek jest wyższy niż 

przeciętna  w  doniczce,  gdy  ujemna  -  kwiatek  jest  niższy.  Odległość  od  średniej  może  być  mylącą 
informacją, ponieważ - jak widzimy na rysunku (rysunek 2.3) - w obu doniczkach mamy identyczną 
średnia = 180 i kwiatek o wysokości 362, dla którego w wyniku centrowania M wyniesie 182. W 
prawej doniczce zróżnicowanie kwiatków jest większe, zatem „unikalność” kwiatka o wysokości 362 

jest  mniejsza.  Metodą  uwzględniania  zróżnicowania  jest  dzielenie  X  -  M  przez  odchylenie 
standardowe. 
 

Doniczka lewa 

  Doniczka prawa 

X  

-M  (-M)

2

    X  

-M  (-M)

2

 

230  50 

2500 

  316  136 

18496 

194  14 

196 

  89 

-91 

8281 

172  -8 

64 

  279  99 

9801 

155  -25 

625 

  114  -66 

4356 

167  -13 

169 

  283  103 

10609 

181  1 

  41 

-139 

19321 

161  -19 

361 

  138  -42 

1764 

SS =  (X  – M)²=3916 
s

2

=652,667 

s=25,547 

  SS =  (X  – M)²=72628 

s

2

=12104,67 

s=110,021 

 
 
 

Różnica  wariancji  obu  rozkładów  i ich  odchyleń 
standardowych  wskazuje,  że  drugi  rozkład 
charakteryzuje  się  większym  rozproszeniem 
wyników wokół średniej niż rozkład pierwszy. 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

 

 

Rys. 2.3. Ilustracja standaryzacji wyników. Kwiatki z ujemnymi wynikami standaryzowanymi zostały 

narysowane „do góry nogami” 

 

Standaryzacja  polega  na  zamianie  wyników  surowych  (X  )  w  wyniki  standaryzowane  (z). 

Standaryzować  możemy  wyłącznie  zmienne  ilościowe  -  bo  tylko  wtedy  możemy  policzyć  średnią 
i odchylenie standardowe.  

Standaryzacja  przekształca  rozkład  każdej  zmiennej  ilościowej  (pod  warunkiem,  że  jego 

odchylenie  standardowe  nie  wynosi  zero)  w rozkład  o średniej  równej  zero  i odchyleniu 
standardowym wynoszącym jeden
.  
 

.

stand

odchylenie

średnia

wynik

z

 czyli 

s

M

X

z

 

 

Wynik standaryzowany z pokazuje, o ile odchyleń standardowych uzyskany przez nas wynik 

jest  położony  poniżej  (gdy  z  <  0)  lub  powyżej  (gdy  z  >  0)  średniej.  Innymi  słowy  -  jak  daleko 
(w jednostkach  odchylenia  standardowego)  leży  nasz  wynik  od  średniej.  Dla  X    =  M  wynik 
standaryzowany wynosi zero.  

Na rysunku 2.3 kwiatki z ujemnymi „zetami” zostały narysowane „do góry nogami”.  

W lewej doniczce wynik standaryzowany dla kwiatka o wysokości 362 wynosi 1,02. Oznacza 

to, że znajduje się on w swojej doniczce ponad jedno odchylenie standardowe powyżej średniej.  

W prawej doniczce wynik standaryzowany dla kwiatka o wysokości 362 wynosi 2,25. Oznacza 

to, że znajduje się on w swojej doniczce więcej niż dwa odchylenia standardowe powyżej średniej

  

Standaryzacja pozwala porównać dwie liczby wyrażone oryginalnie w różnych jednostkach, 

np.  wyniki  dwóch  studentów  piszących  egzamin  ze  statystyki  na  różnych  uczelniach.  Jeżeli  Darek 
otrzymał w teście 17 punktów, a Andrzej 12, nic nie możemy powiedzieć, dopóki nie wiemy, jaka była 

średnia  i  odchylenie  standardowe  na  obu  uczelniach.  Jeżeli  w  uczelni  Darka  M  =  15,  s  =  2,  a  w 
uczelni Andrzeja = 11, = 1, obaj uzyskali wynik z = 1, a więc ich wyniki są równoważne. 
 
 

 
 

2.4. Rozkład zmiennej 

  

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

Nie musimy już chyba Czytelnika przekonywać, że zanim powiemy cokolwiek o jakiejś liczbie, 

musimy zapytać, z jakiego rozkładu (doniczki ) pochodzi. 

Pierwszym  krokiem  w  analizie  jest  sprawdzenie  rozkładów  naszych  zmiennych.  Mówiąc 

najprościej,  rozkład  zmiennej  w  próbie  pokazuje,  jak  często  w  naszej  próbie  występowała  dana 
wartość.  Jeżeli  wśród  30  badanych  było  14 mężczyzn,  co  stanowi  0,47  próby,  to  zmienna  PŁEĆ, 
przyjmująca  wartości  1  –  mężczyzna,  2  –  kobieta,  ma  następujący  rozkład  (1;  0,47)  (2;  0,53)  

-  ponieważ  kobiet  było  16,  co  stanowi  0,53  próby.  W  rozkładzie  zamiast  procentów  podajemy 
proporcje,  ponieważ  są  one  odpowiednikiem  prawdopodobieństwa  definiowanego  w podejściu 
empirycznym (a posteriori). 
  

 

2.4.1 Definicja prawdopodobieństwa 
 

W  szkole  poznaliśmy  klasyczną  definicję  prawdopodobieństwa  (a  priori).  Pomaga  nam 

ona  odpowiedzieć  na  pytania,  które  dotyczą  prawdopodobieństwa  zajścia  różnych  zdarzeń,  bez 

konieczności przeprowadzania doświadczeń weryfikujących wynik. Gdy staramy się dowiedzieć, jakie 
jest  prawdopodobieństwo  wyrzucenia  orła  przy  rzucie  symetryczną  monetą  albo  wyrzucenia  cyfry 
większej  od  4  przy  rzucie  kostką,  nie  musimy  koniecznie  rzucać  monetą  lub  kostką.  Stosując 
klasyczną definicję prawdopodobieństwa, definiujemy prawdopodobieństwa zajścia tych zdarzeń jako 

stosunek liczby zdarzeń sprzyjających do liczby zdarzeń możliwych. Oczywiście milcząco zakładamy, 
że orły będą wypadać tak samo często jak reszki (moneta jest „uczciwa” – nie wyróżnia ani reszki, ani 
orła). Podobnie kostka musi być uczciwa – żadna liczba oczek nie może być wyróżniona. Gdybyśmy 
mieli do czynienia z „oszukaną” kostką lub monetą, klasyczna definicja prawdopodobieństwa nic nam 

nie  da  –  chyba  że  wiemy,  w  jaki  sposób  moneta  czy  kostka  jest  oszukana  (np.  wiemy,  że  orzeł 
wypada dwa razy częściej niż reszka).  

 
W  naukach  społecznych  nie  możemy  stosować  klasycznej  definicji  prawdopodobieństwa, 

gdyż  w  zasadzie  nigdy  nie  znamy  prawdopodobieństw  a  priori  -  dlatego  stosujemy  definicję 
empiryczną
 (albo a posteriori) prawdopodobieństwa. Oznacza to, że aby odpowiedzieć na pytanie, 
jakie  jest  prawdopodobieństwo  spotkania  na  ulicy  w  Warszawie  osoby  rozwiedzionej,  musimy 
przeprowadzić  badania.  Jeżeli  zapytamy  o stan  cywilny  sto  osób  spotkanych  na  ulicy  i cztery 

powiedzą,  że  są  rozwiedzione,  to  będziemy  mogli  stwierdzić,  że  prawdopodobieństwo  spotkania 
osoby rozwiedzionej wynosi 0,04.

2

 To zupełnie inny sposób rozumienia prawdopodobieństwa niż ten 

często spotykany na ulicy – uczestnicy IDOLA na pytanie, jakie jest prawdopodobieństwo, że wygrają, 
odpowiadają  czasami:  „1/2”,  co  w  potocznym  języku  oznacza  50%  szans  na  sukces.  Widząc 

zdziwienie  na  twarzy pytającego,  dana  osoba  wyjaśniła,  że  albo  wygra,  albo przegra, a  w  związku  
z tym są dwie możliwości i stąd prawdopodobieństwo wygrania to 1/2. Wiemy oczywiście, że definicja 
częstościowa  prawdopodobieństwa  nakazywałaby  rozważać  to  zdarzenie  nie  z  punku  widzenia 

indywidualnego  interesu,  ale  z  punktu  widzenia  wszystkich  możliwych  uczestników  IDOLA.  A  to 
oznacza,  że  szansa  wygrania,  jeżeli  nie  wiemy  nic  więcej  na  temat  osoby,  która  startuje,  jest 
równoważna prawdopodobieństwu  obliczonemu  jako  iloraz  „1”  i  liczby  wszystkich  uczestników  tego 
konkursu – jeśli startuje 10 000 osób, szansa pojedynczej osoby na wygranie wynosi 1/10 000. Jeżeli 

wiemy, że ta osoba jest zdecydowanie lepsza od sporej części kandydatów oraz że wśród tych 10 000 
jest  tylko  trzystu,  którzy  mają  odpowiednie  uzdolnienia  wokalne,  moglibyśmy  zaryzykować  tezę,  że 
prawdopodobieństwo, że dana osoba zwycięży, to 1/300.  

Podsumowując:  rozkład  zmiennej  można  przedstawić  jako  zbiór  par  (wartość,  częstość)

gdzie  częstość  oznacza  to,  ile  razy  dana  wartość  wystąpiła  w naszej  próbie  -  wtedy  rozkład  płci 
wygląda następująco: (1, 14) (2, 16), ale poprawniej jest przedstawić rozkład jako zbiór par (wartość, 

                                                 

2

 O tym, jakie warunki muszą być spełnione, abyśmy mogli formułować sądy ogólne na podstawie zbadanej próby, należy 

przeczytać w literaturze 

[15]

 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

prawdopodobieństwo),  gdzie  prawdopodobieństwo  należy  rozumieć  jako  proporcję  osób,  którym 
przypisano daną wartość, w stosunku do całej liczebności próby. 

Podstawowym  sposobem  prezentacji  zmiennej  jest  rozkład  częstości  (frekwencje,  frakcje). 

Rozkład częstości (tabela 2.5) przedstawia wartość danej zmiennej oraz jej częstość pojawiania się. 
W rozkładzie  częstości  mamy  pięć  kolumn.  W pierwszej  wypisane  są  wartości  zmiennej, 
uporządkowane  od  najmniejszej  do  największej.  W drugiej  -  liczba  osób  (częstość),  które  udzieliły 

takiej  odpowiedzi.  W trzeciej  kolumnie  liczba  została  zamieniona  na  procent  osób,  które  udzieliły 
takiej  odpowiedzi  -  jest  to wynik  dzielenia  liczby osób  udzielających takiej odpowiedzi  przez  liczbę 
osób, którym zadano to pytanie
. W kolumnie czwartej znajduje się procent ważnych odpowiedzi
Jest to wynik dzielenia przez  liczbę osób, które odpowiedziały na zadane pytanie. Osoby, które 

pominęły to pytanie celowo lub przez nieuwagę, nie są uwzględniane przy wyliczaniu procentów. To, 
czy odpowiedź „trudno powiedzieć” zostanie zakwalifikowana jako brak danych, zależy od interpretacji 
badacza.  W  analizowanym  przykładzie  tylko  dwie  osoby  nie  mają  zapisanej  odpowiedzi,  więc 
„procent” różni się od „procentu ważnych” nieznacznie. W pytaniu o satysfakcję z pracy, którego nie 

zadaje się bezrobotnym i emerytom, różnice między tymi procentami są duże.  

Piąta  kolumna  zawiera  procent  skumulowany,  który  mówi  nam  o tym,  jaki  procent  próby 

uzyskał  wynik  mniejszy  lub  równy  danej  wartości.  Procent  skumulowany  jest  wynikiem  dodawania 
„procentów ważnych”. Procent skumulowany dla = 2 (respondent ma co najwyżej dwoje dzieci) jest 

sumą procentów ważnych odpowiedzi dla = 0, = 1, = 2. 

 

Tab. 2.5. Rozkład zmiennej LICZBA DZIECI na podstawie próby reprezentatywnej dorosłych Polaków  
 

Wartości zmiennej 

Częstość  Procent  Procent ważnych  Procent 

skumulowany 

0 nie ma dzieci 

317 

25,878 

25,920 

25,920 

1 jedno 

223 

18,204 

18,234 

44,154 

2 dwoje 

364 

29,714 

29,763 

73,917 

3 troje 

184 

15,020 

15,045 

88,962 

4 czworo 

79 

6,449 

6,460 

95,421 

5 pięcioro 

24 

1,959 

1,962 

97,383 

6 sześcioro 

16 

1,306 

1,308 

98,692 

7 siedmioro 

0,653 

0,654 

99,346 

8 ośmioro lub więcej  

0,653 

0,654 

100,000 

Ogółem 

1223 

99,837 

100,000   

9 brak danych 

0,163   

 

ogółem 

1225 

100 

 

 

 

Źródło: PGSS 2005 
 

Rozkład  zmiennej  możemy  przedstawić  też  graficznie:  na  osi  poziomej  przedstawione  są 

wartości  zmiennej  (pogrupowane,  jeśli  zachodzi  taka  konieczność)  a  na  osi  pionowej  częstość 
występowania tej wartości w zbiorze danych. 

 

 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

0

50

100

150

200

250

300

350

400

0

1

2

3

4

5

6

7

8

 

Rys. 2.4. Graficzna prezentacja rozkładu zmiennej LICZBA DZIECI 

 

Znając rozkład zmiennej, możemy odpowiedzieć na pytanie, jakie jest prawdopodobieństwo, 

że  zmienna  przyjmie  określoną  wartość.  Zanim  to  jednak  zrobimy,  wprowadzimy  rozróżnienie  na 

zmienne ciągłe i skokowe. Zmienna skokowa przyjmuje jedynie wyróżnione wartości na osi liczbowej. 
Przykładem takiej zmiennej jest liczba dzieci. Można mieć 0, 1, 2, 3 czy 1000 dzieci, ale nie można 
mieć 1,5 ani 1,25 dziecka. Wartości zmiennej są wyraźnie od siebie oddzielone. Zmienna ciągła może 
przyjąć  dowolną  wartość  na  osi  liczbowej.  Przykładem  zmiennej  ciągłej  jest  czas  wykonywania 

zadania, który możemy podawać w godzinach, minutach, sekundach, milisekundach itd. W praktyce 
nasz sposób pomiaru zmiennych ciągłych czyni te zmienne skokowymi – zaokrąglamy np. wiek 
do całych lat, ale mimo to - w rzeczywistości - jest to zmienna ciągła. 
  
Przykład 2.4.1. 

 
Na  podstawie  rozkładu  zmiennej  WZROST  dla  próby  dorosłych  mężczyzn  określ 

prawdopodobieństwo, że wylosowana osoba ma więcej niż 181 cm wzrostu. 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

10 

Tab. 2.6. Rozkład zmiennej WZROST w próbie dorosłych Polaków 
 

Wzrost 

Liczba osób  Procent  Procent  

skumulowany 

Proporcja

3

  Proporcja 

skumulowana 

160 

1,005 

1,005 

0,010 

0,010 

161 

0,168 

1,173 

0,002 

0,012 

162 

1,340 

2,513 

0,013 

0,025 

163 

0,503 

3,015 

0,005 

0,030 

164 

10 

1,675 

4,690 

0,017 

0,047 

165 

11 

1,843 

6,533 

0,018 

0,065 

166 

0,838 

7,370 

0,008 

0,074 

167 

13 

2,178 

9,548 

0,022 

0,095 

168 

19 

3,183 

12,730 

0,032 

0,127 

169 

1,508 

14,238 

0,015 

0,142 

170 

76 

12,730 

26,968 

0,127 

0,270 

171 

1,173 

28,141 

0,012 

0,281 

172 

34 

5,695 

33,836 

0,057 

0,338 

173 

19 

3,183 

37,018 

0,032 

0,370 

174 

17 

2,848 

39,866 

0,028 

0,399 

175 

44 

7,370 

47,236 

0,074 

0,472 

176 

89 

14,908 

62,144 

0,149 

0,621 

177 

1,340 

63,484 

0,013 

0,635 

178 

52 

8,710 

72,194 

0,087 

0,722 

179 

10 

1,675 

73,869 

0,017 

0,739 

180 

51 

8,543 

82,412 

0,085 

0,824 

181 

1,173 

83,585 

0,012 

0,836 

182 

22 

3,685 

87,270 

0,037 

0,873 

183 

15 

2,513 

89,782 

0,025 

0,898 

184 

1,005 

90,787 

0,010 

0,908 

185 

12 

2,010 

92,797 

0,020 

0,928 

186 

14 

2,345 

95,142 

0,023 

0,951 

187 

1,005 

96,147 

0,010 

0,961 

188 

1,340 

97,487 

0,013 

0,975 

189 

0,335 

97,822 

0,003 

0,978 

190 

0,670 

98,492 

0,007 

0,985 

191 

0,168 

98,660 

0,002 

0,987 

192 

0,335 

98,995 

0,003 

0,990 

193 

0,168 

99,162 

0,002 

0,992 

194 

0,168 

99,330 

0,002 

0,993 

195 

0,168 

99,497 

0,002 

0,995 

198 

0,335 

99,832 

0,003 

0,998 

200 

0,168 

100,000 

0,002 

1,000 

Ogółem  597 

100 

 

 

 

 

 Źródło: PGSS 2005 
 

Z  tabeli  2.6  możemy  odczytać,  że  procent  mężczyzn  niższych  niż  165  cm  wynosi  

w zaokrągleniu  4,69. Oznacza to, że prawdopodobieństwo, że wylosowany Polak będzie niższy od 

165 cm, wynosi w zaokrągleniu 0,0469. 

                                                 

3

 Proporcja nazywana jest także frakcją lub częstością względną. 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

11 

Analogicznie  -  procent  mężczyzn,  którzy  mają  więcej  niż  181  cm  wzrostu,  wynosi  w 

zaokrągleniu  100  -  83,585  =  16,415.  Oznacza  to,  że  prawdopodobieństwo,  że  wylosowany  Polak 

będzie miał co najmniej 181 cm, wynosi 0,16415. 
Analogicznie - procent mężczyzn, którzy mają nie więcej niż 180 cm wzrostu, wynosi w zaokrągleniu 
82,412. Oznacza to, że prawdopodobieństwo, że wylosowany Polak nie będzie wyższy niż 180 cm, 
wynosi 0,824. 

Podsumowując  -  znając  rozkład  zmiennej,  możemy  wyliczyć  prawdopodobieństwa 

przyjęcia przez zmienną wartości znajdujących się w określonym przedziale

Czasami  zamiast  korzystania  z  rozkładu  empirycznego  możemy  posłużyć  się  rozkładem 

teoretycznym, opisanym odpowiednim równaniem matematycznym.  

 
 

2.5. Rozkład normalny (krzywa Gaussa) 

 

Wiele zmiennych w populacji ma rozkład normalny, który można opisać za pomocą krzywej 

normalnej  (Gaussa).  Ma ona  kształt  dzwonu,  który  jest  symetryczny  względem  średniej  równej 
modalnej (modzie) i medianie

4

 rozkładu. Lewa i prawa gałąź rozkładu zbliża się asymptotycznie do 

osi poziomej (nigdy jej nie przecina).  

 

 
 

 

34,13%

 

34,13%

 

13,59%

 

13,59%

 

2,15%

 

0,13%

 

0,13%

 

2,15%

 

Rozkład X N(100, 10)

 

Jednostki Z 

120

 

110

 

100

 

90

 

80

 

130

 

0

 

2

 

1

 

3

 

-2

 

-1

 

N(0,1)

 

 

Rys. 2.5. Rozkład normalny 

 
Około  68,27%  powierzchni  pod  krzywą  mieści  się  w  granicach  jednego  odchylenia 

standardowego na prawo i lewo od średniej. Pole obszaru w granicach od z = –1,96 do  z = +1,96 

obejmuje  95%  powierzchni  pod  krzywą,  a  od  z  =  –2,58  do  z  =  +2,58  obejmuje  99%  całkowitej 
powierzchni pod krzywą, przy czym odpowiednio 5% i 1% mieści się poza tymi granicami.  
                                                 

4

  Mediana  i  wartość  modalna  (dominanta)  to  miary  tendencji  centralnej  używane  także  dla  skal  nieilościowych 

(nominalnych  i  porządkowych).  Modalna  (moda)  określa  wartość  najczęściej  występującą  w  rozkładzie.  Mediana  zaś 
powinna dzielić rozkład wyników na połowy. W rozkładzie liczby dzieci [tabela 2.5] najczęściej występującą liczbą jest 2. 
Wyznaczenie mediany nie jest proste, ponieważ nie jest to zmienna ciągła. Zachęcamy do lektury 

[20,21] 

dotyczącej miar 

tendencji centralnej.  

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

12 

Równanie krzywej normalnej zależy tylko od dwóch parametrów: średniej i odchylenia 

standardowego.  Ma to podstawowe  znaczenie praktyczne  -  pozwala  wyznaczyć  rozkład  zmiennej, 

jeżeli znamy średnią oraz odchylenie standardowe i wiemy, że jest to rozkład normalny. Powierzchnia 
pod krzywą normalną odpowiada 100% przypadków.  

Bardzo ważną własnością krzywej normalnej jest to, że powierzchnia pod krzywą (czyli 

proporcja  przypadków)  w  przedziale  od  średniej  do  jakiegokolwiek  punktu  zależy  tylko  od 

odległości tego punktu od średniej wyrażonej w jednostkach odchylenia standardowego.  

Między średnią i punktem, który oddalony jest od niej o jedno odchylenie standardowe, mieści 

się  zawsze 0,3413  powierzchni  pod  krzywą  - bez  względu na  to,  czy  analizujemy  rozkład  wzrostu, 
wagi, inteligencji, czy jakiejkolwiek innej zmiennej. Wielkość obszaru pod krzywą, czyli proporcja 

przypadków,  ma  bardzo  duże  znaczenie  -  ponieważ  wyznacza  prawdopodobieństwo,  że 
zmienna przyjmie wartość z tego przedziału. 
Na rysunku 2.5 widzimy, że w odległości ±2 odchyleń 
standardowych  od  średniej  znajduje  się  ponad  90%  przypadków.  W  tabeli  poniżej  znajdują  się 
używane określenia słowne 

[21]

 dla wyników w różnym stopniu odległych od średniej rozkładu. 

 

z<-3 

-3<z<-2  -2<z<-1  -1<z<1  1<z<2  2<z<3  z>3 

wyjątkowo 
małe 

bardzo 
małe 

małe 

typowe  duże 

bardzo 
duże 

wyjątkowo 
duże 

 
Warto  zapamiętać,  że  zapis  N(μ,  σ)

5

  oznacza,  że  zmienna  ilościowa  ma  rozkład  normalny  o 

średniej μ i odchyleniu standardowym σ
 

Pamiętajmy, że rozkład normalny jest zdefiniowany dla zmiennych ciągłych. W rezultacie 

musimy  pamiętać,  że  prawdopodobieństwo,  że  badana  zmienna  przyjmuje  konkretną  wartość,  jest 
równe  zeru:  p(X  =35)=0.  Przykładem  zmiennej  ciągłej  może  być  wzrost.  Jeżeli  zmierzymy  czyjś 

wzrost,  otrzymując np.  173  cm,  musimy  pamiętać,  że  jest  to  tylko  wartość  przybliżona,  zależna  od 
dokładności naszej miarki. Osoby w grupie ludzi o wzroście 173 cm mogą się od siebie pod względem 
tej zmiennej różnić, ale nasze urządzenie pomiarowe może nie być wystarczająco dokładne, aby to 
wykryć.  Jeżeli  nawet  weźmiemy  dokładniejszą  miarkę,  która  pozwala na pomiar z  dokładnością  do 

milimetrów,  mikrometrów  czy  nanometrów,  to  i  tak  pozostaje  pewien  margines  błędu.  Nigdy  nie 
możemy  mieć  pewności,  że  dana  osoba  ma  dokładnie  173  cm  wzrostu,  a  odzwierciedleniem  tego 
faktu jest właśnie określenie prawdopodobieństwa, że =173 (dokładnie), jako równego zeru. Dlatego 
dla  zmiennych  ciągłych  zawsze  obliczamy  prawdopodobieństwa,  że  zmienna  przyjmie  wartość 

należącą do jakiegoś przedziału, a nie równą jakiejś liczbie. 

W  przypadku  zmiennej  ciągłej  prawdopodobieństwa  wypisane  w  ramce  poniżej  są  sobie 

równe. 

 

p(z

1

<z<z

2

) = p(z

1

zz

2

) = p(z

1

z<z

2

) = p(z

1

<zz

2

 

Rozkład normalny jest symetryczny, więc tyle samo przypadków mieści się między średnią 

a wynikiem: = 1 (0 < < 1), jak i między średnią a wynikiem: z = –1 (–1 < z < 0).  
W sumie 0,6826 (2 x  0,3413) przypadków mieści się w odległości jednego odchylenia standardowego 

(–1 < z < 1) od średniej.  

W odległości dwóch odchyleń standardowych (–2 < z < 2) mieści się ponad 95% (2 x  0,4773) 

przypadków.  

W odległości trzech odchyleń standardowych (–3 < z < 3) mieszczą się praktycznie wszystkie 

przypadki,  chociaż  teoretycznie  krzywa  normalna  biegnie  nieskończenie  daleko  i  nigdy  nie  osiąga 

                                                 

5

 Parametry populacji oznaczamy greckimi: μ [mi] i σ [sigma]. 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

13 

wartości zerowej (nie przecina osi OX). Otrzymanie dla rozkładu normalnego z > 5 lub z < –5 jest więc 
możliwe, ale niesłychanie mało prawdopodobne.  

Korzystając z tablic rozkładu normalnego (tablica 2.1), możemy wyznaczyć pole pod krzywą 

normalną,  odcięte  przez  dowolne  dwa  punkty.  Aby  to uczynić,  musimy  zamienić  wartości  naszej 
zmiennej  na  wyniki  standaryzowane.  W  tablicy  odnajdujemy  interesującą  nas  wartość  z

k

  

i odczytujemy wartość p

26

:  

 

p

2

p(z>z

k

 
Przykład: dla z

k

=1,96 p

2

=p(z>1,96)=p(z<-1,96)= 0,025    

 

Omówiona  wcześniej  standaryzacja  zachowuje  kształt  rozkładu  wyjściowego.  Rozkład 

standaryzowanych wyników zmiennej LICZBA DZIECI będzie miał kształt rozkładu przedstawionego 
na  rysunku  2.4  -  z  tą  różnicą,  że  średnia  rozkładu  standaryzowanego  zawsze  wynosi  0,  
a odchylenie standardowe równe jest 1
.  

Standaryzacja rozkładu normalnego N(μ, σpowoduje przekształcenie go w rozkład normalny 

standaryzowany  N(0,  1).  W  ten  sposób  niezależnie  od  tego,  czy  interesuje  nas  wzrost  dorosłych 
mężczyzn N(175, 6) czy inteligencja N(100, 15), korzystać będziemy z tych samych tablic dla wartości 
z. Tablice są przygotowane dla wartości standaryzowanych, a więc są uniwersalne.  

 

                                                 

6

 Wartość z

k

 dzieli połowę obszaru pod krzywą normalną na dwie części : p

1

 (od średniej do z

k

) i p

2

 (od z

k

 do końca 

rozkładu).  

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

14 

Tablica 2.1.

 Rozkład normalny  N(0,1) 

P

2

 

p

2

 

p

2

 

P

2

 

p

2

 

p

2

 

p

2

 

0,5000  0,5 

0,3085  

0,1587  1,5 

0,0668  

0,0228  2,5 

0,0062 

0,0013 

0,01  0,4960  0,51  0,3050  1,01  0,1562  1,51  0,0655  2,01  0,0222  2,51  0,0060 

3,01  0,0013 

0,02  0,4920  0,52  0,3015  1,02  0,1539  1,52  0,0643  2,02  0,0217  2,52  0,0059 

3,02  0,0013 

0,03  0,4880  0,53  0,2981  1,03  0,1515  1,53  0,0630  2,03  0,0212  2,53  0,0057 

3,03  0,0012 

0,04  0,4840  0,54  0,2946  1,04  0,1492  1,54  0,0618  2,04  0,0207  2,54  0,0055 

3,04  0,0012 

0,05  0,4801  0,55  0,2912  1,05  0,1469  1,55  0,0606  2,05  0,0202  2,55  0,0054 

3,05  0,0011 

0,06  0,4761  0,56  0,2877  1,06  0,1446  1,56  0,0594  2,06  0,0197  2,56  0,0052 

3,06  0,0011 

0,07  0,4721  0,57  0,2843  1,07  0,1423  1,57  0,0582  2,07  0,0192  2,57  0,0051 

3,07  0,0011 

0,08  0,4681  0,58  0,2810  1,08  0,1401  1,58  0,0571  2,08  0,0188  2,58  0,0049 

3,08  0,0010 

0,09  0,4641  0,59  0,2776  1,09  0,1379  1,59  0,0559  2,09  0,0183  2,59  0,0048 

3,09  0,0010 

0,1 

0,4602  0,6 

0,2743  1,1 

0,1357  1,6 

0,0548  2,1 

0,0179  2,6 

0,0047 

3,1 

0,0010 

0,11  0,4562  0,61  0,2709  1,11  0,1335  1,61  0,0537  2,11  0,0174  2,61  0,0045 

3,11  0,0009 

0,12  0,4522  0,62  0,2676  1,12  0,1314  1,62  0,0526  2,12  0,0170  2,62  0,0044 

3,12  0,0009 

0,13  0,4483  0,63  0,2643  1,13  0,1292  1,63  0,0516  2,13  0,0166  2,63  0,0043 

3,13  0,0009 

0,14  0,4443  0,64  0,2611  1,14  0,1271  1,64  0,0505  2,14  0,0162  2,64  0,0041 

3,14  0,0008 

0,15  0,4404  0,65  0,2578  1,15  0,1251  1,65  0,0495  2,15  0,0158  2,65  0,0040 

3,15  0,0008 

0,16  0,4364  0,66  0,2546  1,16  0,1230  1,66  0,0485  2,16  0,0154  2,66  0,0039 

3,16  0,0008 

0,17  0,4325  0,67  0,2514  1,17  0,1210  1,67  0,0475  2,17  0,0150  2,67  0,0038 

3,17  0,0008 

0,18  0,4286  0,68  0,2483  1,18  0,1190  1,68  0,0465  2,18  0,0146  2,68  0,0037 

3,18  0,0007 

0,19  0,4247  0,69  0,2451  1,19  0,1170  1,69  0,0455  2,19  0,0143  2,69  0,0036 

3,19  0,0007 

0,2 

0,4207  0,7 

0,2420  1,2 

0,1151  1,7 

0,0446  2,2 

0,0139  2,7 

0,0035 

3,2 

0,0007 

0,21  0,4168  0,71  0,2389  1,21  0,1131  1,71  0,0436  2,21  0,0136  2,71  0,0034 

3,21  0,0007 

0,22  0,4129  0,72  0,2358  1,22  0,1112  1,72  0,0427  2,22  0,0132  2,72  0,0033 

3,22  0,0006 

0,23  0,4090  0,73  0,2327  1,23  0,1093  1,73  0,0418  2,23  0,0129  2,73  0,0032 

3,23  0,0006 

0,24  0,4052  0,74  0,2296  1,24  0,1075  1,74  0,0409  2,24  0,0125  2,74  0,0031 

3,24  0,0006 

0,25  0,4013  0,75  0,2266  1,25  0,1056  1,75  0,0401  2,25  0,0122  2,75  0,0030 

3,3 

0,0005 

0,26  0,3974  0,76  0,2236  1,26  0,1038  1,76  0,0392  2,26  0,0119  2,76  0,0029 

3,4 

0,0003 

0,27  0,3936  0,77  0,2206  1,27  0,1020  1,77  0,0384  2,27  0,0116  2,77  0,0028 

3,5 

0,0002 

0,28  0,3897  0,78  0,2177  1,28  0,1003  1,78  0,0375  2,28  0,0113  2,78  0,0027 

3,6 

0,0002 

0,29  0,3859  0,79  0,2148  1,29  0,0985  1,79  0,0367  2,29  0,0110  2,79  0,0026 

3,7 

0,0001 

0,3 

0,3821  0,8 

0,2119  1,3 

0,0968  1,8 

0,0359  2,3 

0,0107  2,8 

0,0026 

0,31  0,3783  0,81  0,2090  1,31  0,0951  1,81  0,0351  2,31  0,0104  2,81  0,0025 
0,32  0,3745  0,82  0,2061  1,32  0,0934  1,82  0,0344  2,32  0,0102  2,82  0,0024 
0,33  0,3707  0,83  0,2033  1,33  0,0918  1,83  0,0336  2,33  0,0099  2,83  0,0023 
0,34  0,3669  0,84  0,2005  1,34  0,0901  1,84  0,0329  2,34  0,0096  2,84  0,0023 
0,35  0,3632  0,85  0,1977  1,35  0,0885  1,85  0,0322  2,35  0,0094  2,85  0,0022 
0,36  0,3594  0,86  0,1949  1,36  0,0869  1,86  0,0314  2,36  0,0091  2,86  0,0021 
0,37  0,3557  0,87  0,1922  1,37  0,0853  1,87  0,0307  2,37  0,0089  2,87  0,0021 
0,38  0,3520  0,88  0,1894  1,38  0,0838  1,88  0,0301  2,38  0,0087  2,88  0,0020 
0,39  0,3483  0,89  0,1867  1,39  0,0823  1,89  0,0294  2,39  0,0084  2,89  0,0019 
0,4 

0,3446  0,9 

0,1841  1,4 

0,0808  1,9 

0,0287  2,4 

0,0082  2,9 

0,0019 

0,41  0,3409  0,91  0,1814  1,41  0,0793  1,91  0,0281  2,41  0,0080  2,91  0,0018 
0,42  0,3372  0,92  0,1788  1,42  0,0778  1,92  0,0274  2,42  0,0078  2,92  0,0018 
0,43  0,3336  0,93  0,1762  1,43  0,0764  1,93  0,0268  2,43  0,0075  2,93  0,0017 
0,44  0,3300  0,94  0,1736  1,44  0,0749  1,94  0,0262  2,44  0,0073  2,94  0,0016 
0,45  0,3264  0,95  0,1711  1,45  0,0735  1,95  0,0256  2,45  0,0071  2,95  0,0016 
0,46  0,3228  0,96  0,1685  1,46  0,0721  1,96  0,0250  2,46  0,0069  2,96  0,0015 
0,47  0,3192  0,97  0,1660  1,47  0,0708  1,97  0,0244  2,47  0,0068  2,97  0,0015 
0,48  0,3156  0,98  0,1635  1,48  0,0694  1,98  0,0239  2,48  0,0066  2,98  0,0014 
0,49  0,3121  0,99  0,1611  1,49  0,0681  1,99  0,0233  2,49  0,0064  2,99  0,0014 

 

background image

G. Wieczorkowska & J. Wierzbiński (2005) 

15 

 
Przykład 2.5.1. 
 

Jeżeli  dowiedzielibyśmy  się,  że  wzrost  polskich  mężczyzn  ma  rozkład  normalny  o  średniej 

175 i odchyleniu standardowym 6, możemy wyliczać prawdopodobieństwa, posługując się tablicami 
rozkładu  normalnego.  Możemy  np.  wyliczyć,  jakie  jest  prawdopodobieństwo,  że  wylosowany 
mężczyzna będzie miał co najmniej 181 cm wzrostu. 

 

Pierwszym  krokiem  jest  zamiana  wartości  zmiennej  na  wartości  standaryzowane.  Przy 

założeniu,  że  wzrost  dorosłych  mężczyzn  ma  rozkład  normalny  N(175,6),  181  cm  oznacza  z=1.  
Z  tablic  odczytamy,  że  dla  z

k

=1  p

2

=p(z>1)=p(z<-1)=  0,1587.  Rozbieżność  między  wynikiem 

odczytanym  z  rozkładu  empirycznego  (prawdopodobieństwo,  że  X  ≥181,  wyniosło  0,164154) 
a wynikiem odczytanym z tablic jest efektem następujących różnic: 
 

1.  Korzystając  z  tablic  rozkładu  normalnego,  zakładamy  ciągłość  zmiennej  WZROST,  która  w 

rozkładzie empirycznym była zmienną skokową, i dlatego p(≥181) ≠ p(>181). 

2.  Rozkład  w  populacji  może  mieć  inną  średnią  lub  odchylenie  standardowe.  W  naszych 

obliczeniach  wykorzystaliśmy  zaokrąglone  wartości  średniej  i  odchylenia  standardowego, 
pochodzące z próby reprezentatywnej dorosłych mężczyzn. 

3.  Tak,  jak  to  omawiamy  w  ostatnim  rozdziale,  badania  sondażowe  obarczone  są  błędami 

związanymi  zarówno  z  doborem  osób  do  próby,  jak  i  zniekształceniami  odpowiedzi  (nie 
można wykluczyć, że mężczyźni zawyżali swój wzrost).  

 

Podsumowując:  

1.  Zanim zaczniemy formułować sądy o liczbach, musimy określić skalę pomiarową. 
2.  Operacje matematyczne (takie jak dodawanie, mnożenie) są dozwolone tylko dla zmiennych 

ilościowych (gdzie określona jest jednostka pomiaru). 

3.  Podstawowe charakterystyki rozkładu zmiennej ilościowej to średnia arytmetyczna i wariancja 

/odchylenie standardowe.  

4.  Aby  porównać  dwie  liczby  pochodzące  z  różnych  rozkładów,  należy  je  najpierw 

wystandaryzować. 

5.  Znajomość rozkładu zmiennej może wynikać z przeprowadzonych badań lub naszej wiedzy 

na  temat  danej  zmiennej.  W  obu  przypadkach  znajomość  rozkładu  pozwala  wyliczać 
prawdopodobieństwa  tego,  że  w  badaniach  empirycznych  otrzymamy  wartość  zmiennej  

z danego przedziału.