background image

ROZDZIAŁ 6 

SZEREGI ROZDZIELCZE 

I. Pojęcia wstępne 

Tablice liczebności (freąuence tables) stanowią najprostsze i najczęściej używane 
narzędzie do wstępnej analizy danych jakościowych (danych w skali nominalnej). 
Umożliwiają one pogrupowanie danych według przyjętych kategorii dla ich 
uporządkowania i znalezienia interesujących różnic. Można też pogrupowane dane 
przedstawić graficznie w postaci histogramu. Tablice liczebności informują o tym, jak 
często pojawiają się określone warianty analizowanej cechy w całym zbiorze danych. 
Oczywiście wszystkie metody grupowania można zastosować też do zmiennych 

ilościowych. 

Przykład 1 
Wysunięto przypuszczenie, że palenie papierosów i picie kawy wpływa na ostrzejszy 
przebieg pewnej choroby. 

Z populacji chorych na tę chorobę wylosowano więc 21 pacjentów (10 kobiet, 11 

mężczyzn) i przeprowadzono wśród nich ankietę na temat palenia papierosów i picia kawy. 
Dla każdej używki (papierosy, kawa) wprowadzono następującą skalę: 

duże ilości (1), średnio (2), małe ilości (3), nigdy nie używano (4). Wyniki były 
następujące: 

Płeć 

M  M  K  M  K  M  M  K  M  K  K  M  K  M  M  K  K  K  K  M  M 

Papierosy 

1  1  4  1  3  1  1  1  1  2  1  1  1  1  1  4  4  1  1  1  2 

Kawa 

1  1  1  1  1  1  2  1  3  4  4  1  2  1  1  1  1  1  3  2  2 

Tablica liczebności dla naszego przykładu przyjmuje postać: 

Papierosy 

Procenty 

Kawa 

Procenty 

Duże ilości 

15 

71,4 

13 

62 

Średnio 

9,5 

19 

Małe ilości 

4,8 

9,5 

Nigdy 

14,3 

9,5 

Histogramy liczebności (dla pijących kawę i palących papierosy) utworzone przy pomocy 
powyższej tablicy przedstawiają poniższe rysunki: 

109 

background image

Przystępny kurs statystyki 

Rys. 6.1 Histogram liczebności palaczy Rys. 6.2 Histogram liczebności dla pijących kawę 

Można też narysować histogramy osobno dla mężczyzn i kobiet, podpowiadające 
wystąpienie zależności od płci w rozważanym problemie. Tak jest w naszym przykładzie. 
Histogramy dla mężczyzn i kobiet wykazują interesujące różnice warte dalszej analizy 
statystycznej. 

Histogram: PAPIEROS 

Rys. 6.3 Histogram dla palaczy w zależności od płci 

Konstrukcja powyższej tablicy nie nastręczała praktycznie żadnych trudności. Inaczej 
przedstawia się sprawa, gdy liczba wariantów cechy jest duża lub cecha jest mierzalna. 
W takim przypadku tworząc tablicę liczebności dla zmiennej, musimy ustalić wiele 
parametrów - liczbę przedziałów (klas), rozpiętość przedziałów oraz ustalić granicę dolną 
pierwszego przedziału lub granice klas. Wymaga to zastanowienia - jak wyglądają nasze 
dane i co chcemy osiągnąć. Przy różnych parametrach bowiem otrzymamy różne 
wynikowe tabele i histogramy. 

110 

background image

Szeregi rozdzielcze 

Przykład 2 
Z populacji mężczyzn pewnego województwa wybrano losowo 30 osób i określono ich 
wagę z dokładnością do 0,1 kg Otrzymano następujące dane liczbowe: 49,10; 54,50; 63,00; 
64,60; 69,50; 74,40; 79,40; 85,80; 53,20; 55,40; 61,50; 65,00; 70,00; 75,00; 82,10; 87,10; 
54,00; 54,10; 62,20; 65,60; 70,40; 75,90; 83,80; 56,30; 63,40; 66,70; 71,60; 75,20; 58,40; 
60,90. 

Otrzymane dane możemy na szereg sposobów przedstawić w postaci tablicy 

liczebności. Poniżej przedstawiamy, dla rozpatrywanych danych, dwie różne tablice 
liczebności oraz odpowiadające im histogramy. 

Pierwsza tabela liczebności 

Druga tabela liczebności 

111 

background image

Przystępny kurs statystyki 

Rys. 6.5 Histogramy wag dla różnych tabel z liczebnościami (oś x - wagi osób) 

II. A jak to się liczy w programie STATISTICA 

W programie STATISTICA do budowy tabel liczebności służy opcja Tabele liczebności 
w module PODSTAWOWE STATYSTYKI I TABELE. Po wybraniu tej opcji 
i naciśnięciu OK (lub po dwukrotnym kliknięciu na nazwie opcji) otwiera się okno Tabele 
liczebności
 przedstawione poniżej: 

Rys. 6.6 Okno dialogowe Tabele liczebności 

112 

background image

Szeregi rozdzielcze 

Na górze okna mamy przycisk Zmienne, otwierający okno dialogowe wyboru zmiennych 

do analizy. Dokładne opisanie sposobu wyboru zmiennych do analizy znajdziemy 
w rozdziale trzecim. 

Poniżej mamy trzy przyciski uruchamiające (po wyborze zmiennych) interesującą 

nas procedurę obliczeniową: 
• Tabele liczebności - uruchamia procedurę tworzenia tabel liczebności dla wybranych 

zmiennych według wybranego przez nas sposobu. 

• Histogramy - uruchamia procedurę rysowania histogramów dla wybranych zmiennych. 

Umożliwia ona graficzną prezentację szeregu rozdzielczego wraz z jego klasami za 
pomocą zbioru słupków. Postać histogramu zależy od opcji wybranych w polu Metoda 
kategoryzacji dla tabel i wykresów. 

• Statystyki opisowe - uruchamia obliczanie podstawowych statystyk opisowych 

(średnia, odchylenie standardowe, wartość minimalna i maksymalna, liczebność próby, 
liczba brakujących danych itd.) dla wybranych zmiennych. 

II.1. Tabele liczebności 

To co chcemy otrzymać w tablicy liczebności - poza liczebnością - wybieramy w polu 
Pokaż opcje - widocznym poniżej. Domyślnie wybrane są pierwsze trzy opcje. 

113 

Poszczególne opcje w tym polu umożliwiają (po ich wybraniu): 
• Liczebności skumulowane - wyliczenie liczebności skumulowanych (liczebność danej 

klasy i wszystkich wcześniejszych). 

• Procenty - obliczenie procentów względem wszystkich przypadków (uwzględniając 

lub nie brakujące dane w zależności od ustawień w polu Braki danych). 

• Procenty skumulowane - wyliczenie procentów skumulowanych. 
•  1 0 0 % minus procenty skumulowane - odejmuje od 100% poprzednio obliczone 

procenty skumulowane. 

• Proporcje po transformacji logit - wyliczenie logitowej transformacji skumulowanej 

proporcji. Oznaczmy przez p

i

 wartość skumulowanej proporcji dla i-tej klasy. Wówczas 

przekształcenie logitowe definiujemy jako: 

background image

Przystępny kurs statystyki 

• Proporcje po transformacji probit - wyliczenie probitowej transformacji 

skumulowanej proporcji. Przekształcenie probitowe jest definiowane jako normalna 
wartość skojarzona z prawdopodobieństwem równym skumulowanej proporcji 
obserwacji. Innymi słowy: dla dowolnego procentu p wartość transformacji probitowej 
to taka liczba, że na lewo od niej znajduje się p - ta część powierzchni zawartej pod 

krzywą standaryzowanego rozkładu normalnego. 

• Normalne liczebności oczekiwane - wyliczenie oczekiwanych frekwencji bazujące na 

normalnym rozkładzie. 

Przykład 3 
Dla wielu zbiorów danych można z kontekstu domyślić się, jaką metodę analizy trzeba 
zastosować. Zagadnienie komplikuje się, gdy obserwacjami podstawowymi są frakcje 
(procenty, częstość). W wielu medyczno-biologicznych badaniach (skuteczność leków, 
szkodliwość środków trujących) uzyskujemy dane w postaci frakcji. Frakcje te wypełniają 
cały przedział od 0 do 1. 

Rys. 6.8 Skuteczność pewnej trutki wraz z dopasowaną sigmoidalną krzywą regresji 

Przykładowo, chcemy obliczyć pięćdziesięcioprocentowa dawkę śmiertelną pewnej 
trucizny na szkodniki. W tym celu zwierzęta doświadczalne podzielono na równoliczne 
grupy, a następnie każdej grupie podano truciznę w innym stężeniu. Po upływie pewnego 
czasu oznaczono w każdej grupie frakcję zwierząt, które przeżyły. Dla małych stężeń 
częstość ta wynosiła 1, a dla dużych 0. Przy stężeniach pośrednich frakcje układają się 
w przybliżeniu wzdłuż tzw. krzywej sigmoidalnej (rysunek 6.8). 
Dalsze badania danych przeprowadza się po wstępnym przekształceniu frakcji w celu 
linearyzacji zależności i stabilizacji wariancji. Najbardziej popularne są dwa 
przekształcenia - logitowe i probitowe. Dają one podobne wyniki. 
Przekształcenie logitowe dobrze linearyzuje krzywe sigmoidalne, ale nie stabilizuje 
wariancji. 
Przekształcenie probitowe, mimo że bardziej skomplikowane, cieszy się większą 
popularnością wśród medyków i biologów. Przekształcenie to również dobrze linearyzuje 
krzywe sigmoidalne, przy czym końce skali są rozciągnięte bardziej niż jej środek. Gdy 

114 

background image

Szeregi rozdzielcze 

pjest 0 lub 1 wartość przekształcenia przyjmuje wartości nieskończone. Wynik 
przekształcenia probitowego dla naszego przykładu (trutka na szkodniki) wygląda jak na 
rysunku poniżej. 

/ \ probit frakcji przeżycia 

0

 logarytm dawki 

Rys. 6.9 Przekształcenie probitowe dla wyznaczenia „50 % - owej dawki śmiertelnej" 

Wykorzystując następnie analizę regresji, można znaleźć 50 % dawkę śmiertelną. 

11.2. Sposób tworzenia tabel 
Sposób tworzenia tabel liczebności i histogramu wybieramy w polu Metoda kategoryzacji 

dla tabel i wykresów. Domyślnie ustawiona jest pierwsza opcja. Pozostałe widzimy na 
poniższym rysunku: 

Metoda kategoryzacji dla tabel i wykresów ^ 

(i

  W s z y s t k i e różne wartości [x z wart. tekstowymi 

O

  D o k ł a d n a  l i c z b a przedziałów: 

C

 Przybliżona liczba  o k r ą g ł y c h przędz. 

C

  W i e l k o ś ć kroku 

Rys. 6.10 Pole dialogowe metoda kategoryzacji dla tabel i wykresów 

Poszczególne opcje tego pola umożliwiają (po ich wybraniu): 
• Wszystkie różne wartości - tworzenie tabeli liczebności (oraz histogramu) bazującej 

na wszystkich różnych wartościach dla każdej wybranej zmiennej. Innymi słowy, każda 
nowa wartość zmiennej tworzy nową klasę w konstruowanej tabeli liczebności. Klasy 
utworzą wszystkie warianty cechy (wybranej zmiennej). Ta metoda kategoryzacji jest 
domyślnie wybrana. 

115 

background image

Przystępny kurs statystyki 

Przykład 4 
Przeprowadzono pewien tekst psychologiczny w grupie 32 osób. Wyniki tego testu 
(w punktach) są następujące: 7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10, 7, 22, 21, 10, 22, 
2, 20, 11, 3, 22, 23, 11,3, 11, 23, 7, 21, 11, 22. Dane te posłużą nam do zobrazowania 
różnych sposobów tworzenia tabel liczebności. 

Tabela liczebności utworzona dla powyższego przykładu po wybraniu opcji Wszystkie 
różne wartości
 wygląda następująco: 

Rys. 6.11 Tablica liczebności przy wybranej opcji Wszystkie różne wartości 

• Z wart. tekstowymi - tworzenie tabeli liczebności (oraz histogramu) bazującej na 

wszystkich różnych wartościach tekstowych dla każdej wybranej zmiennej. Innymi 
słowy, każda nowa wartość tekstowa zmiennej tworzy nową klasę w konstruowanej 
tabeli liczebności. 

• Dokładna liczba przedziałów - tworzenie tabeli liczebności (oraz histogramu) 

przyjmującego dokładnie tyle klas, ile wpiszemy w sąsiednim polu. Cały zakres 
wartości wybranej zmiennej jest dzielony na podaną przez nas liczbę przedziałów. 

Liczbę klas wybieramy najczęściej pomiędzy 5 i 15, uwzględniając liczebność zbioru 
danych. Poniżej mamy utworzoną tabelę liczebności (dla przykładu 4) po wybraniu tej 
opcji i ustawieniu liczby klas na 8. 

116 

background image

Szeregi rozdzielcze 

Rys. 6.12 Tabela liczebności przy wybranej opcji Dokładna liczba przedziałów 

A tak wygląda histogram (dla naszego przykładu) utworzony po wybraniu tej opcji: 

Wyniki testu 

Rys. 6.13 Histogram przy wybraniu opcji Dokładna liczba przedziałów 

• Przybliżona liczba okrągłych przedziałów - tworzenie tabeli liczebności (oraz 

histogramu) przyjmującego jako granice klas i zakresy przedziałów prostsze 
zaokrąglone liczby. W takiej sytuacji tabele nie zawsze będą miały dokładnie taką ilość 
przedziałów, jaką podaliśmy w sąsiednim polu. Poniżej mamy utworzoną tabelę 
liczebności (dla przykładu 4) po wybraniu tej opcji i ustawieniu liczby klas na 8 
(w tabeli otrzymaliśmy tylko 5 klas). 

117 

background image

Przystępny kurs statystyki 

Rys. 6.14 Tabela liczebności przy wybranej opcji Przybliżona liczba okrągłych 

przedziałów 

• Wielkość kroku - tworzenie tabel liczebności (i histogramów) bazujących na podanym 

przez użytkownika w sąsiednim polu, szerokości (rozpiętości) przedziału klasowego. 

• Rozpocznij od minimum - jeśli ta opcja będzie wybrana, wówczas pierwszą wartością 

brzegową w tworzonej tabeli liczebności będzie najmniejsza wartość wybranej 
zmiennej. Jeśli ta opcja nie jest wybrana, wówczas użytkownik ma możliwość podania 
pierwszej wartości brzegowej w okienku obok. Poniżej mamy utworzoną tabelę 
liczebności (dla przykładu 4) po wybraniu tej opcji i ustawieniu rozpiętości przedziału 
na 3,5 oraz przyjęciu wartości minimalnej jako pierwszej wartości brzegowej. 

Rys. 6.15 Tabela liczebności przy wybranej opcji Wielkość kroku 

A tak wygląda histogram (dla naszego przykładu) utworzony po wybraniu tej opcji: 

118 

background image

Szeregi rozdzielcze 

Rys. 6.16 Histogram przy wybraniu opcji Wielkość kroku 

• Kategorie całkowite - tworzenie tabeli liczebności (i histogramu) w oparciu 

o całkowite kategorie. Startując z najmniejszej liczby całkowitej znalezionej 
w wybranej zmiennej obliczana jest ilość wystąpień kolejnych liczb całkowitych. Klasy 
utworzą wszystkie całkowite wartości znajdujące się w analizowanym zbiorze danych. 
Wszystkie liczby niecałkowite są ignorowane. 
Poniżej mamy utworzoną tabelę liczebności (dla przykładu 4) po wybraniu tej opcji. 

Rys. 6.17 Tabela liczebności przy wybranej opcji Kategorie całkowite 

119 

background image

Przystępny kurs statystyki 

• Z wartościami tekstowymi - tworzenie tabeli liczebności (i histogramu) w oparciu 

o wartości tekstowe (np. 1 - mężczyźni, 0 - kobiety). Tak utworzona tabela liczebności 
pokaże wszystkie wartości tekstowe wraz z etykietami, jakie występują w wybranej 
zmiennej. 
Poniżej mamy utworzoną tabelę liczebności (dla palaczy z przykładu 1) po wybraniu tej 
opcji. 

Rys. 6.18 Tabela liczebności przy wybranej opcji Kategorie całkowite z wartościami 

tekstowymi 

A tak wygląda histogram (dla naszego przykładu) utworzony po wybraniu tej opcji: 

Rys. 6.19 Histogram przy wybraniu opcji Kategorie całkowite z wartościami 

tekstowymi 

• Kody użytkownika - tworzenie tabeli liczebności (i histogramu) w oparciu o całkowite 

kategorie wyspecyfikowane przez użytkownika. Rozpoczynając od najmniejszej liczby 
całkowitej, znalezionej w wybranej zmiennej, obliczana jest ilość wystąpień kolejnych 
liczb całkowitych wybranych przez użytkownika. Wyboru dokonuje się w oknie, które 

120 

się pojawi po naciśnięciu przycisku 

występującego obok nazwy opcji. Wszystkie 

liczby niecałkowite i nie wybrane przez użytkownika są ignorowane. Poniżej mamy 

background image

Szeregi rozdzielcze 

utworzoną tabelę liczebności (dla przykładu 4) po wybraniu tej opcji (wybrane zostały 
kody od 1 do 9). 

Rys. 6.20 Tabela liczebności przy wybranej opcji Kody użytkownika 

aż 16 logicznych warunków selekcji przypadków definiujących 16 kategorii w tabeli 
liczebności. Warunki te mogą być złożone i odwoływać się do kilku zmiennych. Dla 
każdego przypadku w pliku danych warunki selekcji wykonywane są sekwencyjnie 
i przypadek ten jest przyporządkowywany do pierwszej kategorii w której spełnia 
logiczne warunki. Możemy także podane warunki zapamiętać na dysku lub dyskietce 
i wykorzystać je później. 

Poniżej mamy okno z wpisanymi 3 warunkami selekcji przypadków (dla przykładu 1), 
a następnie utworzoną tabelę liczebności dla omawianej opcji (korzystającej z tych 
warunków selekcji). W tabeli mamy trzy grupy osób: palących duże ilości papierosów, 
palących średnio oraz pozostałych palaczy, którzy piją duże ilości kawy. Daje to w sumie 
liczbę wszystkich testowanych pacjentów. 

121 

• Kryteria użytkownika - tworzenie tabeli liczebności (oraz histogramu) w oparciu 

o kategorie wyspecyfikowane przez użytkownika. Możemy dokonać selekcji 
przypadków w oknie wywołanym przez naciśnięcie przycisku 

Możemy wybrać 

background image

Przystępny kurs statystyki 

Rys. 6.21 Okno do definiowania kategorii 

Rys. 6.22 Tabela liczebności przy wybranej opcji  K r y t e r i a  u ż y t k o w n i k a 

I I .  3 .  S p r a w d z i a n  n o r m a l n o ś c i 

W oknie Tabele liczebności mamy też możliwość sprawdzenia normalności rozkładu 
wybranych zmiennych. Dokonujemy tego w polu  T e s t y  n o r m a l n o ś c i widocznym na 
rysunku 6.23. 

122 

background image

Szeregi rozdzielcze 

Rys. 6.24 Okna z wynikami testu normalności 

II. 4. Brakujące dane 

O brakujących danych mówią nam trzy opcje: 
• Usuwanie BD przypadkami - jeśli ta opcja jest włączona, wówczas z obliczeń są 

wyłączone wszystkie przypadki z brakującymi danymi dla jakiejkolwiek wybranej 
zmiennej. Wszystkie tabele liczebności dla różnych wybranych zmiennych tworzone są 
dla takiej samej ilości przypadków. W przeciwnym wypadku z obliczeń wyłączane są 

123 

Rys. 6.23 Pole sprawdzianu normalności 

Jeśli naciśniemy przycisk 

wyświetlone zostaną dodatkowe okna 

wynikowe z wynikami testów normalności rozkładu zmiennej. Możemy skorzystać 
z trzech rodzajów testów: test Kołmogorowa-Smirnowa, test Lilieforsa oraz test Shapiro-
Wilka (ich dokładniejsze omówienie znajduje się w rozdziale Statystyka opisowa). Wyboru 
dokonujemy przez wybranie nazwy testu lub zaznaczenie kwadracika obok nazwy. 
Domyślnie wybierany jest test Lilieforsa. Poniższe okna przedstawiają wyniki testu 
Lilieforsa i Shapiro-Wilka dla wartości zmiennej z przykładu 4. Obydwa testy 
potwierdzają, że omawiana zmienna nie ma rozkładu normalnego (hipotezę normalności 
można odrzucić nawet na poziomie istotności równym 0,0007). 

background image

Przystępny kurs statystyki 

tylko te przypadki, w których brakuje danych dla konkretnej liczonej zmiennej 
(otrzymane tabele mogą mieć różne liczebności dla różnych zmiennych). 

• Wliczaj braki danych w polu Braki danych - po wybraniu tej opcji w wynikowej 

tabeli liczebności pojawi się nowy wiersz (na końcu) z danymi dotyczącymi 
brakujących przypadków. W takiej tabeli procenty i skumulowane procenty liczone są 
z całkowitej liczby przypadków (łącznie z przypadkami z brakującymi danymi). Na 
rysunku 6.18 mamy przykład takiej tabeli liczebności. 

• Wliczaj BD i przypadki pominięte w polu Braki danych - po wybraniu tej opcji 

w wynikowej tabeli liczebności pojawią się nowe wiersze (na końcu) z danymi 
dotyczącymi brakujących przypadków i nie wybranych przypadków. W takiej tabeli 
procenty i skumulowane procenty liczone są z całkowitej liczby przypadków (łącznie 
z przypadkami niewybranymi i brakującymi danymi). 

II. 5. Grafika 

Przyciski - związane z graficzną interpretacją - umieszczone w prawej dolnej części okna 
Frequency Tables umożliwiają: 

124 

- wywołanie okna do rysowania wykresów 

ramkowych (skrzynek z wąsami - box and whisker) dla wybranych zmiennych; 

- rysowanie wykresu normalnego dla wybranych 

zmiennych; 

- rysowanie wykresu półnormalnego dla wybranych 

zmiennych; 

- rysowanie wykresu normalności z eliminacją 

trendu dla wybranych zmiennych; 

- rysowanie trójwymiarowych histogramów dla 

wybranych par zmiennych. Po naciśnięciu tego przycisku pokazuje się okno, w którym 
wybieramy pary zmiennych. Poniższy rysunek pokazuje histogram dla zmiennych kawa 

i papierosy z przykładu 1. 

background image

Szeregi rozdzielcze 

szczegółowo wcześniej. 

Po wybraniu zmiennych do analizy i ustawieniu odpowiednich opcji procedurę 

obliczeniową uruchamiamy wykorzystując przycisk Tabele liczebności lub OK. Przycisk 
Anuluj zamyka okno bez wykonania jakichkolwiek obliczeń. 

Na zakończenie przeanalizujmy jeszcze jeden medyczny przykład tworzenia szeregu 
rozdzielczego i histogramu. 

Przykład 5 
Wykonano badania neurologiczne dotyczące odruchów w grupie 20 chorych. W trakcie 
oceniania przyjęto następującą skalę: 

0 - brak, 1 - osłabiony, 2 - prawidłowy, 3 - wyraźny, 4 - wygórowany 

125 

Rys. 6.25 Trójwymiarowy histogram dla zmiennych papierosy i kawa 

Podobnie jak w każdym z okien w programie

  S T A T I S T I C A ,

 tak i tutaj mamy przyciski 

do ustawiania wag i selekcji przypadków. Okna te zostały omówione 

background image

Przystępny kurs statystyki 

Otrzymano następujące wyniki: 

Odruchy 

łokciowy 

kolanowy 

skokowy 

Wybierając w oknie Tabele liczebności opcję Wszystkie różne wartości z opcją 
z wartościami tekstowymi otrzymujemy przykładowo dla odruchu łokciowego 
następujący histogram: 

Rys. 6.26 Szereg rozdzielczy dla 1 zmiennej z przykładu 5 

A tak wyglądają histogramy dla opisywanych powyżej zmiennych (otrzymane po 
naciśnięciu przycisku Histogramy): 

126 

background image

Szeregi rozdzielcze 

Rys.6.27 Histogram dla odruchu łokciowego Rys.6.28 Histogram dla odruchu kolanowego 

Rys.6.29 Histogram dla odruchu skokowego 

Zauważamy dużą zbieżność odpowiedzi dla odruchów „kolanowego" i „skokowego". 
Potwierdza to trójwymiarowy histogram (rysunek poniżej), zachęcając do dalsze głębszej 
analizy (np. zbadanie siły tej zależności i wynikających stąd konsekwencji). 

127 

background image

Przystępny kurs statystyki